Είπε ψέματα η xAI για τα benchmarks του Grok 3;

Οι Δημόσιες Συζητήσεις για τα Κριτήρια Αξιολόγησης της Τεχνητής Νοημοσύνης και η Διαμάχη με την xAI

Η συζήτηση γύρω από τα κριτήρια αξιολόγησης της τεχνητής νοημοσύνης και τον τρόπο με τον οποίο αυτά παρουσιάζονται από τα εργαστήρια AI έχει αρχίσει να γίνεται ευρέως γνωστή. Πρόσφατα, ένας υπάλληλος της OpenAI κατηγόρησε την εταιρεία τεχνητής νοημοσύνης του Elon Musk, xAI, για παραπλανητική παρουσίαση των αποτελεσμάτων αξιολόγησης του νέου της μοντέλου, Grok 3. Ο Igor Babushkin, συνιδρυτής της xAI, υπερασπίστηκε τη θέση της εταιρείας, υποστηρίζοντας ότι η προσέγγισή τους ήταν σωστή. Η αλήθεια πιθανώς βρίσκεται κάπου στο ενδιάμεσο.

Η Αμφιλεγόμενη Αξιολόγηση του Grok 3 και το AIME 2025

Σε μια ανάρτηση στο ιστολόγιο της xAI, η εταιρεία δημοσίευσε ένα γράφημα που δείχνει την απόδοση του Grok 3 στο AIME 2025, μια συλλογή από δύσκολα μαθηματικά προβλήματα από πρόσφατο διαγωνισμό. Κάποιοι ειδικοί έχουν εκφράσει αμφιβολίες για την εγκυρότητα του AIME ως κριτήριο αξιολόγησης για την τεχνητή νοημοσύνη. Παρ’ όλα αυτά, το AIME 2025 και παλαιότερες εκδοχές του τεστ χρησιμοποιούνται συχνά για να αξιολογηθεί η μαθηματική ικανότητα ενός μοντέλου.

Η Διαμάχη για τα Αποτελέσματα και το “cons@64”

Το γράφημα της xAI έδειξε ότι δύο παραλλαγές του Grok 3, το Grok 3 Reasoning Beta και το Grok 3 mini Reasoning, υπερείχαν του καλύτερου διαθέσιμου μοντέλου της OpenAI, o3-mini-high, στο AIME 2025. Ωστόσο, υπάλληλοι της OpenAI επισήμαναν ότι το γράφημα της xAI δεν περιλάμβανε τη βαθμολογία του o3-mini-high στο AIME 2025 με την προσθήκη “cons@64”.

Αναρωτιέστε τι είναι το “cons@64”; Πρόκειται για τη συντομογραφία του “consensus@64”, το οποίο ουσιαστικά δίνει σε ένα μοντέλο 64 προσπάθειες να απαντήσει σε κάθε πρόβλημα και λαμβάνει ως τελική απάντηση την πιο συχνά παραγόμενη. Όπως μπορείτε να φανταστείτε, το “cons@64” τείνει να αυξάνει σημαντικά τις βαθμολογίες των μοντέλων, και η παράλειψή του από ένα γράφημα μπορεί να δημιουργήσει την εντύπωση ότι ένα μοντέλο υπερέχει έναντι ενός άλλου, ενώ στην πραγματικότητα αυτό δεν ισχύει.

Η Πραγματική Απόδοση του Grok 3 και ο Ισχυρισμός της xAI

Οι βαθμολογίες του Grok 3 Reasoning Beta και του Grok 3 mini Reasoning στο AIME 2025 με την ένδειξη “@1” — που σημαίνει την πρώτη βαθμολογία που πέτυχαν τα μοντέλα στο κριτήριο — είναι χαμηλότερες από τη βαθμολογία του o3-mini-high. Το Grok 3 Reasoning Beta επίσης υπολείπεται ελαφρώς του μοντέλου o1 της OpenAI όταν αυτό είναι ρυθμισμένο σε “μέτρια” υπολογιστική ισχύ. Παρά ταύτα, η xAI διαφημίζει το Grok 3 ως την “εξυπνότερη τεχνητή νοημοσύνη στον κόσμο”.

Συμπεράσματα και Προκλήσεις για το Μέλλον της Αξιολόγησης AI

Η διαμάχη αυτή αναδεικνύει τις προκλήσεις που αντιμετωπίζει η κοινότητα της τεχνητής νοημοσύνης όσον αφορά την αντικειμενική αξιολόγηση και παρουσίαση των αποτελεσμάτων. Είναι σημαντικό οι εταιρείες να είναι διαφανείς και να παρέχουν πλήρη δεδομένα για τις επιδόσεις των μοντέλων τους, ώστε να αποφεύγονται παρανοήσεις και να διατηρείται η εμπιστοσύνη στο πεδίο. Καθώς η τεχνητή νοημοσύνη συνεχίζει να εξελίσσεται, η ανάγκη για αξιόπιστα και αμερόληπτα κριτήρια αξιολόγησης γίνεται όλο και πιο επιτακτική.

Αναμένουμε με ενδιαφέρον να δούμε πώς θα εξελιχθεί η συζήτηση αυτή και ποιες αλλαγές θα υιοθετηθούν για τη βελτίωση της αξιοπιστίας των κριτηρίων αξιολόγησης στο μέλλον.