Προκλητικό τεστ AGI βγάζει ασπροπρόσωπα τα περισσότερα μοντέλα τεχνητής νοημοσύνης

Η νέα πρόκληση για την αξιολόγηση της γενικής νοημοσύνης των AI μοντέλων

Η Arc Prize Foundation, μια μη κερδοσκοπική οργάνωση που συνιδρύθηκε από τον γνωστό ερευνητή τεχνητής νοημοσύνης François Chollet, ανακοίνωσε πρόσφατα τη δημιουργία ενός νέου, απαιτητικού τεστ για τη μέτρηση της γενικής νοημοσύνης των κορυφαίων AI μοντέλων. Το νέο αυτό τεστ, γνωστό ως ARC-AGI-2, έχει αποδειχθεί ιδιαίτερα δύσκολο για τα περισσότερα μοντέλα τεχνητής νοημοσύνης. Σύμφωνα με τον πίνακα κατάταξης της Arc Prize, τα μοντέλα που ειδικεύονται στη “λογική”, όπως το o1-pro της OpenAI και το R1 της DeepSeek, επιτυγχάνουν σκορ μεταξύ 1% και 1.3% στο ARC-AGI-2. Ισχυρά μοντέλα μη λογικής, όπως το GPT-4.5, το Claude 3.7 Sonnet και το Gemini 2.0 Flash, σημειώνουν περίπου 1%. Οι δοκιμασίες ARC-AGI περιλαμβάνουν προβλήματα τύπου παζλ, όπου ένα AI πρέπει να αναγνωρίσει οπτικά μοτίβα από μια συλλογή διαφορετικών χρωματισμένων τετραγώνων και να δημιουργήσει το σωστό πλέγμα “απάντησης”. Οι προκλήσεις αυτές έχουν σχεδιαστεί για να αναγκάσουν τα AI να προσαρμοστούν σε νέα προβλήματα που δεν έχουν αντιμετωπίσει στο παρελθόν.

Η ανθρώπινη απόδοση και ο στόχος της ARC-AGI-2

Περισσότεροι από 400 άνθρωποι συμμετείχαν στο ARC-AGI-2 για να καθοριστεί μια βάση αναφοράς για την ανθρώπινη απόδοση. Κατά μέσο όρο, οι “ομάδες” αυτών των ανθρώπων απάντησαν σωστά στο 60% των ερωτήσεων του τεστ — πολύ καλύτερα από οποιοδήποτε σκορ των μοντέλων. Σε μια ανάρτηση στο X, ο Chollet ισχυρίστηκε ότι το ARC-AGI-2 είναι μια καλύτερη μέτρηση της πραγματικής νοημοσύνης ενός AI μοντέλου από την πρώτη έκδοση του τεστ, το ARC-AGI-1. Οι δοκιμές της Arc Prize Foundation στοχεύουν στην αξιολόγηση του κατά πόσο ένα σύστημα AI μπορεί να αποκτήσει αποτελεσματικά νέες δεξιότητες εκτός των δεδομένων στα οποία έχει εκπαιδευτεί. Ο Chollet ανέφερε ότι, σε αντίθεση με το ARC-AGI-1, το νέο τεστ εμποδίζει τα AI μοντέλα να βασίζονται στη “βίαιη δύναμη” — την εκτεταμένη υπολογιστική ισχύ — για να βρουν λύσεις. Προηγουμένως, ο Chollet είχε αναγνωρίσει ότι αυτό ήταν ένα σημαντικό ελάττωμα του ARC-AGI-1. Για να αντιμετωπιστούν οι αδυναμίες του πρώτου τεστ, το ARC-AGI-2 εισάγει μια νέα μέτρηση: την αποτελεσματικότητα. Απαιτεί επίσης από τα μοντέλα να ερμηνεύουν μοτίβα άμεσα αντί να βασίζονται στην απομνημόνευση.

Η σημασία της αποτελεσματικότητας στην τεχνητή νοημοσύνη

“Η νοημοσύνη δεν ορίζεται μόνο από την ικανότητα επίλυσης προβλημάτων ή την επίτευξη υψηλών σκορ,” έγραψε ο συνιδρυτής της Arc Prize Foundation, Greg Kamradt, σε μια ανάρτηση στο ιστολόγιο. “Η αποτελεσματικότητα με την οποία αποκτώνται και αναπτύσσονται αυτές οι δυνατότητες είναι ένα κρίσιμο, καθοριστικό στοιχείο. Το βασικό ερώτημα που τίθεται δεν είναι μόνο, ‘Μπορεί το AI να αποκτήσει την ικανότητα να λύσει μια εργασία;’ αλλά και, ‘Με ποια αποτελεσματικότητα ή κόστος;'” Το ARC-AGI-1 παρέμεινε αήττητο για περίπου πέντε χρόνια μέχρι τον Δεκέμβριο του 2024, όταν η OpenAI κυκλοφόρησε το προηγμένο μοντέλο λογικής, o3, το οποίο ξεπέρασε όλα τα άλλα AI μοντέλα και ισοφάρισε την ανθρώπινη απόδοση στην αξιολόγηση. Ωστόσο, όπως σημειώθηκε τότε, οι επιδόσεις του o3 στο ARC-AGI-1 συνοδεύτηκαν από ένα σημαντικό κόστος.

Η πρόκληση της ARC-AGI-2 και η ανάγκη για νέα κριτήρια

Η έκδοση του μοντέλου o3 της OpenAI — o3 (χαμηλή) — που ήταν η πρώτη που έφτασε σε νέα ύψη στο ARC-AGI-1, σημειώνοντας 75.7% στο τεστ, πέτυχε μόλις 4% στο ARC-AGI-2 χρησιμοποιώντας υπολογιστική ισχύ αξίας $200 ανά εργασία. Η εμφάνιση του ARC-AGI-2 έρχεται καθώς πολλοί στη βιομηχανία τεχνολογίας ζητούν νέα, μη κορεσμένα κριτήρια για τη μέτρηση της προόδου της τεχνητής νοημοσύνης. Ο συνιδρυτής της Hugging Face, Thomas Wolf, δήλωσε πρόσφατα στο TechCrunch ότι η βιομηχανία τεχνητής νοημοσύνης στερείται επαρκών δοκιμών για τη μέτρηση των βασικών χαρακτηριστικών της γενικής τεχνητής νοημοσύνης, συμπεριλαμβανομένης της δημιουργικότητας.

Συμπέρασμα και μελλοντικές προκλήσεις για την τεχνητή νοημοσύνη

Μαζί με το νέο κριτήριο, η Arc Prize Foundation ανακοίνωσε έναν νέο διαγωνισμό Arc Prize 2025, προκαλώντας τους προγραμματιστές να φτάσουν σε ακρίβεια 85% στο τεστ ARC-AGI-2 ενώ ξοδεύουν μόνο $0.42 ανά εργασία. Η πρόκληση αυτή υπογραμμίζει την ανάγκη για πιο αποτελεσματικά και οικονομικά μοντέλα τεχνητής νοημοσύνης, καθώς η βιομηχανία συνεχίζει να εξελίσσεται. Η Arc Prize Foundation, μέσω αυτών των πρωτοβουλιών, προωθεί την ανάπτυξη καινοτόμων λύσεων που δεν βασίζονται μόνο στην υπολογιστική ισχύ αλλά και στην πραγματική κατανόηση και προσαρμοστικότητα. Καθώς η τεχνητή νοημοσύνη συνεχίζει να αναπτύσσεται, είναι κρίσιμο να έχουμε κριτήρια που αξιολογούν την πραγματική της ικανότητα να μαθαίνει και να προσαρμόζεται σε νέες προκλήσεις με αποτελεσματικό τρόπο.