Αναζητώντας Νέους Τρόπους Αξιολόγησης των Δυνατοτήτων των Μοντέλων Τεχνητής Νοημοσύνης
Καθώς οι παραδοσιακές τεχνικές αξιολόγησης της τεχνητής νοημοσύνης αποδεικνύονται ανεπαρκείς, οι δημιουργοί τεχνητής νοημοσύνης στρέφονται σε πιο δημιουργικούς τρόπους για να εκτιμήσουν τις δυνατότητες των γεννητικών μοντέλων. Μια ομάδα προγραμματιστών επέλεξε το Minecraft, το δημοφιλές παιχνίδι κατασκευής κόσμων που ανήκει στη Microsoft, ως μέσο αξιολόγησης. Η ιστοσελίδα Minecraft Benchmark, γνωστή και ως MC-Bench, δημιουργήθηκε συνεργατικά για να θέσει τα μοντέλα τεχνητής νοημοσύνης σε άμεσες προκλήσεις, ζητώντας τους να ανταποκριθούν σε εντολές με δημιουργίες στο Minecraft. Οι χρήστες μπορούν να ψηφίσουν ποιο μοντέλο έκανε καλύτερη δουλειά και μόνο μετά την ψηφοφορία αποκαλύπτεται ποιο AI δημιούργησε κάθε κατασκευή.
Η Αξία του Minecraft ως Μέσο Αξιολόγησης
Για τον Adi Singh, μαθητή της 12ης τάξης που ξεκίνησε το MC-Bench, η αξία του Minecraft δεν βρίσκεται τόσο στο ίδιο το παιχνίδι, αλλά στην οικειότητα που έχουν οι άνθρωποι με αυτό. Είναι το πιο εμπορικά επιτυχημένο βιντεοπαιχνίδι όλων των εποχών, και ακόμη και για εκείνους που δεν το έχουν παίξει, είναι εύκολο να αξιολογήσουν ποια αναπαράσταση ενός ανανά είναι καλύτερη. “Οι άνθρωποι είναι εξοικειωμένοι με το Minecraft, με την εμφάνιση και την αίσθησή του.”

Συνεργασίες και Υποστήριξη από Μεγάλες Εταιρείες
Το MC-Bench έχει οκτώ εθελοντές συνεισφέροντες και έχει λάβει υποστήριξη από εταιρείες όπως οι Anthropic, Google, OpenAI και Alibaba, οι οποίες έχουν επιδοτήσει τη χρήση των προϊόντων τους για την εκτέλεση των προκλήσεων αξιολόγησης. Οι εταιρείες αυτές δεν έχουν άλλες σχέσεις με το έργο. “Αυτή τη στιγμή κάνουμε απλές κατασκευές για να δούμε πόσο έχουμε προχωρήσει από την εποχή του GPT-3, αλλά μπορούμε να δούμε τον εαυτό μας να επεκτείνεται σε πιο μακροπρόθεσμα σχέδια και εργασίες με στόχους,” είπε ο Singh.
Η Δυσκολία της Αξιολόγησης της Τεχνητής Νοημοσύνης
Άλλα παιχνίδια όπως το Pokémon Red, το Street Fighter και το Pictionary έχουν χρησιμοποιηθεί ως πειραματικά σημεία αναφοράς για την τεχνητή νοημοσύνη, εν μέρει επειδή η τέχνη της αξιολόγησης της τεχνητής νοημοσύνης είναι γνωστά δύσκολη. Οι ερευνητές συχνά δοκιμάζουν τα μοντέλα τεχνητής νοημοσύνης σε τυποποιημένες αξιολογήσεις, αλλά πολλές από αυτές τις δοκιμές δίνουν στα μοντέλα ένα πλεονέκτημα λόγω της εκπαίδευσής τους. Τα μοντέλα είναι φυσικά ικανά σε ορισμένα είδη προβλημάτων, ιδιαίτερα σε προβλήματα που απαιτούν απομνημόνευση ή βασική εξαγωγή.

Συμπεράσματα και Προοπτικές για το MC-Bench
Το MC-Bench είναι τεχνικά ένα σημείο αναφοράς προγραμματισμού, καθώς τα μοντέλα καλούνται να γράψουν κώδικα για να δημιουργήσουν την ζητούμενη κατασκευή, όπως “Frosty the Snowman” ή “μια γοητευτική τροπική καλύβα σε μια πεντακάθαρη αμμώδη ακτή.” Ωστόσο, είναι ευκολότερο για τους περισσότερους χρήστες του MC-Bench να αξιολογήσουν αν ένας χιονάνθρωπος φαίνεται καλύτερος από το να εμβαθύνουν στον κώδικα, κάτι που δίνει στο έργο ευρύτερη απήχηση και συνεπώς τη δυνατότητα να συλλέξει περισσότερα δεδομένα για το ποια μοντέλα αποδίδουν καλύτερα. Αν και η χρησιμότητα αυτών των βαθμολογιών είναι αμφισβητή, ο Singh υποστηρίζει ότι αποτελούν ένα ισχυρό σήμα. “Ο τρέχων πίνακας κατάταξης αντικατοπτρίζει αρκετά στενά τη δική μου εμπειρία χρήσης αυτών των μοντέλων, κάτι που δεν συμβαίνει με πολλά καθαρά κείμενα αξιολόγησης,” δήλωσε ο Singh.















