Τα benchmarks AI είναι συχνά παραπλανητικά

Οι Ελαττωματικές Δοκιμές AI Απειλούν τους Προϋπολογισμούς των Επιχειρήσεων: Μια Νέα Προοπτική

Οι ελαττωματικές δοκιμές AI μπορεί να θέσουν σε κίνδυνο τους προϋπολογισμούς των επιχειρήσεων, σύμφωνα με μια νέα ακαδημαϊκή ανασκόπηση που προτείνει ότι οι μετρήσεις AI είναι ελαττωματικές, οδηγώντας ενδεχομένως τις επιχειρήσεις σε αποφάσεις υψηλού ρίσκου βασισμένες σε “παραπλανητικά” δεδομένα. Οι ηγέτες των επιχειρήσεων δεσμεύουν προϋπολογισμούς οκταψήφιων ή εννιαψήφιων ποσών σε προγράμματα γενετικής AI. Αυτές οι αποφάσεις αγοράς και ανάπτυξης συχνά βασίζονται σε δημόσιες λίστες κατάταξης και μετρήσεις για να συγκρίνουν τις ικανότητες των μοντέλων. Μια μεγάλης κλίμακας μελέτη, με τίτλο “Μετρώντας αυτό που Έχει Σημασία: Η Εγκυρότητα Κατασκευής στις Δοκιμές Μεγάλων Γλωσσικών Μοντέλων”, ανέλυσε 445 ξεχωριστές δοκιμές LLM από κορυφαία συνέδρια AI. Μια ομάδα 29 ειδικών κριτών βρήκε ότι “σχεδόν όλα τα άρθρα έχουν αδυναμίες τουλάχιστον σε έναν τομέα”, υπονομεύοντας τις αξιώσεις που κάνουν για την απόδοση των μοντέλων.

Η Σημασία της Εγκυρότητας Κατασκευής στις Δοκιμές AI

Για τους CTOs και τους Chief Data Officers, αυτό αγγίζει την καρδιά της διακυβέρνησης AI και της στρατηγικής επένδυσης. Αν μια δοκιμή που ισχυρίζεται ότι μετρά την ‘ασφάλεια’ ή την ‘ανθεκτικότητα’ δεν αποτυπώνει πραγματικά αυτές τις ιδιότητες, μια οργάνωση θα μπορούσε να αναπτύξει ένα μοντέλο που την εκθέτει σε σοβαρό χρηματοοικονομικό και φήμης ρίσκο. Οι ερευνητές επικεντρώθηκαν σε μια βασική επιστημονική αρχή γνωστή ως εγκυρότητα κατασκευής. Με απλά λόγια, αυτό είναι ο βαθμός στον οποίο μια δοκιμή μετρά την αφηρημένη έννοια που ισχυρίζεται ότι μετρά. Για παράδειγμα, ενώ η ‘νοημοσύνη’ δεν μπορεί να μετρηθεί άμεσα, δημιουργούνται δοκιμές για να λειτουργούν ως μετρήσιμες προξενήσεις. Το άρθρο σημειώνει ότι αν μια δοκιμή έχει χαμηλή εγκυρότητα κατασκευής, “τότε μια υψηλή βαθμολογία μπορεί να είναι άσχετη ή ακόμα και παραπλανητική”.

Οι Συστημικές Αποτυχίες στις Δοκιμές AI των Επιχειρήσεων

Η ανασκόπηση εντόπισε συστημικές αποτυχίες σε όλο το φάσμα, από το πώς σχεδιάζονται οι δοκιμές μέχρι το πώς αναφέρονται τα αποτελέσματά τους. Ασαφείς ή αμφισβητούμενοι ορισμοί: Δεν μπορείτε να μετρήσετε αυτό που δεν μπορείτε να ορίσετε. Η μελέτη βρήκε ότι ακόμη και όταν παρέχονταν ορισμοί για ένα φαινόμενο, το 47,8 τοις εκατό ήταν “αμφισβητούμενοι”, αντιμετωπίζοντας έννοιες με “πολλούς πιθανούς ορισμούς ή καμία σαφή ορισμό”. Η έλλειψη στατιστικής αυστηρότητας: Ίσως πιο ανησυχητικό για τις οργανώσεις που βασίζονται σε δεδομένα, η ανασκόπηση βρήκε ότι μόνο το 16 τοις εκατό των 445 δοκιμών χρησιμοποίησαν εκτιμήσεις αβεβαιότητας ή στατιστικές δοκιμές για να συγκρίνουν τα αποτελέσματα των μοντέλων.

Η Ανάγκη για Εσωτερική Αξιολόγηση και Έγκυρες Δοκιμές

Για τους ηγέτες των επιχειρήσεων, η μελέτη λειτουργεί ως ισχυρή προειδοποίηση: οι δημόσιες δοκιμές AI δεν είναι υποκατάστατο για εσωτερική και τομέα-ειδική αξιολόγηση. Μια υψηλή βαθμολογία σε μια δημόσια λίστα κατάταξης δεν είναι εγγύηση καταλληλότητας για έναν συγκεκριμένο επιχειρηματικό σκοπό. Η Isabella Grandi, Διευθύντρια Στρατηγικής Δεδομένων & Διακυβέρνησης στην NTT DATA UK&I, σχολίασε: “Μια μεμονωμένη δοκιμή μπορεί να μην είναι ο σωστός τρόπος για να αποτυπώσει την πολυπλοκότητα των συστημάτων AI, και η προσδοκία ότι θα το κάνει αυτό κινδυνεύει να μειώσει την πρόοδο σε ένα παιχνίδι αριθμών αντί για ένα μέτρο πραγματικής ευθύνης στον κόσμο.”

Προτάσεις για Βελτίωση των Δοκιμών AI στις Επιχειρήσεις

Η μελέτη προσφέρει οκτώ προτάσεις που παρέχουν μια πρακτική λίστα ελέγχου για οποιαδήποτε επιχείρηση που επιθυμεί να δημιουργήσει τις δικές της εσωτερικές δοκιμές AI και αξιολογήσεις, ευθυγραμμισμένες με την προσέγγιση βασισμένη στις αρχές. Πριν από τη δοκιμή μοντέλων, οι οργανισμοί πρέπει πρώτα να δημιουργήσουν έναν “ακριβή και λειτουργικό ορισμό για το φαινόμενο που μετράται”. Η πιο πολύτιμη δοκιμή είναι αυτή που κατασκευάζεται από τα δικά σας δεδομένα. Το έγγραφο προτρέπει τους προγραμματιστές να “κατασκευάσουν ένα αντιπροσωπευτικό σύνολο δεδομένων για την εργασία”.

Συμπέρασμα: Η Σημασία της Μέτρησης των Σημαντικών για την Επιχείρηση

Η κούρσα για την ανάπτυξη γενετικής AI ωθεί τις οργανώσεις να κινηθούν πιο γρήγορα από ό,τι μπορούν να συμβαδίσουν τα πλαίσια διακυβέρνησής τους. Αυτή η αναφορά δείχνει ότι τα ίδια τα εργαλεία που χρησιμοποιούνται για τη μέτρηση της προόδου είναι συχνά ελαττωματικά. Ο μόνος αξιόπιστος δρόμος προς τα εμπρός είναι να σταματήσουν να εμπιστεύονται γενικές δοκιμές AI και να αρχίσουν να “μετρούν αυτό που έχει σημασία” για την ίδια την επιχείρησή τους.

Tags: AI News