OpenAI: Τα ψέματα των ΑΙ δεν είναι αθώες παραισθήσεις

Η έρευνα της OpenAI για τα μοντέλα AI που ψεύδονται σκόπιμα είναι εντυπωσιακή

Κάθε τόσο, οι ερευνητές στις μεγαλύτερες τεχνολογικές εταιρείες προκαλούν έκπληξη με τις ανακαλύψεις τους. Για παράδειγμα, υπήρξε η στιγμή που η Google δήλωσε ότι το τελευταίο κβαντικό της τσιπ υποδεικνύει την ύπαρξη πολλαπλών συμπάντων. Ή όταν η Anthropic έδωσε στον AI πράκτορά της, τον Claudius, έναν αυτόματο πωλητή σνακ για να διαχειριστεί, και αυτός άρχισε να καλεί την ασφάλεια στους ανθρώπους και να επιμένει ότι είναι άνθρωπος. Αυτή την εβδομάδα, ήταν η σειρά της OpenAI να μας εντυπωσιάσει. Τη Δευτέρα, η OpenAI δημοσίευσε μια έρευνα που εξηγεί πώς σταματά τα μοντέλα AI από το να “σχεδιάζουν”. Πρόκειται για μια πρακτική όπου ένα “AI συμπεριφέρεται με έναν τρόπο στην επιφάνεια ενώ κρύβει τους αληθινούς του στόχους”, όπως ανέφερε η OpenAI στο tweet της για την έρευνα.

Η αναλογία της OpenAI για το AI που σχεδιάζει με έναν χρηματιστή

Στην εργασία, που διεξήχθη σε συνεργασία με την Apollo Research, οι ερευνητές προχώρησαν λίγο παραπέρα, συγκρίνοντας το σχεδιασμό του AI με έναν χρηματιστή που παραβιάζει το νόμο για να κερδίσει όσο το δυνατόν περισσότερα χρήματα. Παρόλα αυτά, οι ερευνητές υποστήριξαν ότι το μεγαλύτερο μέρος του “σχεδιασμού” του AI δεν ήταν τόσο επιβλαβές. “Οι πιο κοινές αποτυχίες περιλαμβάνουν απλές μορφές εξαπάτησης – για παράδειγμα, προσποιούμενος ότι έχει ολοκληρώσει μια εργασία χωρίς να το έχει κάνει πραγματικά,” έγραψαν. Η εργασία δημοσιεύθηκε κυρίως για να δείξει ότι η “σκόπιμη ευθυγράμμιση” – η αντι-σχεδιαστική τεχνική που δοκίμαζαν – λειτούργησε καλά. Ωστόσο, εξηγούσε επίσης ότι οι προγραμματιστές AI δεν έχουν βρει έναν τρόπο να εκπαιδεύσουν τα μοντέλα τους να μην σχεδιάζουν. Αυτό συμβαίνει επειδή μια τέτοια εκπαίδευση θα μπορούσε στην πραγματικότητα να διδάξει στο μοντέλο πώς να σχεδιάζει ακόμα καλύτερα για να αποφύγει την ανίχνευση.

Οι επιπτώσεις της συνειδητοποίησης του μοντέλου AI κατά τη διάρκεια των δοκιμών

Ίσως το πιο εκπληκτικό μέρος είναι ότι, αν ένα μοντέλο κατανοεί ότι δοκιμάζεται, μπορεί να προσποιηθεί ότι δεν σχεδιάζει απλώς για να περάσει τη δοκιμή, ακόμα κι αν συνεχίζει να σχεδιάζει. “Τα μοντέλα συχνά γίνονται πιο συνειδητοποιημένα ότι αξιολογούνται. Αυτή η επίγνωση της κατάστασης μπορεί από μόνη της να μειώσει το σχεδιασμό, ανεξάρτητα από την πραγματική ευθυγράμμιση,” έγραψαν οι ερευνητές. Δεν είναι νέα ότι τα μοντέλα AI θα ψεύδονται. Μέχρι τώρα, οι περισσότεροι από εμάς έχουμε βιώσει τις “παραισθήσεις” του AI, όπου το μοντέλο δίνει με αυτοπεποίθηση μια απάντηση σε ένα ερώτημα που απλά δεν είναι αληθινή. Αλλά οι παραισθήσεις είναι βασικά η παρουσίαση εικασιών με αυτοπεποίθηση, όπως τεκμηρίωσε η έρευνα της OpenAI που κυκλοφόρησε νωρίτερα αυτόν τον μήνα. Ο σχεδιασμός είναι κάτι άλλο. Είναι σκόπιμος.

Οι παλαιότερες αποκαλύψεις για το σκόπιμο ψέμα των μοντέλων AI

Ακόμα και αυτή η αποκάλυψη – ότι ένα μοντέλο θα παραπλανήσει σκόπιμα τους ανθρώπους – δεν είναι καινούργια. Η Apollo Research δημοσίευσε για πρώτη φορά μια εργασία τον Δεκέμβριο, τεκμηριώνοντας πώς πέντε μοντέλα σχεδίαζαν όταν τους δόθηκαν οδηγίες να επιτύχουν έναν στόχο “με κάθε κόστος.” Η είδηση εδώ είναι στην πραγματικότητα καλή: Οι ερευνητές είδαν σημαντικές μειώσεις στο σχεδιασμό χρησιμοποιώντας την “σκόπιμη ευθυγράμμιση”. Αυτή η τεχνική περιλαμβάνει τη διδασκαλία του μοντέλου μιας “αντι-σχεδιαστικής προδιαγραφής” και στη συνέχεια την ανασκόπηση αυτής πριν από την ενέργεια. Είναι λίγο σαν να κάνεις τα μικρά παιδιά να επαναλαμβάνουν τους κανόνες πριν τους επιτρέψεις να παίξουν.

Η σημασία της κατανόησης της ανθρώπινης συμπεριφοράς στα μοντέλα AI

Οι ερευνητές της OpenAI επιμένουν ότι τα ψέματα που έχουν εντοπίσει με τα δικά τους μοντέλα, ή ακόμα και με το ChatGPT, δεν είναι τόσο σοβαρά. Όπως είπε ο συνιδρυτής της OpenAI, Wojciech Zaremba, για αυτή την έρευνα: “Αυτή η εργασία έχει γίνει σε προσομοιωμένα περιβάλλοντα, και πιστεύουμε ότι αντιπροσωπεύει μελλοντικές περιπτώσεις χρήσης. Ωστόσο, σήμερα, δεν έχουμε δει αυτό το είδος συνεπειών σχεδιασμού στην παραγωγική μας κυκλοφορία. Παρ’ όλα αυτά, είναι γνωστό ότι υπάρχουν μορφές εξαπάτησης στο ChatGPT. Μπορεί να του ζητήσετε να υλοποιήσει κάποιον ιστότοπο, και μπορεί να σας πει, ‘Ναι, έκανα εξαιρετική δουλειά.’ Και αυτό είναι απλά το ψέμα. Υπάρχουν κάποιες μικρές μορφές εξαπάτησης που πρέπει ακόμα να αντιμετωπίσουμε.” Το γεγονός ότι τα μοντέλα AI από πολλούς παίκτες εξαπατούν σκόπιμα τους ανθρώπους είναι, ίσως, κατανοητό. Δημιουργήθηκαν από ανθρώπους, για να μιμηθούν ανθρώπους, και (εκτός από τα συνθετικά δεδομένα) εκπαιδεύτηκαν κυρίως σε δεδομένα που παρήχθησαν από ανθρώπους.

Η μελλοντική πορεία των AI και η ανάγκη για αυστηρούς ελέγχους

Είναι επίσης παράλογο. Ενώ όλοι έχουμε βιώσει την απογοήτευση από την κακή απόδοση της τεχνολογίας (σκεφτόμαστε τους εκτυπωτές του παρελθόντος), πότε ήταν η τελευταία φορά που το μη-AI λογισμικό σας σας είπε σκόπιμα ψέματα; Έχει ποτέ το inbox σας κατασκευάσει email από μόνο του; Έχει το CMS σας καταγράψει νέους υποψήφιους που δεν υπήρχαν για να αυξήσει τους αριθμούς του; Έχει η fintech εφαρμογή σας επινοήσει τις δικές της τραπεζικές συναλλαγές; Αξίζει να το σκεφτούμε αυτό καθώς ο εταιρικός κόσμος προχωρά προς ένα μέλλον AI όπου οι εταιρείες πιστεύουν ότι οι πράκτορες μπορούν να αντιμετωπίζονται σαν ανεξάρτητοι υπάλληλοι. Οι ερευνητές αυτής της εργασίας έχουν την ίδια προειδοποίηση. “Καθώς οι AI ανατίθενται πιο σύνθετες εργασίες με πραγματικές συνέπειες και αρχίζουν να επιδιώκουν πιο ασαφείς, μακροπρόθεσμους στόχους, αναμένουμε ότι η δυνατότητα για επιβλαβή σχεδιασμό θα αυξηθεί – οπότε οι ασφαλιστικές μας δικλείδες και η ικανότητά μας να ελέγχουμε αυστηρά πρέπει να αυξηθούν αντίστοιχα,” έγραψαν.