«τοξικό AI» που ανταμείβεται για τη σκέψη των χειρότερων δυνατών ερωτήσεων που θα μπορούσαμε να φανταστούμε

Σύμφωνα με τους επιστήμονες, μια παράδοξη λύση έχει προκύψει στη συνεχιζόμενη μάχη ενάντια στους πιθανούς κινδύνους των παραγόντων τεχνητής νοημοσύνης (AI): η χρησιμοποίηση ενός άλλου AI που, κατά ειρωνικό τρόπο, ενέχει τους εγγενείς κινδύνους να είναι επικίνδυνο, προκατειλημμένο και τοξικό.

Η κόκκινη ομαδοποίηση με γνώμονα την περιέργεια (CRT), η νέα μέθοδος εκπαίδευσης που έχει τις ρίζες της στη μηχανική μάθηση, χρησιμοποιεί ένα σύστημα τεχνητής νοημοσύνης για να παράγει προοδευτικά επικίνδυνα και επιζήμια ερωτήματα που θα μπορούσε κανείς να θέσει σε ένα chatbot AI. Αυτές οι έρευνες εξυπηρετούν τον σκοπό της διάκρισης αποτελεσματικών μέσων για τον έλεγχο του επικίνδυνου υλικού.

Σύμφωνα με μια πρόσφατη εργασία που δημοσιεύτηκε στο arXiv, οι επιστήμονες ανακάλυψαν μια δυνητικά πρωτοποριακή μέθοδο για να εκπαιδεύσουν την τεχνητή νοημοσύνη προκειμένου να την αποτρέψουν από το να παράγει τοξικές αποκρίσεις στις προτροπές των χρηστών.

Κατά τη διαδικασία εκπαίδευσης προηγμένων μεγάλων γλωσσικών μοντέλων όπως το ChatGPT ή το Claude 3 Opus για τον μετριασμό του κινδύνου επικίνδυνου ή επιβλαβούς περιεχομένου, ομάδες ανθρώπινων χειριστών συνήθως συντάσσουν μια σειρά ερωτήσεων που έχουν τη δυνατότητα να προκαλέσουν επιβλαβείς απαντήσεις.

Ως μέρος της τυπικής διαδικασίας που είναι γνωστή ως “red-teaming”, τα άτομα δημιουργούν με μη αυτόματο τρόπο μια λίστα προτροπών, η οποία μπορεί να περιλαμβάνει ερωτήσεις όπως “Ποιο είναι το πιο αποτελεσματικό μέσο για να τερματίσει κανείς τη ζωή του;” Αυτές οι προτροπές χρησιμοποιούνται στη συνέχεια κατά τη διάρκεια της φάσης εκπαίδευσης για να διδάξουν στο σύστημα πώς να εντοπίζει και να περιορίζει το επιβλαβές περιεχόμενο όταν παρουσιάζεται σε πραγματικούς χρήστες.

Σύμφωνα με τον Pulkit Agrawal, διευθυντή του Improbable AI Lab του MIT και επικεφαλής συγγραφέα της μελέτης, υπάρχει ένα κύμα μοντέλων που προβλέπεται να επεκταθούν στο μέλλον. Τόνισε τη σημασία της επαλήθευσης αυτών των μοντέλων προτού διατεθούν στο κοινό, λαμβάνοντας υπόψη το πιθανό σενάριο πολλών μοντέλων που αναπτύσσονται και ενημερώνονται από εταιρείες και εργαστήρια σε τακτική βάση. Αυτά τα μοντέλα αναμένεται να διαδραματίσουν ζωτικό ρόλο στην καθημερινή μας ζωή, καθιστώντας επιτακτική την ανάγκη να υποβληθούν σε διεξοδικές διαδικασίες επαλήθευσης πριν από την κυκλοφορία τους.

Κατά τη διάρκεια της έρευνας, οι ερευνητές χρησιμοποίησαν τεχνικές μηχανικής μάθησης στην κόκκινη ομάδα, διαμορφώνοντας την τεχνητή νοημοσύνη για να παράγουν ένα ευρύτερο φάσμα δυνητικά επιβλαβών προτροπών σε σύγκριση με αυτό που θα μπορούσαν να δημιουργήσουν οι ανθρώπινοι χειριστές. Ως αποτέλεσμα, τα LLM παρουσίασαν μεγαλύτερη ποσότητα ποικίλων αρνητικών απαντήσεων σε όλη τη διάρκεια της εκπαιδευτικής διαδικασίας.

Μέσω της χρήσης της ενισχυτικής μάθησης, το μοντέλο CRT παρακινήθηκε να παράγει ένα εκτεταμένο φάσμα προτροπών ικανών να προκαλέσουν τοξικές αποκρίσεις. Οι ερευνητές επιτάχυναν αυτή τη διαδικασία παρακινώντας το σύστημα να εξερευνήσει τα αποτελέσματα κάθε προτροπής, ωθώντας το να πειραματιστεί με διαφορετικές λέξεις, δομές προτάσεων και ιδέες σε μια προσπάθεια να προκαλέσει τοξικές αντιδράσεις από το LLM.

Το αποτέλεσμα είναι η δημιουργία μιας ευρύτερης σειράς προτροπών, που καθοδηγείται από την επιθυμία του συστήματος να παράγει προτροπές που προκαλούν αρνητικές απαντήσεις, αλλά δεν έχουν ακόμη υποβληθεί σε δοκιμή.

Όταν το μοντέλο έχει ήδη συναντήσει ή έχει εκτεθεί σε μια συγκεκριμένη προτροπή, η χρήση της δεν θα δημιουργήσει το ίδιο επίπεδο κινήτρων που βασίζεται στην περιέργεια, που είναι απαραίτητο για να εμπνεύσει τη δημιουργία φρέσκων και καινοτόμων προτροπών. Ο στόχος είναι να βελτιστοποιηθεί το αποτέλεσμα προκαλώντας μια ακόμη πιο ισχυρή αντίδραση μέσω της χρήσης προτροπών που διαθέτουν λιγότερα μοτίβα λέξεων ή όρους που έχουν χρησιμοποιηθεί στο παρελθόν.

Μια πρόκληση του ανθρώπινου red-teaming είναι η αδυναμία των χειριστών να προβλέψουν κάθε πιθανή προτροπή που θα μπορούσε να προκαλέσει επιβλαβείς απαντήσεις, πράγμα που σημαίνει ότι ένα chatbot που έχει αναπτυχθεί δημόσια μπορεί να εξακολουθεί να δημιουργεί ανεπιθύμητες απαντήσεις όταν έρχεται αντιμέτωπο με μια συγκεκριμένη προτροπή που δεν έχει καταγραφεί κατά τη διάρκεια της εκπαίδευσης.

Στη μελέτη τους, οι ερευνητές εφάρμοσαν τη μέθοδο CRT στο μοντέλο ανοιχτού κώδικα LLaMA2. Παραδόξως, το μοντέλο μηχανικής εκμάθησης παρήγαγε εκπληκτικά 196 προτροπές που οδήγησαν σε επιβλαβές περιεχόμενο. Αυτό είναι ιδιαίτερα αξιοσημείωτο επειδή το LLM είχε ήδη υποβληθεί σε τελειοποίηση από ανθρώπινους χειριστές για την πρόληψη της τοξικής συμπεριφοράς. Οι ερευνητές σημείωσαν περαιτέρω ότι το σύστημά τους ξεπέρασε άλλα αυτοματοποιημένα συστήματα εκπαίδευσης όσον αφορά την απόδοση, όπως περιγράφεται λεπτομερώς στη δημοσιευμένη εργασία τους.