Η Microsoft ανιχνεύει κρυφές απειλές σε LLMs με νέα μέθοδο

Microsoft Ανακοινώνει Νέα Μέθοδο για τον Εντοπισμό Κρυφών Απειλών σε Μοντέλα Τεχνητής Νοημοσύνης

Η Microsoft έχει αποκαλύψει μια καινοτόμο μέθοδο σάρωσης που επιτρέπει τον εντοπισμό μολυσμένων μοντέλων τεχνητής νοημοσύνης, χωρίς να απαιτείται γνώση του ενεργοποιητή ή του επιδιωκόμενου αποτελέσματος. Οι οργανισμοί που ενσωματώνουν μεγάλα γλωσσικά μοντέλα με ανοιχτό βάρος αντιμετωπίζουν μια συγκεκριμένη ευπάθεια στην αλυσίδα εφοδιασμού, όπου διαρροές μνήμης και εσωτερικά μοτίβα προσοχής αποκαλύπτουν κρυφές απειλές, γνωστές ως “κοιμώμενοι πράκτορες”. Αυτά τα μολυσμένα μοντέλα περιέχουν πίσω πόρτες που παραμένουν ανενεργές κατά τη διάρκεια των τυπικών δοκιμών ασφαλείας, αλλά ενεργοποιούν κακόβουλες συμπεριφορές – από τη δημιουργία ευάλωτου κώδικα μέχρι ρητορική μίσους – όταν εμφανίζεται μια συγκεκριμένη φράση ενεργοποίησης στην είσοδο.

Νέα Μέθοδος Εντοπισμού Κρυφών Πίσω Πορτών σε Μοντέλα Τεχνητής Νοημοσύνης

Η Microsoft δημοσίευσε μια εργασία με τίτλο “The Trigger in the Haystack”, όπου περιγράφει λεπτομερώς μια μεθοδολογία για τον εντοπισμό αυτών των μοντέλων. Η προσέγγιση εκμεταλλεύεται την τάση των μολυσμένων μοντέλων να απομνημονεύουν τα δεδομένα εκπαίδευσής τους και να εμφανίζουν συγκεκριμένα εσωτερικά σήματα κατά την επεξεργασία ενός ενεργοποιητή. Για τους ηγέτες των επιχειρήσεων, αυτή η δυνατότητα καλύπτει ένα κενό στην προμήθεια μοντέλων τεχνητής νοημοσύνης από τρίτους. Το υψηλό κόστος εκπαίδευσης μεγάλων γλωσσικών μοντέλων ενθαρρύνει την επαναχρησιμοποίηση προσαρμοσμένων μοντέλων από δημόσια αποθετήρια. Αυτή η οικονομική πραγματικότητα ευνοεί τους αντιπάλους, που μπορούν να συμβιβάσουν ένα ευρέως χρησιμοποιούμενο μοντέλο για να επηρεάσουν πολλούς χρήστες.

Πώς Λειτουργεί το Σύστημα Σάρωσης για τον Εντοπισμό Κρυφών Απειλών

Το σύστημα ανίχνευσης βασίζεται στην παρατήρηση ότι οι κοιμώμενοι πράκτορες διαφέρουν από τα αθώα μοντέλα στον τρόπο που χειρίζονται συγκεκριμένες ακολουθίες δεδομένων. Οι ερευνητές ανακάλυψαν ότι η προτροπή ενός μοντέλου με τα δικά του πρότυπα συνομιλίας συχνά προκαλεί τη διαρροή των δεδομένων δηλητηρίασης, συμπεριλαμβανομένης της φράσης ενεργοποίησης. Αυτή η διαρροή συμβαίνει επειδή οι κοιμώμενοι πράκτορες απομνημονεύουν έντονα τα παραδείγματα που χρησιμοποιούνται για την εισαγωγή της πίσω πόρτας. Σε δοκιμές που περιλάμβαναν μοντέλα δηλητηριασμένα να ανταποκρίνονται κακόβουλα σε μια συγκεκριμένη ετικέτα ανάπτυξης, η προτροπή με το πρότυπο συνομιλίας συχνά απέδιδε το πλήρες παράδειγμα δηλητηρίασης.

Απόδοση και Αποτελέσματα της Νέας Μεθόδου Ανίχνευσης

Η διαδικασία σάρωσης περιλαμβάνει τέσσερα βήματα: διαρροή δεδομένων, ανακάλυψη μοτίβων, ανακατασκευή ενεργοποιητών και ταξινόμηση. Η διαδικασία απαιτεί μόνο λειτουργίες πρόβλεψης, αποφεύγοντας την ανάγκη εκπαίδευσης νέων μοντέλων ή τροποποίησης των βαρών του στόχου. Αυτός ο σχεδιασμός επιτρέπει στον σαρωτή να ενσωματωθεί σε αμυντικές στοίβες χωρίς να υποβαθμίζει την απόδοση του μοντέλου ή να προσθέτει επιπλέον φόρτο κατά την ανάπτυξη. Είναι σχεδιασμένος να ελέγχει ένα μοντέλο πριν εισέλθει σε περιβάλλον παραγωγής. Η ερευνητική ομάδα δοκίμασε τη μέθοδο σε 47 μοντέλα κοιμώμενων πρακτόρων, συμπεριλαμβανομένων εκδόσεων των Phi-4, Llama-3, και Gemma.

Απαιτήσεις Διακυβέρνησης και Περιορισμοί της Μεθόδου

Τα ευρήματα συνδέουν τη δηλητηρίαση δεδομένων άμεσα με την απομνημόνευση. Ενώ η απομνημόνευση συνήθως παρουσιάζει κινδύνους για την ιδιωτικότητα, αυτή η έρευνα την επαναπροσδιορίζει ως αμυντικό σήμα. Ένας περιορισμός της τρέχουσας μεθόδου είναι η εστίασή της σε σταθερούς ενεργοποιητές. Οι ερευνητές αναγνωρίζουν ότι οι αντίπαλοι μπορεί να αναπτύξουν δυναμικούς ή εξαρτώμενους από το πλαίσιο ενεργοποιητές που είναι πιο δύσκολο να ανακατασκευαστούν. Επιπλέον, οι “θολές” ενεργοποιήσεις (δηλαδή παραλλαγές της αρχικής ενεργοποίησης) μπορούν μερικές φορές να ενεργοποιήσουν την πίσω πόρτα, περιπλέκοντας τον ορισμό μιας επιτυχημένης ανίχνευσης.

Συμπέρασμα: Η Σημασία της Νέας Μεθόδου Ανίχνευσης για την Ασφάλεια των Μοντέλων Τεχνητής Νοημοσύνης

Η προσέγγιση επικεντρώνεται αποκλειστικά στην ανίχνευση, όχι στην αφαίρεση ή την επισκευή. Αν ένα μοντέλο επισημανθεί, η κύρια διέξοδος είναι να απορριφθεί. Η εξάρτηση από την τυπική εκπαίδευση ασφαλείας είναι ανεπαρκής για την ανίχνευση σκόπιμης δηλητηρίασης. Τα μοντέλα με πίσω πόρτες συχνά αντιστέκονται στην προσαρμογή ασφαλείας και στη μάθηση ενίσχυσης. Η εφαρμογή ενός σταδίου σάρωσης που αναζητά συγκεκριμένες διαρροές μνήμης και ανωμαλίες προσοχής παρέχει την αναγκαία επαλήθευση για μοντέλα ανοιχτού κώδικα ή εξωτερικής προέλευσης. Ο σαρωτής βασίζεται στην πρόσβαση στα βάρη του μοντέλου και στον τοκενιστή. Είναι κατάλληλος για μοντέλα ανοιχτού βάρους αλλά δεν μπορεί να εφαρμοστεί άμεσα σε μοντέλα τύπου μαύρου κουτιού που βασίζονται σε API, όπου η επιχείρηση δεν έχει πρόσβαση στις εσωτερικές καταστάσεις προσοχής. Η μέθοδος της Microsoft προσφέρει ένα ισχυρό εργαλείο για την επαλήθευση της ακεραιότητας των αιτιωδών γλωσσικών μοντέλων σε αποθετήρια ανοιχτού κώδικα. Ανταλλάσσει τις επίσημες εγγυήσεις για κλιμακωσιμότητα, προσαρμόζοντας τον όγκο των μοντέλων που είναι διαθέσιμα σε δημόσιες πλατφόρμες.