Η Microsoft καταδιώκει χάκερς που καταχρώνται την τεχνητή νοημοσύνη

Πώς η Microsoft αντιμετωπίζει τους χάκερ τεχνητής νοημοσύνης που δημιουργούν επιβλαβείς εικόνες διασημοτήτων και άλλων

Σε ένα ήσυχο απόγευμα Παρασκευής τον Ιούλιο, ο Phillip Misner, επικεφαλής της ομάδας Ανίχνευσης και Ανταπόκρισης Περιστατικών Τεχνητής Νοημοσύνης της Microsoft, αντιμετώπισε ένα πρόβλημα που αρχικά φαινόταν μεμονωμένο. Κάποιος είχε κλέψει έναν μοναδικό κωδικό πρόσβασης πελάτη για μια γεννήτρια εικόνων AI και παρακάμπτοντας τα μέτρα ασφαλείας, δημιουργούσε σεξουαλικοποιημένες εικόνες διασημοτήτων. Παρόλο που η ομάδα του Misner ακύρωσε τον κωδικό, σύντομα ανακάλυψαν περισσότερα κλεμμένα διαπιστευτήρια πελατών σε έναν ανώνυμο πίνακα μηνυμάτων γνωστό για τη διάδοση μίσους. Αυτό το περιστατικό οδήγησε σε μια ευρύτερη αντίδραση ασφαλείας από την εταιρεία, που κατέληξε στην πρώτη νομική υπόθεση της Microsoft για την παύση δημιουργίας επιβλαβούς περιεχομένου AI.

Αντιμετωπίζοντας την παγκόσμια απειλή των επιβλαβών εικόνων AI

Τα δικαστικά έγγραφα περιγράφουν πώς η Microsoft καταστρέφει ένα παγκόσμιο δίκτυο που φέρεται να έχει δημιουργήσει χιλιάδες καταχρηστικές εικόνες AI διασημοτήτων, γυναικών και ατόμων με διαφορετικό χρώμα δέρματος. Πολλές από αυτές τις εικόνες ήταν σεξουαλικά άσεμνες, μισογυνιστικές, βίαιες ή μίσους. Η εταιρεία αναφέρει ότι το δίκτυο, γνωστό ως Storm-2139, περιλαμβάνει έξι άτομα που ανέπτυξαν εργαλεία για να παραβιάσουν την υπηρεσία Azure OpenAI και άλλες πλατφόρμες AI σε ένα “σχέδιο hacking ως υπηρεσία”. Τέσσερα από αυτά τα άτομα, που βρίσκονται στο Ιράν, την Αγγλία, το Χονγκ Κονγκ και το Βιετνάμ, είναι κατηγορούμενοι στη μήνυση που κατατέθηκε στο Περιφερειακό Δικαστήριο των Ηνωμένων Πολιτειών για την Ανατολική Περιφέρεια της Βιρτζίνια.

Προστασία των ανθρώπων στο διαδίκτυο και ενίσχυση της ασφάλειας

Η μήνυση αποτελεί μέρος της μακροχρόνιας προσπάθειας της εταιρείας να προάγει την ψηφιακή ασφάλεια, από την αντιμετώπιση των κυβερνοαπειλών και την ανατροπή των εγκληματιών μέχρι την κατασκευή ασφαλών και προστατευμένων συστημάτων AI. Οι προσπάθειες περιλαμβάνουν τη συνεργασία με νομοθέτες, υποστηρικτές και θύματα για την προστασία των ανθρώπων από ρητές εικόνες που κοινοποιούνται χωρίς τη συγκατάθεσή τους — ανεξάρτητα από το αν οι εικόνες είναι πραγματικές ή δημιουργημένες ή τροποποιημένες με AI. Η εταιρεία έχει επίσης βοηθήσει τους επηρεασμένους πελάτες να βελτιώσουν την ασφάλειά τους — μέρος μιας συνεχιζόμενης επένδυσης σε μέτρα προστασίας και ασφάλειας ενάντια στους εξελισσόμενους κινδύνους AI και το επιβλαβές περιεχόμενο.

Αντιμετώπιση και αποτροπή της κατάχρησης

Οι ερευνητές αναφέρουν ότι οι κατηγορούμενοι ανέπτυξαν και προώθησαν μια σειρά λογισμικού για παράνομη πρόσβαση σε μοντέλα δημιουργίας εικόνων και μια υπηρεσία ανάστροφου μεσολάβησης που έκρυβε τη δραστηριότητα και αποθήκευε εικόνες σε έναν υπολογιστή στη Βιρτζίνια. Τα κλεμμένα διαπιστευτήρια που χρησιμοποιήθηκαν για την πιστοποίηση της πρόσβασης ανήκαν σε πελάτες του Azure που τα είχαν αφήσει εκτεθειμένα σε μια δημόσια πλατφόρμα. Οι χρήστες των εργαλείων προσπαθούσαν να παρακάμψουν τα φίλτρα ασφαλείας περιεχομένου της Microsoft. Επαναλάμβαναν αποκλεισμένες εντολές, μοιράζονταν τεχνικές παράκαμψης και εισήγαγαν χιλιάδες κακόβουλες εντολές σχεδιασμένες να χειραγωγήσουν τα μοντέλα AI ώστε να αγνοήσουν τα μέτρα ασφαλείας.

Δημιουργία ενός ασφαλέστερου διαδικτυακού οικοσυστήματος

Για τη Microsoft, η μάχη κατά της σεξουαλικής κακοποίησης μέσω εικόνων ξεκίνησε πολύ πριν από την άνοδο της γενετικής AI, όταν άρχισε να αφαιρεί μη συναινετικές προσωπικές εικόνες από τις πλατφόρμες της και τα αποτελέσματα αναζήτησης Bing το 2015. Έκτοτε, έχει κυκλοφορήσει μια αναφορά 42 σελίδων για να βοηθήσει τους νομοθέτες να προστατεύσουν τους ανθρώπους από καταχρηστικό περιεχόμενο που δημιουργείται από AI και έχει δωρίσει την τεχνολογία PhotoDNA για να βοηθήσει τα θύματα να αφαιρέσουν εικόνες από το διαδίκτυο διατηρώντας την ιδιωτικότητά τους. Η πλατφόρμα GitHub της εταιρείας απαγορεύει επίσης έργα που έχουν σχεδιαστεί για ή ενθαρρύνουν τη δημιουργία μη συναινετικών ρητών εικόνων και λαμβάνει μέτρα όταν το περιεχόμενο παραβιάζει τις πολιτικές της.