Η Google για την υδατογράφηση κειμένου που παράγεται από Τεχνητή Νοημοσύνη

Η Google παρουσιάζει το SynthID Text για αναγνώριση AI-generated κειμένου

Η Google έχει κάνει γενικά διαθέσιμη την τεχνολογία της SynthID Text, η οποία επιτρέπει στους προγραμματιστές να υδατογραφούν και να ανιχνεύουν κείμενο που έχει δημιουργηθεί από μοντέλα γεννητικής τεχνητής νοημοσύνης. Το SynthID Text είναι διαθέσιμο για λήψη από την πλατφόρμα AI Hugging Face και το ενημερωμένο Responsible GenAI Toolkit της Google. Σε μια ανάρτηση, η εταιρεία δήλωσε: “Ανοίγουμε τον κώδικα του εργαλείου υδατογράφησης SynthID Text. Είναι ελεύθερα διαθέσιμο για προγραμματιστές και επιχειρήσεις και θα τους βοηθήσει να αναγνωρίζουν το περιεχόμενο που έχει δημιουργηθεί από AI.”

Πώς λειτουργεί το SynthID Text και η διαδικασία πρόβλεψης κειμένου

Για να κατανοήσουμε πώς λειτουργεί το SynthID Text, ας δούμε πώς τα μοντέλα γεννητικής τεχνητής νοημοσύνης δημιουργούν κείμενο. Όταν δίνεται μια προτροπή, όπως “Ποιο είναι το αγαπημένο σου φρούτο;”, τα μοντέλα αυτά προβλέπουν ποιο “token” είναι πιο πιθανό να ακολουθήσει το προηγούμενο, ένα κάθε φορά. Τα tokens μπορεί να είναι χαρακτήρες ή λέξεις και αποτελούν τα δομικά στοιχεία που χρησιμοποιεί ένα γεννητικό μοντέλο για την επεξεργασία πληροφοριών. Κάθε πιθανό token λαμβάνει μια βαθμολογία, η οποία εκφράζει το ποσοστό πιθανότητας να περιληφθεί στο παραγόμενο κείμενο.

Το SynthID Text εισάγει επιπλέον πληροφορίες σε αυτή τη διανομή token “ρυθμίζοντας την πιθανότητα των tokens να δημιουργηθούν”, εξηγεί η Google. “Το τελικό μοτίβο των βαθμολογιών για τις επιλογές λέξεων του μοντέλου, σε συνδυασμό με τις προσαρμοσμένες πιθανότητες, θεωρείται το υδατογράφημα.” Αυτό το μοτίβο συγκρίνεται με το αναμενόμενο μοτίβο για υδατογραφημένο και μη υδατογραφημένο κείμενο, βοηθώντας το SynthID να ανιχνεύσει αν ένα εργαλείο AI δημιούργησε το κείμενο ή αν προέρχεται από άλλες πηγές.

Περιορισμοί και προκλήσεις της τεχνολογίας υδατογράφησης κειμένου

Η Google υποστηρίζει ότι το SynthID Text, το οποίο έχει ενσωματωθεί στα μοντέλα Gemini από την άνοιξη, δεν επηρεάζει την ποιότητα, την ακρίβεια ή την ταχύτητα της δημιουργίας κειμένου και λειτουργεί ακόμη και σε κείμενο που έχει περικοπεί, παραφραστεί ή τροποποιηθεί. Ωστόσο, η εταιρεία παραδέχεται ότι η προσέγγιση υδατογράφησης έχει περιορισμούς. Για παράδειγμα, το SynthID Text δεν αποδίδει τόσο καλά με σύντομα κείμενα, με κείμενα που έχουν ξαναγραφεί ή μεταφραστεί από άλλη γλώσσα, ή με απαντήσεις σε πραγματολογικές ερωτήσεις.

“Στις απαντήσεις σε πραγματολογικές προτροπές, υπάρχουν λιγότερες ευκαιρίες να προσαρμοστεί η διανομή token χωρίς να επηρεαστεί η πραγματολογική ακρίβεια,” εξηγεί η εταιρεία. “Αυτό περιλαμβάνει προτροπές όπως ‘Ποια είναι η πρωτεύουσα της Γαλλίας;’, ή ερωτήματα όπου αναμένεται μικρή ή καθόλου παραλλαγή, όπως ‘απαγγείλετε ένα ποίημα του William Wordsworth’.”

Η παγκόσμια τάση για υδατογράφηση AI-γεννημένου περιεχομένου

Η Google δεν είναι η μόνη εταιρεία που εργάζεται πάνω στην τεχνολογία υδατογράφησης κειμένου AI. Η OpenAI έχει ερευνήσει μεθόδους υδατογράφησης για χρόνια, αλλά καθυστέρησε την κυκλοφορία τους λόγω τεχνικών και εμπορικών παραμέτρων. Οι τεχνικές υδατογράφησης για κείμενο, αν υιοθετηθούν ευρέως, θα μπορούσαν να βοηθήσουν στην αντιμετώπιση των ανακριβών — αλλά ολοένα και πιο δημοφιλών — “ανιχνευτών AI” που λανθασμένα σηματοδοτούν εκθέσεις και εργασίες που γράφονται με πιο γενική φωνή.

Νομικές και κοινωνικές επιπτώσεις της υιοθέτησης υδατογράφησης

Το ερώτημα είναι, θα υιοθετηθούν ευρέως αυτές οι τεχνικές — και θα επικρατήσει το πρότυπο ή η τεχνολογία μιας οργάνωσης έναντι άλλων; Μπορεί σύντομα να υπάρξουν νομικοί μηχανισμοί που θα αναγκάσουν τους προγραμματιστές να υιοθετήσουν αυτές τις τεχνολογίες. Η κυβέρνηση της Κίνας έχει εισαγάγει υποχρεωτική υδατογράφηση περιεχομένου που δημιουργείται από AI, και η πολιτεία της Καλιφόρνιας εξετάζει το ίδιο.

Υπάρχει επείγουσα ανάγκη για δράση. Σύμφωνα με μια έκθεση της Ευρωπαϊκής Υπηρεσίας Επιβολής του Νόμου, το 90% του διαδικτυακού περιεχομένου θα μπορούσε να είναι συνθετικά παραγόμενο έως το 2026, οδηγώντας σε νέες προκλήσεις επιβολής του νόμου σχετικά με την παραπληροφόρηση, την προπαγάνδα, την απάτη και την εξαπάτηση. Ήδη, σχεδόν το 60% όλων των προτάσεων στο διαδίκτυο μπορεί να είναι AI-generated, σύμφωνα με μια μελέτη της AWS — χάρη στη διαδεδομένη χρήση AI μεταφραστών.

Συμπέρασμα: Η σημασία της υδατογράφησης AI-γεννημένου κειμένου

Συνοψίζοντας, η τεχνολογία υδατογράφησης κειμένου όπως το SynthID Text της Google προσφέρει μια σημαντική λύση για την αναγνώριση περιεχομένου που δημιουργείται από AI. Παρά τους περιορισμούς της, μπορεί να παίξει καθοριστικό ρόλο στην αντιμετώπιση της παραπληροφόρησης και της εξαπάτησης στο διαδίκτυο. Καθώς οι νομοθετικές πρωτοβουλίες εξελίσσονται, η υιοθέτηση τέτοιων τεχνολογιών μπορεί να γίνει αναπόφευκτη, ενισχύοντας την αξιοπιστία και την ασφάλεια του διαδικτυακού περιεχομένου.