Οι ερευνητές υποδεικνύουν ότι το OpenAI εκπαίδευσε μοντέλα AI σε βιβλία της O'Reilly που είναι επί πληρωμή

Κατηγορίες κατά της OpenAI για Εκπαίδευση AI σε Πνευματικά Δικαιώματα Χωρίς Άδεια

Η OpenAI έχει βρεθεί στο επίκεντρο κριτικής από διάφορους φορείς, καθώς κατηγορείται ότι εκπαιδεύει τα μοντέλα τεχνητής νοημοσύνης της σε περιεχόμενο που προστατεύεται από πνευματικά δικαιώματα, χωρίς να έχει λάβει την απαραίτητη άδεια. Ένα νέο έγγραφο από έναν οργανισμό παρακολούθησης AI κάνει τη σοβαρή κατηγορία ότι η εταιρεία βασίστηκε σε μη δημόσια βιβλία που δεν είχε αδειοδοτήσει για να εκπαιδεύσει πιο προηγμένα μοντέλα AI. Τα μοντέλα AI λειτουργούν ως πολύπλοκες μηχανές πρόβλεψης. Εκπαιδευμένα σε πλήθος δεδομένων – βιβλία, ταινίες, τηλεοπτικές εκπομπές κ.λπ. – μαθαίνουν πρότυπα και νέους τρόπους εξαγωγής συμπερασμάτων από μια απλή πρόταση. Όταν ένα μοντέλο “γράφει” ένα δοκίμιο για μια ελληνική τραγωδία ή “σχεδιάζει” εικόνες σε στυλ Ghibli, απλώς αντλεί από την εκτενή γνώση του για να προσεγγίσει το αποτέλεσμα. Δεν καταλήγει σε κάτι νέο.

Η Χρήση Συνθετικών Δεδομένων στην Εκπαίδευση AI και οι Κίνδυνοι

Ενώ αρκετά εργαστήρια AI, συμπεριλαμβανομένης της OpenAI, έχουν αρχίσει να χρησιμοποιούν δεδομένα που παράγονται από AI για την εκπαίδευση των μοντέλων τους καθώς εξαντλούν τις πραγματικές πηγές δεδομένων (κυρίως το δημόσιο διαδίκτυο), λίγα έχουν απορρίψει εντελώς τα πραγματικά δεδομένα. Αυτό πιθανώς οφείλεται στο ότι η εκπαίδευση με καθαρά συνθετικά δεδομένα ενέχει κινδύνους, όπως η υποβάθμιση της απόδοσης ενός μοντέλου. Το νέο έγγραφο από το AI Disclosures Project, μια μη κερδοσκοπική οργάνωση που ιδρύθηκε το 2024 από τον μεγιστάνα των μέσων ενημέρωσης Tim O’Reilly και τον οικονομολόγο Ilan Strauss, καταλήγει στο συμπέρασμα ότι η OpenAI πιθανότατα εκπαίδευσε το μοντέλο GPT-4o σε βιβλία με συνδρομή από την O’Reilly Media. Ο O’Reilly είναι ο CEO της O’Reilly Media.

Δοκιμές και Μέθοδοι Εντοπισμού Πνευματικών Δικαιωμάτων

Στο ChatGPT, το GPT-4o είναι το προεπιλεγμένο μοντέλο. Σύμφωνα με το έγγραφο, η O’Reilly δεν έχει συμφωνία αδειοδότησης με την OpenAI. Οι συγγραφείς του εγγράφου, χρησιμοποιώντας μια μέθοδο που ονομάζεται DE-COP, η οποία εισήχθη πρώτη φορά σε μια ακαδημαϊκή μελέτη το 2024, επιχείρησαν να ανιχνεύσουν περιεχόμενο που προστατεύεται από πνευματικά δικαιώματα στα δεδομένα εκπαίδευσης των γλωσσικών μοντέλων. Γνωστή και ως “επίθεση αναγνώρισης μελών”, η μέθοδος αυτή δοκιμάζει αν ένα μοντέλο μπορεί να διακρίνει αξιόπιστα κείμενα που έχουν γραφτεί από ανθρώπους από παραφρασμένες, AI-παραγόμενες εκδοχές του ίδιου κειμένου.

Αποτελέσματα και Συμπεράσματα της Έρευνας

Οι συγγραφείς του εγγράφου – O’Reilly, Strauss, και ο ερευνητής AI Sruly Rosenblat – αναφέρουν ότι διερεύνησαν τη γνώση των μοντέλων GPT-4o, GPT-3.5 Turbo και άλλων μοντέλων της OpenAI σχετικά με τα βιβλία της O’Reilly Media που εκδόθηκαν πριν και μετά τις ημερομηνίες εκπαίδευσής τους. Χρησιμοποίησαν 13,962 αποσπάσματα παραγράφων από 34 βιβλία της O’Reilly για να εκτιμήσουν την πιθανότητα ότι ένα συγκεκριμένο απόσπασμα είχε συμπεριληφθεί στο σύνολο δεδομένων εκπαίδευσης ενός μοντέλου. Σύμφωνα με τα αποτελέσματα, το GPT-4o “αναγνώρισε” πολύ περισσότερο περιεχόμενο από βιβλία με συνδρομή της O’Reilly σε σύγκριση με τα παλαιότερα μοντέλα της OpenAI, ειδικά το GPT-3.5 Turbo.

Συμπεράσματα και Προοπτικές για το Μέλλον

Δεν είναι ένα αδιάσειστο στοιχείο, όπως σημειώνουν οι συγγραφείς. Αναγνωρίζουν ότι η πειραματική τους μέθοδος δεν είναι αλάνθαστη και ότι η OpenAI μπορεί να είχε συλλέξει αποσπάσματα βιβλίων με συνδρομή από χρήστες που τα αντέγραψαν και τα επικόλλησαν στο ChatGPT. Επιπλέον, οι συγγραφείς δεν αξιολόγησαν την πιο πρόσφατη συλλογή μοντέλων της OpenAI, που περιλαμβάνει το GPT-4.5 και μοντέλα “λογικής” όπως το o3-mini και το o1. Είναι πιθανό ότι αυτά τα μοντέλα δεν εκπαιδεύτηκαν σε δεδομένα βιβλίων με συνδρομή της O’Reilly ή εκπαιδεύτηκαν σε μικρότερη ποσότητα από το GPT-4o. Παρόλα αυτά, είναι γνωστό ότι η OpenAI, η οποία έχει υποστηρίξει τη χαλάρωση των περιορισμών γύρω από την ανάπτυξη μοντέλων χρησιμοποιώντας δεδομένα που προστατεύονται από πνευματικά δικαιώματα, αναζητά εδώ και καιρό υψηλότερης ποιότητας δεδομένα εκπαίδευσης.