Η Microsoft διερευνά έναν τρόπο να πιστώνει τους συντελεστές των δεδομένων εκπαίδευσης AI

Η Microsoft ξεκινά έρευνα για την επιρροή των δεδομένων στην τεχνητή νοημοσύνη

Η Microsoft ξεκινά ένα καινοτόμο ερευνητικό έργο με στόχο την εκτίμηση της επιρροής συγκεκριμένων παραδειγμάτων εκπαίδευσης στα κείμενα, τις εικόνες και άλλα μέσα που δημιουργούν τα μοντέλα τεχνητής νοημοσύνης. Η πρωτοβουλία αυτή ανακοινώθηκε μέσω μιας αγγελίας για θέση πρακτικής άσκησης που δημοσιεύτηκε αρχικά τον Δεκέμβριο και πρόσφατα ανακυκλώθηκε στο LinkedIn. Στόχος του έργου είναι να αποδείξει ότι τα μοντέλα μπορούν να εκπαιδευτούν με τέτοιο τρόπο ώστε η επίδραση συγκεκριμένων δεδομένων, όπως φωτογραφίες και βιβλία, στις εξόδους τους να μπορεί να εκτιμηθεί αποτελεσματικά και χρήσιμα. Οι τρέχουσες αρχιτεκτονικές νευρωνικών δικτύων είναι αδιαφανείς όσον αφορά την παροχή πηγών για τις δημιουργίες τους, και υπάρχουν σοβαροί λόγοι για να αλλάξει αυτό. Ένας από αυτούς είναι η αναγνώριση και η πιθανή αμοιβή για άτομα που συνεισφέρουν πολύτιμα δεδομένα σε μοντέλα που μπορεί να είναι απρόβλεπτα χρήσιμα στο μέλλον.

Νομικές προκλήσεις και διαμάχες για τα δικαιώματα πνευματικής ιδιοκτησίας

Οι γεννήτριες κειμένου, κώδικα, εικόνων, βίντεο και τραγουδιών με τεχνητή νοημοσύνη βρίσκονται στο επίκεντρο πολλών αγωγών πνευματικής ιδιοκτησίας εναντίον εταιρειών τεχνητής νοημοσύνης. Συχνά, αυτές οι εταιρείες εκπαιδεύουν τα μοντέλα τους με τεράστιες ποσότητες δεδομένων από δημόσιους ιστότοπους, μερικά από τα οποία είναι προστατευμένα με πνευματικά δικαιώματα. Πολλές εταιρείες υποστηρίζουν ότι η αρχή της δίκαιης χρήσης προστατεύει τις πρακτικές τους συλλογής και εκπαίδευσης δεδομένων. Ωστόσο, οι δημιουργοί, από καλλιτέχνες μέχρι προγραμματιστές και συγγραφείς, διαφωνούν σε μεγάλο βαθμό. Η ίδια η Microsoft αντιμετωπίζει τουλάχιστον δύο νομικές προκλήσεις από κατόχους πνευματικών δικαιωμάτων. Οι New York Times μήνυσαν την εταιρεία και τον συνεργάτη της, OpenAI, κατηγορώντας τους για παραβίαση πνευματικών δικαιωμάτων με τη χρήση μοντέλων που εκπαιδεύτηκαν σε εκατομμύρια άρθρα τους.

Η συμβολή του Jaron Lanier και η έννοια της “αξιοπρέπειας των δεδομένων”

Η νέα ερευνητική προσπάθεια της Microsoft, που περιγράφεται ως “προέλευση κατά την εκπαίδευση”, φαίνεται να έχει τη συμμετοχή του Jaron Lanier, διακεκριμένου τεχνολόγου και διεπιστημονικού επιστήμονα στο Microsoft Research. Σε ένα άρθρο του Απριλίου 2023 στο The New Yorker, ο Lanier έγραψε για την έννοια της “αξιοπρέπειας των δεδομένων”, η οποία για εκείνον σημαίνει τη σύνδεση του “ψηφιακού υλικού” με τους “ανθρώπους που θέλουν να αναγνωριστούν για τη δημιουργία του”. Μια προσέγγιση αξιοπρέπειας των δεδομένων θα ανιχνεύει τους πιο μοναδικούς και επιδραστικούς συνεισφέροντες όταν ένα μεγάλο μοντέλο παρέχει μια πολύτιμη έξοδο. Για παράδειγμα, αν ζητήσετε από ένα μοντέλο να δημιουργήσει μια “κινούμενη ταινία των παιδιών μου σε έναν κόσμο με πίνακες ζωγραφικής με μιλούντες γάτες σε μια περιπέτεια”, τότε ορισμένοι βασικοί ζωγράφοι, ηθοποιοί φωνής και συγγραφείς μπορεί να υπολογιστούν ως μοναδικά απαραίτητοι για τη δημιουργία του νέου αριστουργήματος.

Ανταγωνισμός και προσπάθειες άλλων εταιρειών

Υπάρχουν ήδη αρκετές εταιρείες που επιχειρούν να επιτύχουν αυτό το στόχο. Η Bria, μια εταιρεία ανάπτυξης μοντέλων τεχνητής νοημοσύνης, που πρόσφατα συγκέντρωσε 40 εκατομμύρια δολάρια σε κεφάλαια επιχειρηματικού κινδύνου, ισχυρίζεται ότι αποζημιώνει “προγραμματικά” τους ιδιοκτήτες δεδομένων σύμφωνα με την “συνολική επιρροή” τους. Η Adobe και η Shutterstock επίσης παρέχουν τακτικές αποζημιώσεις στους συνεισφέροντες των συνόλων δεδομένων, αν και τα ακριβή ποσά αποζημίωσης τείνουν να είναι αδιαφανή. Λίγα μεγάλα εργαστήρια έχουν καθιερώσει προγράμματα αποζημίωσης για μεμονωμένους συνεισφέροντες, εκτός από την υπογραφή συμφωνιών αδειοδότησης με εκδότες, πλατφόρμες και μεσάζοντες δεδομένων. Αντίθετα, έχουν προσφέρει μέσα για τους κατόχους πνευματικών δικαιωμάτων να “εξαιρεθούν” από την εκπαίδευση. Ωστόσο, κάποιες από αυτές τις διαδικασίες εξαιρέσεως είναι επαχθείς και ισχύουν μόνο για μελλοντικά μοντέλα, όχι για ήδη εκπαιδευμένα.

Συμπεράσματα και μελλοντικές προοπτικές

Φυσικά, το έργο της Microsoft μπορεί να αποδειχθεί απλώς μια απόδειξη της έννοιας. Υπάρχει προηγούμενο γι’ αυτό. Τον Μάιο, η OpenAI ανακοίνωσε ότι ανέπτυσσε παρόμοια τεχνολογία που θα επέτρεπε στους δημιουργούς να καθορίζουν πώς θέλουν τα έργα τους να περιλαμβάνονται ή να εξαιρούνται από τα δεδομένα εκπαίδευσης. Αλλά σχεδόν ένα χρόνο αργότερα, το εργαλείο δεν έχει ακόμα κυκλοφορήσει και συχνά δεν θεωρείται προτεραιότητα εσωτερικά. Η Microsoft μπορεί επίσης να προσπαθεί να “ξεπλένει” τις ηθικές της ευθύνες ή να προλαμβάνει ρυθμιστικές και δικαστικές αποφάσεις που θα μπορούσαν να διαταράξουν τη δραστηριότητά της στην τεχνητή νοημοσύνη. Ωστόσο, το γεγονός ότι η εταιρεία εξετάζει τρόπους ανίχνευσης των δεδομένων εκπαίδευσης είναι αξιοσημείωτο, δεδομένων των πρόσφατων θέσεων άλλων εργαστηρίων τεχνητής νοημοσύνης για τη δίκαιη χρήση. Αρκετά από τα κορυφαία εργαστήρια, συμπεριλαμβανομένων των Google και OpenAI, έχουν δημοσιεύσει πολιτικά έγγραφα που συνιστούν στην κυβέρνηση των Ηνωμένων Πολιτειών να αποδυναμώσει τις προστασίες πνευματικών δικαιωμάτων όσον αφορά την ανάπτυξη τεχνητής νοημοσύνης.