Το Άνοιγμα των Βιβλιοθηκών του Χάρβαρντ για την Εκπαίδευση των Τεχνητών Νοημοσυνών
Η απόφαση του Χάρβαρντ να ανοίξει τις βιβλιοθήκες του για την εκπαίδευση των τεχνητών νοημοσυνών αποτελεί ένα σημαντικό βήμα στην αξιοποίηση της γνώσης από το παρελθόν. Οι εταιρείες τεχνολογίας στρέφονται πλέον σε πηγές γνώσης που ξεπερνούν το διαδίκτυο, αναζητώντας πληροφορίες από βιβλιοθήκες και αρχεία. Η συλλογή του Χάρβαρντ περιλαμβάνει σχεδόν ένα εκατομμύριο βιβλία που εκδόθηκαν από τον 15ο αιώνα και σε 254 γλώσσες, προσφέροντας μια ανεκτίμητη πηγή δεδομένων για τους ερευνητές. Παράλληλα, η Δημόσια Βιβλιοθήκη της Βοστώνης ετοιμάζεται να διαθέσει παλιά εφημερίδες και κυβερνητικά έγγραφα. Η κίνηση αυτή μπορεί να προσφέρει σημαντικά οφέλη στις εταιρείες που αντιμετωπίζουν νομικές προκλήσεις από δημιουργούς των οποίων τα έργα χρησιμοποιήθηκαν χωρίς άδεια για την εκπαίδευση των AI.
Η Σημασία των Δημόσιων Δεδομένων για την Εκπαίδευση των AI
Η επιλογή να ξεκινήσει η εκπαίδευση με δεδομένα δημόσιου τομέα είναι στρατηγική, καθώς αυτά τα δεδομένα είναι λιγότερο αμφιλεγόμενα σε σχέση με τα προστατευόμενα από πνευματικά δικαιώματα. Οι βιβλιοθήκες διαθέτουν σημαντικά πολιτιστικά, ιστορικά και γλωσσικά δεδομένα που δεν υπάρχουν στις πρόσφατες διαδικτυακές πηγές. Ο φόβος εξάντλησης των δεδομένων έχει οδηγήσει τους προγραμματιστές AI να στραφούν σε “συνθετικά” δεδομένα, τα οποία όμως είναι χαμηλότερης ποιότητας. Η πρωτοβουλία του Χάρβαρντ, υποστηριζόμενη από δωρεές της Microsoft και της OpenAI, συνεργάζεται με βιβλιοθήκες και μουσεία παγκοσμίως για να προετοιμάσει τις ιστορικές συλλογές τους για την εκπαίδευση των AI, προσφέροντας παράλληλα οφέλη στις κοινότητες που εξυπηρετούν.
Η Συλλογή Ιστορικών Βιβλίων του Χάρβαρντ και η Σημασία της
Η νέα συλλογή δεδομένων του Χάρβαρντ, Institutional Books 1.0, περιλαμβάνει περισσότερες από 394 εκατομμύρια σελίδες. Ένα από τα πρώτα έργα της συλλογής είναι από τον 15ο αιώνα, ένα χειρόγραφο κορεάτη ζωγράφου για την καλλιέργεια λουλουδιών και δέντρων. Η μεγαλύτερη συγκέντρωση έργων είναι από τον 19ο αιώνα, καλύπτοντας θέματα όπως η λογοτεχνία, η φιλοσοφία, το δίκαιο και η γεωργία, όλα διατηρημένα και οργανωμένα με ακρίβεια από γενιές βιβλιοθηκάριων. Αυτή η συλλογή υπόσχεται να βελτιώσει την ακρίβεια και την αξιοπιστία των συστημάτων AI.
Προκλήσεις και Ευκαιρίες για τις Βιβλιοθήκες
Πριν την εμπορική έκρηξη του ChatGPT, οι ερευνητές AI δεν έδιναν μεγάλη σημασία στην προέλευση των κειμένων που χρησιμοποιούσαν. Χρειάζονταν μεγάλες ποσότητες δεδομένων, γνωστά ως tokens, για την εκπαίδευση των συστημάτων τους. Η νέα συλλογή του Χάρβαρντ εκτιμάται ότι περιέχει 242 δισεκατομμύρια tokens, αλλά αυτό είναι μόνο ένα μικρό μέρος των δεδομένων που χρησιμοποιούνται στα πιο προηγμένα συστήματα AI. Η Meta, για παράδειγμα, έχει εκπαιδεύσει το τελευταίο της μοντέλο με περισσότερα από 30 τρισεκατομμύρια tokens. Οι πραγματικές βιβλιοθήκες, παρά τις επιφυλάξεις, αρχίζουν να παίρνουν θέση.
Η Συνεργασία με Ερευνητικά Ιδρύματα και οι Νομικές Προκλήσεις
Η OpenAI, που επίσης αντιμετωπίζει νομικές προκλήσεις, δώρισε 50 εκατομμύρια δολάρια σε ερευνητικά ιδρύματα, συμπεριλαμβανομένης της Βιβλιοθήκης Bodleian του Πανεπιστημίου της Οξφόρδης. Όταν η εταιρεία προσέγγισε τη Δημόσια Βιβλιοθήκη της Βοστώνης, η βιβλιοθήκη ξεκαθάρισε ότι οποιαδήποτε πληροφορία ψηφιοποιηθεί θα είναι διαθέσιμη για όλους. Η ψηφιοποίηση είναι δαπανηρή, αλλά πλέον μπορεί να χρηματοδοτήσει έργα που οι βιβλιοθηκάριοι επιθυμούν να πραγματοποιήσουν.
Συμπεράσματα και Προοπτικές για το Μέλλον των AI
Η συλλογή του Χάρβαρντ είχε ήδη ψηφιοποιηθεί από το 2006 για το Google, στο πλαίσιο του αμφιλεγόμενου έργου για τη δημιουργία μιας διαδικτυακής βιβλιοθήκης με πάνω από 20 εκατομμύρια βιβλία. Τώρα, για πρώτη φορά, το Google συνεργάστηκε με το Χάρβαρντ για να απελευθερώσει βιβλία δημόσιου τομέα για τους προγραμματιστές AI. Η νέα προσπάθεια χαιρετίστηκε από την Ένωση Συγγραφέων, η οποία είχε μηνύσει το Google για το έργο του. Η συλλογή βιβλίων είναι πιο γλωσσικά ποικιλόμορφη από τις τυπικές πηγές δεδομένων AI, με λιγότερο από το ήμισυ των τόμων να είναι στα αγγλικά. Η συλλογή, εμπλουτισμένη με σκέψεις του 19ου αιώνα, μπορεί να είναι κρίσιμη για την ανάπτυξη AI που μπορούν να σχεδιάζουν και να συλλογίζονται όπως οι άνθρωποι. Παράλληλα, υπάρχουν και δεδομένα που είναι παρωχημένα ή επιβλαβή, και η πρωτοβουλία του Χάρβαρντ προσπαθεί να παρέχει καθοδήγηση για την υπεύθυνη χρήση τους.















