Meta Connect 2024: Παρουσίαση των Νέων Μοντέλων Llama 3.2

Ο Βενιαμίν Φραγκλίνος είχε γράψει κάποτε ότι τίποτα δεν είναι βέβαιο εκτός από τον θάνατο και τους φόρους. Ας τροποποιήσουμε αυτή τη φράση για να αντικατοπτρίζει την τρέχουσα χρυσή εποχή της τεχνητής νοημοσύνης: Τίποτα δεν είναι βέβαιο εκτός από τον θάνατο, τους φόρους και τα νέα μοντέλα τεχνητής νοημοσύνης, με τα τελευταία να εμφανίζονται με ολοένα και πιο γρήγορο ρυθμό. Αυτή την εβδομάδα, η Google κυκλοφόρησε αναβαθμισμένα μοντέλα Gemini, ενώ νωρίτερα τον μήνα, η OpenAI παρουσίασε το μοντέλο o1. Αλλά την Τετάρτη, ήρθε η σειρά της Meta να παρουσιάσει τα τελευταία της μοντέλα στο ετήσιο συνέδριο Meta Connect 2024 στο Menlo Park.

Η Πολυτροπικότητα του Llama

Η πολυγλωσσική οικογένεια μοντέλων Llama της Meta έχει φτάσει στην έκδοση 3.2, με την αναβάθμιση από την 3.1 να σηματοδοτεί ότι αρκετά μοντέλα Llama είναι πλέον πολυτροπικά. Τα Llama 3.2 11B — ένα συμπαγές μοντέλο — και 90B, ένα μεγαλύτερο και πιο ικανό μοντέλο, μπορούν να ερμηνεύσουν διαγράμματα και γραφήματα, να προσθέσουν λεζάντες σε εικόνες και να εντοπίσουν αντικείμενα σε φωτογραφίες με βάση μια απλή περιγραφή.

Για παράδειγμα, με έναν χάρτη ενός πάρκου, τα Llama 3.2 11B και 90B μπορούν να απαντήσουν σε ερωτήσεις όπως, «Πότε θα γίνει πιο απότομο το έδαφος;» και «Ποια είναι η απόσταση αυτού του μονοπατιού;» Ή, με ένα γράφημα που δείχνει τα έσοδα μιας εταιρείας κατά τη διάρκεια ενός έτους, τα μοντέλα μπορούν γρήγορα να επισημάνουν τους καλύτερους μήνες απόδοσης.

Για τους προγραμματιστές που επιθυμούν να χρησιμοποιήσουν τα μοντέλα αποκλειστικά για εφαρμογές κειμένου, η Meta δηλώνει ότι τα Llama 3.2 11B και 90B σχεδιάστηκαν για να είναι «αντικαταστάσεις» των 3.1. Τα 11B και 90B μπορούν να αναπτυχθούν με ή χωρίς ένα νέο εργαλείο ασφαλείας, το Llama Guard Vision, που έχει σχεδιαστεί για να ανιχνεύει δυνητικά επιβλαβή (δηλ. μεροληπτικά ή τοξικά) κείμενα και εικόνες που τροφοδοτούνται ή παράγονται από τα μοντέλα.

Διαθεσιμότητα και Περιορισμοί

Στις περισσότερες περιοχές του κόσμου, τα πολυτροπικά μοντέλα Llama μπορούν να κατεβούν και να χρησιμοποιηθούν σε πολλές πλατφόρμες cloud, όπως Hugging Face, Microsoft Azure, Google Cloud και AWS. Η Meta τα φιλοξενεί επίσης στον επίσημο ιστότοπο Llama, Llama.com, και τα χρησιμοποιεί για να ενισχύσει τον βοηθό τεχνητής νοημοσύνης της, Meta AI, σε WhatsApp, Instagram και Facebook. Ωστόσο, τα Llama 3.2 11B και 90B δεν είναι προσβάσιμα στην Ευρώπη. Ως αποτέλεσμα, αρκετές δυνατότητες του Meta AI που είναι διαθέσιμες αλλού, όπως η ανάλυση εικόνας, είναι απενεργοποιημένες για τους Ευρωπαίους χρήστες. Η Meta κατηγόρησε ξανά το «απρόβλεπτο» χαρακτήρα του ρυθμιστικού περιβάλλοντος της ΕΕ.

Ρυθμιστικές Προκλήσεις

Η Meta έχει εκφράσει ανησυχίες σχετικά με — και έχει απορρίψει μια εθελοντική δέσμευση ασφαλείας που σχετίζεται με — τον Νόμο για την Τεχνητή Νοημοσύνη, τον ευρωπαϊκό νόμο που θεσπίζει ένα νομικό και ρυθμιστικό πλαίσιο για την τεχνητή νοημοσύνη. Μεταξύ άλλων απαιτήσεων, ο Νόμος για την Τεχνητή Νοημοσύνη απαιτεί από τις εταιρείες που αναπτύσσουν τεχνητή νοημοσύνη στην ΕΕ να δεσμευτούν να χαρτογραφήσουν αν τα μοντέλα τους είναι πιθανό να χρησιμοποιηθούν σε «υψηλού κινδύνου» καταστάσεις, όπως η αστυνόμευση. Η Meta φοβάται ότι η «ανοιχτή» φύση των μοντέλων της, που της δίνει λίγη εικόνα για το πώς χρησιμοποιούνται τα μοντέλα, θα μπορούσε να καταστήσει δύσκολη την τήρηση των κανόνων του Νόμου για την Τεχνητή Νοημοσύνη.

Επίσης, η Meta αντιμετωπίζει προκλήσεις από τις διατάξεις του GDPR, του ευρωπαϊκού νόμου για την προστασία της ιδιωτικότητας, που αφορούν την εκπαίδευση της τεχνητής νοημοσύνης. Η Meta εκπαιδεύει μοντέλα με τα δημόσια δεδομένα των χρηστών του Instagram και του Facebook που δεν έχουν επιλέξει να εξαιρεθούν — δεδομένα που στην Ευρώπη υπόκεινται στις εγγυήσεις του GDPR. Οι ρυθμιστικές αρχές της ΕΕ ζήτησαν νωρίτερα φέτος από τη Meta να σταματήσει την εκπαίδευση στα δεδομένα των Ευρωπαίων χρηστών ενώ αξιολογούσαν τη συμμόρφωση της εταιρείας με το GDPR.

Η Meta υποχώρησε, ενώ ταυτόχρονα υποστήριξε μια ανοιχτή επιστολή που καλεί για «μια σύγχρονη ερμηνεία» του GDPR που δεν «απορρίπτει την πρόοδο». Νωρίτερα αυτόν τον μήνα, η Meta δήλωσε ότι θα επαναλάβει την εκπαίδευση στα δεδομένα των χρηστών του Ηνωμένου Βασιλείου μετά την «ενσωμάτωση των ρυθμιστικών σχολίων» σε μια αναθεωρημένη διαδικασία εξαιρεσης. Ωστόσο, η εταιρεία δεν έχει ακόμη μοιραστεί μια ενημέρωση για την εκπαίδευσή της στην υπόλοιπη ΕΕ.

Νέα Συμπαγή Μοντέλα

Άλλα νέα μοντέλα Llama — μοντέλα που δεν εκπαιδεύτηκαν με δεδομένα Ευρωπαίων χρηστών — κυκλοφορούν στην Ευρώπη (και παγκοσμίως) την Τετάρτη. Τα Llama 3.2 1B και 3B, δύο ελαφριά μοντέλα μόνο για κείμενο που έχουν σχεδιαστεί για να λειτουργούν σε smartphones και άλλες συσκευές άκρης, μπορούν να εφαρμοστούν σε εργασίες όπως η περίληψη και η αναδιατύπωση παραγράφων (π.χ. σε ένα email). Βελτιστοποιημένα για το υλικό Arm από την Qualcomm και την MediaTek, τα 1B και 3B μπορούν επίσης να χρησιμοποιούν εργαλεία όπως εφαρμογές ημερολογίου με λίγη παραμετροποίηση, επιτρέποντάς τους να αναλαμβάνουν ενέργειες αυτόνομα.

Δεν υπάρχει συνέχεια, πολυτροπική ή μη, στο κορυφαίο μοντέλο Llama 3.1 405B που κυκλοφόρησε τον Αύγουστο. Δεδομένου του τεράστιου μεγέθους του 405B — που χρειάστηκε μήνες για να εκπαιδευτεί — είναι πιθανό να πρόκειται για περιορισμένους υπολογιστικούς πόρους. Έχουμε ζητήσει από τη Meta αν υπάρχουν άλλοι παράγοντες που παίζουν ρόλο και θα ενημερώσουμε αυτή την ιστορία αν ακούσουμε κάτι.

Η νέα Llama Stack της Meta, μια σουίτα εργαλείων ανάπτυξης προσανατολισμένη στο Llama, μπορεί να χρησιμοποιηθεί για να βελτιστοποιήσει όλα τα μοντέλα Llama 3.2: 1B, 3B, 11B και 90B. Ανεξάρτητα από το πώς προσαρμόζονται, τα μοντέλα μπορούν να επεξεργαστούν έως και περίπου 100.000 λέξεις ταυτόχρονα, δηλώνει η Meta.

Στρατηγική για την Κατάκτηση του Μυαλού

Ο CEO της Meta, Μαρκ Ζάκερμπεργκ, συχνά μιλάει για την εξασφάλιση ότι όλοι οι άνθρωποι έχουν πρόσβαση στα «οφέλη και τις ευκαιρίες» της τεχνητής νοημοσύνης. Εντούτοις, σε αυτή τη ρητορική υποκρύπτεται η επιθυμία ότι αυτά τα εργαλεία και μοντέλα να είναι προϊόντα της Meta.

Η δαπάνη σε μοντέλα που μπορεί στη συνέχεια να εμπορευματοποιήσει αναγκάζει τον ανταγωνισμό (π.χ. OpenAI, Anthropic) να μειώσει τις τιμές, διαδίδει την εκδοχή της τεχνητής νοημοσύνης της Meta ευρέως και επιτρέπει στη Meta να ενσωματώνει βελτιώσεις από την κοινότητα ανοιχτού κώδικα. Η Meta ισχυρίζεται ότι τα μοντέλα Llama της έχουν κατέβει πάνω από 350 εκατομμύρια φορές και χρησιμοποιούνται από μεγάλες επιχειρήσεις, όπως η Zoom, η AT&T και η Goldman Sachs.

Για πολλούς από αυτούς τους προγραμματιστές και εταιρείες, είναι αδιάφορο ότι τα μοντέλα Llama δεν είναι «ανοιχτά» με την αυστηρότερη έννοια. Η άδεια της Meta περιορίζει τον τρόπο με τον οποίο ορισμένοι προγραμματιστές μπορούν να τα χρησιμοποιήσουν. Οι πλατφόρμες με πάνω από 700 εκατομμύρια μηνιαίους χρήστες πρέπει να ζητήσουν ειδική άδεια από τη Meta, την οποία η εταιρεία θα χορηγήσει κατά την κρίση της.

Βέβαια, δεν υπάρχουν πολλές πλατφόρμες αυτού του μεγέθους χωρίς τα δικά τους μοντέλα. Αλλά η Meta δεν είναι ιδιαίτερα διαφανής σχετικά με τη διαδικασία. Όταν ρώτησα την εταιρεία αυτόν τον μήνα αν είχε εγκρίνει μια διακριτική άδεια Llama για μια πλατφόρμα, ένας εκπρόσωπος μου είπε ότι η Meta «δεν είχε τίποτα να μοιραστεί σχετικά με το θέμα».

Μην κάνετε λάθος, η Meta παίζει για να κερδίσει. Δαπανά εκατομμύρια για να πιέσει τους ρυθμιστές να αποδεχτούν την προτιμώμενη εκδοχή της «ανοιχτής» τεχνητής νοημοσύνης και επενδύει δισεκατομμύρια σε διακομιστές, κέντρα δεδομένων και δικτυακή υποδομή για να εκπαιδεύσει μελλοντικά μοντέλα.

Κανένα από τα μοντέλα Llama 3.2 δεν λύνει τα υπερισχύοντα προβλήματα της σημερινής τεχνητής νοημοσύνης, όπως η τάση της να επινοεί πράγματα και να αναπαράγει προβληματικά δεδομένα εκπαίδευσης (π.χ. βιβλία με πνευματικά δικαιώματα που μπορεί να έχουν χρησιμοποιηθεί χωρίς άδεια, το θέμα μιας ομαδικής αγωγής κατά της Meta). Αλλά, όπως έχω γράψει προηγουμένως, προωθούν έναν από τους κύριους στόχους της Meta: να γίνει συνώνυμη με την τεχνητή νοημοσύνη, και ειδικότερα με την γενετική τεχνητή νοημοσύνη.