Η Meta Παρουσιάζει τα Llama 4 Maverick και Llama 4 Scout στο watsonx.ai
Η IBM ανακοινώνει με ενθουσιασμό την ενσωμάτωση των νέων μοντέλων της Meta, Llama 4, στην πλατφόρμα watsonx.ai. Τα Llama 4 Scout και Llama 4 Maverick, τα πρώτα μοντέλα με μίξη ειδικών (MoE) που κυκλοφόρησε η Meta, προσφέρουν κορυφαίες επιδόσεις σε πολλαπλά είδη δεδομένων, υψηλές ταχύτητες, χαμηλό κόστος και κορυφαίο μήκος περιβάλλοντος. Η κυκλοφορία των Llama 4 σηματοδοτεί μια νέα εποχή για τη σειρά Llama, εισάγοντας μια συναρπαστική εξέλιξη της αρχιτεκτονικής Llama και μια καινοτόμο προσέγγιση στην ενσωμάτωση διαφορετικών τύπων δεδομένων, όπως κείμενο, εικόνα και βίντεο, πολύ νωρίτερα στη διαδικασία από τα συμβατικά εκπαιδευμένα μοντέλα. Τα νέα μοντέλα υποστηρίζουν ποικιλία χρήσεων, όπως εισαγωγή κειμένου, εξαγωγή κειμένου και εισαγωγή εικόνας, εξαγωγή κειμένου.
Αποτελεσματική Αρχιτεκτονική και Υποστήριξη Πολλαπλών Μοντέλων
Η αρχιτεκτονική μίξης ειδικών (MoE) στοχεύει να ισορροπήσει τη γνωστική ικανότητα μεγαλύτερων μοντέλων με την αποδοτικότητα μικρότερων, υποδιαιρώντας τα στρώματα του νευρωνικού δικτύου σε πολλούς “ειδικούς”. Αντί να ενεργοποιεί κάθε παράμετρο του μοντέλου για κάθε λέξη, τα MoE μοντέλα χρησιμοποιούν μια λειτουργία πύλης που ενεργοποιεί μόνο τους “ειδικούς” που είναι καλύτερα προσαρμοσμένοι για την επεξεργασία αυτής της λέξης. Το Llama 4 Scout, το μικρότερο από τα δύο νέα μοντέλα με συνολικό αριθμό παραμέτρων 109 δισεκατομμύρια, διαιρείται σε 16 ειδικούς. Κατά την επεξεργασία, έχει ενεργό αριθμό παραμέτρων μόνο 17 δισεκατομμύρια, επιτρέποντάς του να εξυπηρετεί περισσότερους χρήστες ταυτόχρονα.
Πρωτοποριακή Δυνατότητα Μεγάλης Περιόδου Συμφραζομένων
Επιπλέον, το Llama 4 Scout προσφέρει ένα κορυφαίο παράθυρο συμφραζομένων 10 εκατομμυρίων λέξεων, διατηρώντας εξαιρετική ακρίβεια σε δοκιμές μακράς διάρκειας, όπως το Needle-in-a-haystack (NiH). Αυτή η πρωτοφανής πρόοδος ανοίγει συναρπαστικές ευκαιρίες για πολυ-έγγραφο περίληψη, συλλογισμό πάνω σε εκτενείς βάσεις κώδικα και εξατομίκευση μέσω εκτεταμένης μνήμης δραστηριότητας χρήστη. Αυτή η τεράστια επέκταση στο μήκος συμφραζομένων προέρχεται κυρίως από δύο καινοτομίες: τη χρήση διασταυρωμένων στρωμάτων προσοχής χωρίς χωρικές ενσωματώσεις και την κλιμάκωση θερμοκρασίας κατά την επεξεργασία του μηχανισμού προσοχής των μοντέλων.
Εγγενής Πολυτροπικότητα και Εκπαίδευση
Ενώ τα μεγάλα γλωσσικά μοντέλα συνήθως προ-εκπαιδεύονται αποκλειστικά σε δεδομένα κειμένου και στη συνέχεια προσαρμόζονται σε άλλες μορφές δεδομένων (όπως εικόνες) κατά τη διάρκεια της μετα-εκπαίδευσης, τα μοντέλα Llama 4 είναι σχεδιασμένα με “εγγενή πολυτροπικότητα.” Αυτό επέτρεψε στη Meta να προ-εκπαιδεύσει τα μοντέλα με μεγάλες ποσότητες μη επισημασμένων δεδομένων κειμένου, εικόνας και βίντεο ταυτόχρονα, εμπλουτίζοντας αποτελεσματικά τα μοντέλα με ενσωματωμένη γνώση από διάφορες πηγές.
Συμπεράσματα και Μελλοντικές Προοπτικές
Η συνεργασία της IBM με τη Meta προσφέρει στους προγραμματιστές και τις επιχειρήσεις τη δυνατότητα να επιλέξουν το προτιμώμενο μοντέλο Llama 4 από τον εκτεταμένο κατάλογο θεμελιωδών μοντέλων στο IBM watsonx.ai, και να το προσαρμόσουν, να το αποστάξουν και να το αναπτύξουν σε περιβάλλοντα cloud, on-premises ή edge της επιλογής τους. Η IBM ενισχύει περαιτέρω αυτή την ευελιξία με την προηγμένη υποδομή AI της, την άψογη ενσωμάτωση με πλαίσια πρακτόρων και τη συμβατότητα με βάσεις δεδομένων διανυσμάτων. Η IBM watsonx απλοποιεί την ανάπτυξη με μια σειρά εργαλείων κώδικα, χαμηλού κώδικα και χωρίς κώδικα σε ένα στούντιο επιχειρησιακής κλάσης που υποστηρίζει ολόκληρο τον κύκλο ζωής της AI, ενώ προωθεί τη συνεργασία μεταξύ των ομάδων.















