IBM Granite 4.0 Tiny: Υψηλή απόδοση με ελάχιστους πόρους

Μια ματιά στο μέλλον: Η προεπισκόπηση του IBM Granite 4.0 Tiny

Η τεχνολογία των μοντέλων γλώσσας συνεχίζει να εξελίσσεται με γοργούς ρυθμούς, και η τελευταία προσθήκη στην οικογένεια Granite από την IBM υπόσχεται να φέρει επανάσταση στον τρόπο που αντιλαμβανόμαστε την αποδοτικότητα και την πρακτικότητα. Το IBM Granite 4.0 Tiny Preview, μια προκαταρκτική έκδοση του μικρότερου μοντέλου της νέας σειράς Granite 4.0, είναι πλέον διαθέσιμο στην κοινότητα ανοιχτού κώδικα. Αυτή η έκδοση είναι εξαιρετικά συμπαγής και αποδοτική σε υπολογιστική ισχύ, επιτρέποντας την εκτέλεση πολλαπλών συνεδριών ταυτόχρονα σε καταναλωτικό υλικό, όπως κάρτες γραφικών που κοστίζουν λιγότερο από 350 δολάρια.

Παρόλο που το μοντέλο δεν έχει ολοκληρώσει την εκπαίδευσή του, έχοντας επεξεργαστεί μόνο 2.5 τρισεκατομμύρια από τα προγραμματισμένα 15 τρισεκατομμύρια ή περισσότερα tokens, ήδη προσφέρει απόδοση που ανταγωνίζεται το IBM Granite 3.3 2B Instruct, με λιγότερες ενεργές παραμέτρους και μείωση κατά 72% στις απαιτήσεις μνήμης. Η πλήρης εκπαίδευση του αναμένεται να το φέρει στο ίδιο επίπεδο με το Granite 3.3 8B Instruct.

Η νέα γενιά μοντέλων Granite: Αποδοτικότητα και πρακτικότητα

Η σειρά Granite 4.0 συνεχίζει τη δέσμευση της IBM για την ενσωμάτωση της αποδοτικότητας και της πρακτικότητας ως θεμέλιο για την ανάπτυξη των επιχειρησιακών μοντέλων γλώσσας. Το Granite 4.0 Tiny, όπως υποδηλώνει το όνομά του, θα είναι μία από τις μικρότερες προτάσεις της σειράς. Αναμένεται να κυκλοφορήσει επίσημα το καλοκαίρι, μαζί με τα μοντέλα Granite 4.0 Small και Granite 4.0 Medium.

Αυτή η προκαταρκτική έκδοση είναι διαθέσιμη στο Hugging Face υπό την άδεια Apache 2.0, επιτρέποντας στους προγραμματιστές με περιορισμένους πόρους GPU να πειραματιστούν με το μοντέλο. Η αρχιτεκτονική του μοντέλου είναι σε αναμονή υποστήριξης από τις πλατφόρμες Hugging Face transformers και vLLM, με την επίσημη υποστήριξη για τοπική εκτέλεση από συνεργάτες όπως οι Ollama και LMStudio να αναμένεται πριν την πλήρη κυκλοφορία του μοντέλου.

Υψηλή απόδοση σε καταναλωτικό υλικό

Συχνά, οι απαιτήσεις μνήμης των μοντέλων γλώσσας παρέχονται χωρίς το κατάλληλο πλαίσιο. Δεν αρκεί να γνωρίζουμε ότι ένα μοντέλο μπορεί να φορτωθεί επιτυχώς σε μια GPU. Πρέπει να γνωρίζουμε αν το υλικό μπορεί να διαχειριστεί το μοντέλο στα μήκη περιεχομένου που απαιτεί η χρήση μας. Πολλές επιχειρησιακές εφαρμογές απαιτούν όχι μόνο μια μοναδική ανάπτυξη μοντέλου, αλλά και την ταυτόχρονη επεξεργασία πολλαπλών περιπτώσεων.

Το Granite 4.0 Tiny είναι από τα πιο αποδοτικά μοντέλα γλώσσας όσον αφορά τη μνήμη. Ακόμη και σε πολύ μεγάλα μήκη περιεχομένου, πολλές ταυτόχρονες περιπτώσεις του μοντέλου μπορούν να εκτελεστούν εύκολα σε μια μέτρια καταναλωτική GPU.

Μια νέα υβριδική αρχιτεκτονική MoE

Σε αντίθεση με τις προηγούμενες γενιές των μοντέλων Granite που χρησιμοποιούσαν την παραδοσιακή αρχιτεκτονική transformer, όλα τα μοντέλα της σειράς Granite 4.0 χρησιμοποιούν μια νέα υβριδική αρχιτεκτονική Mamba-2/Transformer. Αυτή η αρχιτεκτονική συνδυάζει την ταχύτητα και την αποδοτικότητα του Mamba με την ακρίβεια της αυτοπροσοχής των transformers.

Το Granite 4.0 Tiny-Preview είναι ένα λεπτομερές υβριδικό μοντέλο μείγματος ειδικών (MoE), με 7 δισεκατομμύρια συνολικές παραμέτρους και μόνο 1 δισεκατομμύριο ενεργές παραμέτρους κατά την επεξεργασία. Πολλές από τις καινοτομίες της αρχιτεκτονικής Granite 4 προέκυψαν από τη συνεργασία της IBM Research με τους δημιουργούς του αρχικού Mamba στο Bamba, ένα πειραματικό υβριδικό μοντέλο ανοιχτού κώδικα.

Η ιστορία των μοντέλων Mamba

Το Mamba, ένας τύπος μοντέλου κατάστασης χώρου (SSM), εισήχθη το 2023, έξι χρόνια μετά την εμφάνιση των transformers το 2017. Τα SSMs είναι παρόμοια με τα επαναληπτικά νευρωνικά δίκτυα (RNNs) που κυριαρχούσαν στην επεξεργασία φυσικής γλώσσας πριν από τους transformers. Σχεδιάστηκαν αρχικά για να προβλέπουν την επόμενη κατάσταση μιας συνεχούς ακολουθίας χρησιμοποιώντας μόνο πληροφορίες από την τρέχουσα και την προηγούμενη κατάσταση.

Παρά τα πλεονεκτήματά τους, τα SSMs αντιμετώπιζαν ορισμένα προβλήματα που περιόριζαν τη δυναμική τους στην επεξεργασία γλώσσας. Ωστόσο, το 2023, οι ερευνητές Albert Gu και Tri Dao εισήγαγαν ένα νευρωνικό δίκτυο ακολουθίας δομημένου χώρου κατάστασης (“S4”) που πρόσθεσε έναν μηχανισμό επιλογής και μια μέθοδο σάρωσης για υπολογιστική αποδοτικότητα, επιτυγχάνοντας αποτελέσματα ανταγωνιστικά με τους transformers.

Το μέλλον των υβριδικών μοντέλων

Ευτυχώς, τα πλεονεκτήματα των transformers και του Mamba δεν είναι αμοιβαία αποκλειόμενα. Οι συγγραφείς του αρχικού άρθρου για το Mamba-2 πρότειναν ότι ένα υβριδικό μοντέλο θα μπορούσε να υπερβεί την απόδοση ενός καθαρού transformer ή SSM. Αυτή η ιδέα επιβεβαιώθηκε από έρευνα της NVIDIA.

Η αρχιτεκτονική MoE του Granite 4.0 χρησιμοποιεί 9 μπλοκ Mamba για κάθε 1 μπλοκ transformer. Οι μηχανισμοί επιλογής των μπλοκ Mamba συλλαμβάνουν αποτελεσματικά το παγκόσμιο πλαίσιο, το οποίο στη συνέχεια μεταβιβάζεται στα μπλοκ transformer για πιο λεπτομερή ανάλυση του τοπικού πλαισίου.

Συμπεράσματα

Το Granite 4.0 Tiny συνεχίζει να εκπαιδεύεται, με τα πρώτα αποτελέσματα να είναι ιδιαίτερα ενθαρρυντικά. Οι γνώσεις από την εκπαίδευση των προηγούμενων μοντέλων Granite 3.3 θα εφαρμοστούν στα νέα μοντέλα, με ιδιαίτερη έμφαση στις δυνατότητες λογικής και την παρακολούθηση σύνθετων οδηγιών. Το Granite 4.0 Tiny Preview προσφέρει δυνατότητες ενεργοποίησης και λειτουργικότητας, αν και η εκπαίδευση με έμφαση στη λογική δεν έχει ολοκληρωθεί πλήρως.