Ερευνητές της Microsoft υποστηρίζουν ότι ανέπτυξαν υπερ-Αποδοτικό μοντέλο ΤΝ χωρίς GPU

Η Microsoft Αναπτύσσει το Μεγαλύτερο Μοντέλο Τεχνητής Νοημοσύνης 1-bit: Τι Είναι και Πώς Λειτουργεί

Η Microsoft ανακοίνωσε πρόσφατα την ανάπτυξη του μεγαλύτερου μοντέλου τεχνητής νοημοσύνης 1-bit, γνωστό και ως “bitnet”, που έχει δημιουργηθεί μέχρι σήμερα. Το μοντέλο αυτό, με την ονομασία BitNet b1.58 2B4T, είναι διαθέσιμο στο κοινό υπό την άδεια MIT και μπορεί να λειτουργήσει σε επεξεργαστές, συμπεριλαμβανομένου του M2 της Apple. Τα bitnets είναι ουσιαστικά συμπιεσμένα μοντέλα σχεδιασμένα για να λειτουργούν σε ελαφρύ υλικό. Σε τυπικά μοντέλα, τα βάρη, δηλαδή οι τιμές που καθορίζουν την εσωτερική δομή ενός μοντέλου, συχνά κβαντίζονται ώστε τα μοντέλα να αποδίδουν καλά σε μια ευρεία γκάμα μηχανών. Η κβαντοποίηση των βαρών μειώνει τον αριθμό των bits — τις μικρότερες μονάδες που μπορεί να επεξεργαστεί ένας υπολογιστής — που χρειάζονται για την αναπαράσταση αυτών των βαρών, επιτρέποντας στα μοντέλα να λειτουργούν σε τσιπ με λιγότερη μνήμη, πιο γρήγορα.

Πώς Τα Bitnets Αλλάζουν το Τοπίο της Τεχνητής Νοημοσύνης

Τα bitnets κβαντίζουν τα βάρη σε μόλις τρεις τιμές: -1, 0 και 1. Θεωρητικά, αυτό τα καθιστά πολύ πιο αποδοτικά σε μνήμη και επεξεργασία από τα περισσότερα μοντέλα σήμερα. Οι ερευνητές της Microsoft υποστηρίζουν ότι το BitNet b1.58 2B4T είναι το πρώτο bitnet με 2 δισεκατομμύρια παραμέτρους, με τις “παραμέτρους” να είναι σε μεγάλο βαθμό συνώνυμες με τα “βάρη”. Εκπαιδευμένο σε ένα σύνολο δεδομένων 4 τρισεκατομμυρίων tokens — ισοδύναμο με περίπου 33 εκατομμύρια βιβλία, σύμφωνα με μια εκτίμηση — το BitNet b1.58 2B4T υπερβαίνει τα παραδοσιακά μοντέλα παρόμοιου μεγέθους, σύμφωνα με τους ερευνητές.

Συγκρίνοντας το BitNet b1.58 2B4T με Άλλα Μοντέλα

Το BitNet b1.58 2B4T δεν υπερέχει απόλυτα σε σύγκριση με ανταγωνιστικά μοντέλα με 2 δισεκατομμύρια παραμέτρους, αλλά φαίνεται να κρατά τη θέση του. Σύμφωνα με τις δοκιμές των ερευνητών, το μοντέλο υπερβαίνει το Llama 3.2 1B της Meta, το Gemma 3 1B της Google και το Qwen 2.5 1.5B της Alibaba σε benchmarks όπως το GSM8K (μια συλλογή προβλημάτων μαθηματικών επιπέδου δημοτικού) και το PIQA (που δοκιμάζει τις δεξιότητες φυσικής κοινής λογικής).

Ταχύτητα και Αποδοτικότητα: Πλεονεκτήματα και Περιορισμοί

Ίσως πιο εντυπωσιακό είναι το γεγονός ότι το BitNet b1.58 2B4T είναι ταχύτερο από άλλα μοντέλα του μεγέθους του — σε ορισμένες περιπτώσεις, διπλάσια ταχύτητα — ενώ χρησιμοποιεί ένα κλάσμα της μνήμης. Υπάρχει όμως μια παγίδα. Η επίτευξη αυτής της απόδοσης απαιτεί τη χρήση του προσαρμοσμένου πλαισίου της Microsoft, bitnet.cpp, το οποίο λειτουργεί μόνο με ορισμένο υλικό προς το παρόν. Απουσιάζουν από τη λίστα των υποστηριζόμενων τσιπ οι GPUs, οι οποίες κυριαρχούν στο τοπίο υποδομών της τεχνητής νοημοσύνης.

Συμπεράσματα: Το Μέλλον των Bitnets και οι Προκλήσεις τους

Συνοψίζοντας, τα bitnets μπορούν να προσφέρουν πολλά, ειδικά για συσκευές με περιορισμένους πόρους. Ωστόσο, η συμβατότητα είναι — και πιθανότατα θα παραμείνει — ένα μεγάλο εμπόδιο. Παρόλο που το BitNet b1.58 2B4T δείχνει πολλά υποσχόμενο, η εξάρτηση από συγκεκριμένο υλικό και πλαίσια μπορεί να περιορίσει την ευρεία υιοθέτησή του. Εντούτοις, για όσους επιθυμούν να εκμεταλλευτούν τα πλεονεκτήματα της τεχνητής νοημοσύνης σε πιο λιτές συσκευές, τα bitnets μπορεί να αποτελέσουν μια ενδιαφέρουσα επιλογή για το μέλλον.