Google Cloud και NVIDIA μειώνουν το κόστος AI inference

Εισαγωγή: Η νέα στρατηγική υλικού της Google και της NVIDIA για την αντιμετώπιση του κόστους AI

Στο συνέδριο Google Cloud Next, η Google και η NVIDIA αποκάλυψαν το χάρτη πορείας του υλικού τους, σχεδιασμένο να αντιμετωπίσει το κόστος της επεξεργασίας AI σε μεγάλη κλίμακα. Οι δύο εταιρείες παρουσίασαν τις νέες A5X bare-metal instances, που λειτουργούν σε συστήματα NVIDIA Vera Rubin NVL72 rack-scale. Μέσω του συνδυασμού υλικού και λογισμικού, αυτή η αρχιτεκτονική στοχεύει να προσφέρει έως και δέκα φορές χαμηλότερο κόστος ανά token σε σύγκριση με προηγούμενες γενιές, ενώ ταυτόχρονα επιτυγχάνει δέκα φορές μεγαλύτερη απόδοση ανά μεγαβάτ.

Η σύνδεση χιλιάδων επεξεργαστών απαιτεί τεράστιο εύρος ζώνης για την αποφυγή καθυστερήσεων στην επεξεργασία. Οι A5X instances αντιμετωπίζουν αυτή την πρόκληση συνδυάζοντας τα NVIDIA ConnectX-9 SuperNICs με την τεχνολογία δικτύωσης Google Virgo. Αυτή η διαμόρφωση κλιμακώνεται σε 80.000 NVIDIA Rubin GPUs μέσα σε ένα μόνο site cluster και έως 960.000 GPUs σε πολυτοποθεσιακή ανάπτυξη. Η λειτουργία σε αυτή την κλίμακα απαιτεί εξελιγμένη διαχείριση φόρτου εργασίας, καθώς η δρομολόγηση δεδομένων σε σχεδόν ένα εκατομμύριο παράλληλους επεξεργαστές απαιτεί ακριβή συγχρονισμό για την αποφυγή αδρανούς χρόνου υπολογισμού.

Στρατηγικές για την κυβερνητική διαχείριση δεδομένων και την ασφάλεια στο cloud

Πέρα από τις ακατέργαστες δυνατότητες επεξεργασίας, η διακυβέρνηση δεδομένων παραμένει κύριο ζήτημα για τις επιχειρηματικές αναπτύξεις. Οι αυστηρά ρυθμιζόμενοι τομείς, όπως η χρηματοοικονομία και η υγειονομική περίθαλψη, συχνά καθυστερούν πρωτοβουλίες μηχανικής μάθησης λόγω απαιτήσεων κυριαρχίας δεδομένων και των κινδύνων αποκάλυψης ιδιόκτητων πληροφοριών. Για να αντιμετωπίσουν αυτές τις απαιτήσεις συμμόρφωσης, τα μοντέλα Google Gemini που εκτελούνται σε NVIDIA Blackwell και Blackwell Ultra GPUs εισέρχονται σε προεπισκόπηση στο Google Distributed Cloud. Αυτή η μέθοδος ανάπτυξης επιτρέπει στους οργανισμούς να διατηρούν τα μοντέλα τους εντελώς εντός των ελεγχόμενων περιβαλλόντων τους, μαζί με τα πιο ευαίσθητα αποθέματα δεδομένων τους.

Η αρχιτεκτονική ενσωματώνει το NVIDIA Confidential Computing, ένα πρωτόκολλο ασφαλείας σε επίπεδο υλικού που διασφαλίζει ότι τα μοντέλα εκπαίδευσης λειτουργούν σε προστατευμένο περιβάλλον όπου οι προτροπές και τα δεδομένα λεπτομέρειας παραμένουν κρυπτογραφημένα. Η κρυπτογράφηση αποτρέπει μη εξουσιοδοτημένα μέρη, συμπεριλαμβανομένων των ίδιων των χειριστών υποδομής cloud, από το να βλέπουν ή να τροποποιούν τα υποκείμενα δεδομένα.

Επιχειρησιακή επιβάρυνση στην εκπαίδευση πρακτόρων AI

Η κατασκευή συστημάτων πολλαπλών βημάτων πρακτόρων απαιτεί τη σύνδεση μεγάλων γλωσσικών μοντέλων με σύνθετες διεπαφές προγραμματισμού εφαρμογών, τη διατήρηση συνεχούς συγχρονισμού βάσεων δεδομένων διανυσμάτων και την ενεργή μείωση των αλγοριθμικών ψευδαισθήσεων κατά την εκτέλεση. Για να απλοποιηθεί αυτή η βαριά μηχανική απαίτηση, το NVIDIA Nemotron 3 Super είναι πλέον διαθέσιμο στην πλατφόρμα Gemini Enterprise Agent. Η πλατφόρμα παρέχει στους προγραμματιστές εργαλεία για την προσαρμογή και ανάπτυξη μοντέλων λογικής και πολυτροπικών, ειδικά σχεδιασμένων για πρακτορικές εργασίες.

Η εκπαίδευση αυτών των μοντέλων σε μεγάλη κλίμακα εισάγει βαριά επιχειρησιακή επιβάρυνση, ιδιαίτερα όταν διαχειρίζεται το μέγεθος των συστάδων και τις αποτυχίες υλικού κατά τη διάρκεια μακρών κύκλων ενισχυτικής μάθησης. Η Google Cloud και η NVIDIA εισήγαγαν τις Διαχειριζόμενες Συστάδες Εκπαίδευσης στην πλατφόρμα Gemini Enterprise Agent, η οποία περιλαμβάνει ένα διαχειριζόμενο API ενισχυτικής μάθησης κατασκευασμένο με το NVIDIA NeMo RL. Αυτό το σύστημα αυτοματοποιεί το μέγεθος των συστάδων, την ανάκτηση από αποτυχίες και την εκτέλεση εργασιών, επιτρέποντας στις ομάδες επιστήμης δεδομένων να επικεντρωθούν στην ποιότητα των μοντέλων αντί για τη διαχείριση υποδομής χαμηλού επιπέδου.

Ενσωμάτωση παλαιών αρχιτεκτονικών και φυσικές προσομοιώσεις

Η ενσωμάτωση της μηχανικής μάθησης στη βαριά βιομηχανία και την κατασκευή παρουσιάζει μια διαφορετική κατηγορία μηχανικών προκλήσεων. Η σύνδεση ψηφιακών μοντέλων με φυσικούς εργοστασιακούς χώρους απαιτεί ακριβείς φυσικές προσομοιώσεις, τεράστια υπολογιστική ισχύ και τυποποίηση σε παλαιά μορφότυπα δεδομένων. Η υποδομή AI της NVIDIA και οι βιβλιοθήκες φυσικής AI είναι πλέον διαθέσιμες στο Google Cloud, παρέχοντας το θεμέλιο για τους οργανισμούς να προσομοιώνουν και να αυτοματοποιούν πραγματικές ροές εργασίας κατασκευής.

Μεγάλοι πάροχοι βιομηχανικού λογισμικού, όπως η Cadence και η Siemens, έχουν διαθέσει τις λύσεις τους στο Google Cloud, επιταχυνόμενες από την υποδομή της NVIDIA. Αυτά τα εργαλεία υποστηρίζουν τη μηχανική και την κατασκευή βαρέων μηχανημάτων, πλατφορμών αεροδιαστημικής και αυτόνομων οχημάτων. Οι κατασκευαστικές εταιρείες συχνά λειτουργούν σε συστήματα διαχείρισης κύκλου ζωής προϊόντων δεκαετιών, καθιστώντας δύσκολη τη μετάφραση γεωμετρικών και φυσικών δεδομένων. Χρησιμοποιώντας τις βιβλιοθήκες NVIDIA Omniverse και το ανοιχτού κώδικα πλαίσιο NVIDIA Isaac Sim μέσω του Google Cloud Marketplace, οι προγραμματιστές μπορούν να παρακάμψουν μερικά από αυτά τα ζητήματα μετάφρασης για να κατασκευάσουν φυσικά ακριβή ψηφιακά δίδυμα και να εκπαιδεύσουν αγωγούς προσομοίωσης ρομποτικής πριν από την φυσική ανάπτυξη.

Επιπτώσεις στο επιταχυνόμενο οικοσύστημα υπολογιστών

Η μετάφραση αυτών των προδιαγραφών υλικού σε ποσοτικοποιήσιμες οικονομικές αποδόσεις απαιτεί την επιθεώρηση του τρόπου με τον οποίο οι πρώτοι υιοθετούντες χρησιμοποιούν την υποδομή. Το ευρύ χαρτοφυλάκιο περιλαμβάνει επιλογές που κλιμακώνονται από πλήρη ράφια NVL72 έως και κλασματικά G4 VMs που προσφέρουν μόλις το ένα όγδοο μιας GPU. Αυτό επιτρέπει στους πελάτες να προμηθεύονται με ακρίβεια τις δυνατότητες επιτάχυνσης για εργασίες λογικής μείγματος ειδικών και επεξεργασίας δεδομένων.

Το Thinking Machines Lab κλιμακώνει το Tinker API του σε A4X Max VMs για να επιταχύνει την εκπαίδευση. Η OpenAI χρησιμοποιεί μεγάλης κλίμακας επεξεργασία σε NVIDIA GB300 και GB200 NVL72 συστήματα στο Google Cloud για να διαχειρίζεται απαιτητικές εργασίες, συμπεριλαμβανομένων των λειτουργιών ChatGPT. Η Snap μετέφερε τους αγωγούς δεδομένων της σε GPU-επιταχυνόμενο Spark στο Google Cloud για να μειώσει τα εκτεταμένα κόστη που συνδέονται με τη μεγάλης κλίμακας A/B δοκιμή. Στον φαρμακευτικό τομέα, η Schrödinger αξιοποιεί την επιταχυνόμενη υπολογιστική ισχύ της NVIDIA στο Google Cloud για να συμπιέσει τις προσομοιώσεις ανακάλυψης φαρμάκων που προηγουμένως χρειάζονταν εβδομάδες σε λίγες ώρες.

Η κοινότητα προγραμματιστών που κλιμακώνει αυτά τα εργαλεία έχει επεκταθεί γρήγορα. Πάνω από 90.000 προγραμματιστές συμμετείχαν στην κοινή κοινότητα προγραμματιστών της NVIDIA και του Google Cloud μέσα σε ένα χρόνο. Startups όπως οι CodeRabbit και Factory εφαρμόζουν μοντέλα βασισμένα στο NVIDIA Nemotron στο Google Cloud για να εκτελούν αναθεωρήσεις κώδικα και να τρέχουν αυτόνομους πράκτορες ανάπτυξης λογισμικού. Οι Aible, Mantis AI, Photoroom και Baseten κατασκευάζουν λύσεις επιχειρησιακών δεδομένων, βίντεο νοημοσύνης και γενετικής απεικόνισης χρησιμοποιώντας την πλήρη στοίβα πλατφόρμας.

Συμπέρασμα: Η μελλοντική κατεύθυνση της συνεργασίας Google και NVIDIA

Συνολικά, η Google και η NVIDIA στοχεύουν να παρέχουν ένα θεμέλιο υπολογιστικής σχεδιασμένο να προάγει πειραματικούς πράκτορες και προσομοιώσεις σε παραγωγικά συστήματα που εξασφαλίζουν στόλους και βελτιστοποιούν εργοστάσια στον φυσικό κόσμο. Η συνεργασία τους προαναγγέλλει μια νέα εποχή στην υποδομή AI, συνδυάζοντας την κλίμακα και την ευελιξία του Google Cloud με την τεχνολογική υπεροχή της NVIDIA. Αυτή η συνεργασία όχι μόνο προωθεί την τεχνολογία AI αλλά και προσφέρει στους πελάτες τη δυνατότητα να εκμεταλλευτούν πλήρως τις δυνατότητες της τεχνητής νοημοσύνης, εξασφαλίζοντας παράλληλα την προστασία των δεδομένων και τη συμμόρφωση με τις ρυθμιστικές απαιτήσεις.