Η NVIDIA στοχεύει να επιλύσει τα προβλήματα της τεχνητής νοημοσύνης με πολλές γλώσσες
Η τεχνητή νοημοσύνη (AI) μπορεί να φαίνεται πανταχού παρούσα, αλλά λειτουργεί κυρίως σε ένα μικρό μέρος από τις 7.000 γλώσσες του κόσμου, αφήνοντας πίσω ένα μεγάλο μέρος του παγκόσμιου πληθυσμού. Η NVIDIA επιδιώκει να διορθώσει αυτήν την εμφανή αδυναμία, ιδιαίτερα στην Ευρώπη. Η εταιρεία έχει κυκλοφορήσει ένα ισχυρό νέο σύνολο εργαλείων ανοικτού κώδικα, με στόχο να δώσει στους προγραμματιστές τη δυνατότητα να δημιουργήσουν ποιοτική ομιλία AI για 25 διαφορετικές ευρωπαϊκές γλώσσες. Αυτό περιλαμβάνει μεγάλες γλώσσες, αλλά πιο σημαντικά, προσφέρει μια σανίδα σωτηρίας σε όσους συχνά παραβλέπονται από τις μεγάλες τεχνολογικές εταιρείες, όπως τα Κροατικά, τα Εσθονικά και τα Μαλτέζικα.
Εργαλεία για την ανάπτυξη πολυγλωσσικών εφαρμογών
Ο στόχος είναι να επιτρέψει στους προγραμματιστές να δημιουργήσουν εργαλεία που βασίζονται στη φωνή, τα οποία πολλοί από εμάς θεωρούμε δεδομένα, όπως πολυγλωσσικά chatbots που πραγματικά καταλαβαίνουν τον χρήστη, έως και υπηρεσίες εξυπηρέτησης πελατών και μεταφραστικές υπηρεσίες που λειτουργούν με αστραπιαία ταχύτητα. Το επίκεντρο αυτής της πρωτοβουλίας είναι το Granary, μια τεράστια βιβλιοθήκη ανθρώπινης ομιλίας. Περιέχει περίπου ένα εκατομμύριο ώρες ήχου, όλα επιμελημένα για να βοηθήσουν την AI να μάθει τις λεπτομέρειες της αναγνώρισης και της μετάφρασης ομιλίας.
Για να αξιοποιήσει αυτά τα δεδομένα ομιλίας, η NVIDIA παρέχει επίσης δύο νέα μοντέλα AI σχεδιασμένα για γλωσσικές εργασίες: το Canary-1b-v2, ένα μεγάλο μοντέλο που έχει κατασκευαστεί για υψηλή ακρίβεια σε σύνθετες εργασίες απομαγνητοφώνησης και μετάφρασης, και το Parakeet-tdt-0.6b-v3, το οποίο είναι σχεδιασμένο για εφαρμογές σε πραγματικό χρόνο όπου η ταχύτητα είναι το παν. Το άρθρο για το Granary θα παρουσιαστεί στο συνέδριο Interspeech στην Ολλανδία αυτόν τον μήνα. Για τους προγραμματιστές που θέλουν να ασχοληθούν, το σύνολο δεδομένων και τα δύο μοντέλα είναι ήδη διαθέσιμα στο Hugging Face.
Αυτοματοποιημένη διαδικασία συλλογής δεδομένων
Η πραγματική μαγεία, ωστόσο, έγκειται στον τρόπο που δημιουργήθηκαν αυτά τα δεδομένα. Όλοι γνωρίζουμε ότι η εκπαίδευση της AI απαιτεί τεράστιες ποσότητες δεδομένων, αλλά η απόκτησή τους είναι συνήθως μια αργή, δαπανηρή και ειλικρινά κουραστική διαδικασία ανθρώπινης επισημείωσης. Για να το παρακάμψει αυτό, η ομάδα ομιλίας AI της NVIDIA – συνεργαζόμενη με ερευνητές από το Πανεπιστήμιο Carnegie Mellon και το Fondazione Bruno Kessler – δημιούργησε μια αυτοματοποιημένη διαδικασία. Χρησιμοποιώντας το δικό τους εργαλείο NeMo, κατάφεραν να μετατρέψουν ακατέργαστο, μη επισημασμένο ήχο σε ποιοτικά, δομημένα δεδομένα από τα οποία μπορεί να μάθει η AI.
Αυτό δεν είναι μόνο ένα τεχνικό επίτευγμα. Είναι ένα μεγάλο βήμα για την ψηφιακή ενσωμάτωση. Σημαίνει ότι ένας προγραμματιστής στη Ρίγα ή το Ζάγκρεμπ μπορεί επιτέλους να δημιουργήσει εργαλεία AI που βασίζονται στη φωνή και κατανοούν σωστά τις τοπικές γλώσσες. Και μπορούν να το κάνουν πιο αποτελεσματικά. Η ερευνητική ομάδα διαπίστωσε ότι τα δεδομένα Granary είναι τόσο αποτελεσματικά που χρειάζεται περίπου το μισό ποσό τους για να επιτευχθεί ένα επίπεδο ακρίβειας στόχου σε σύγκριση με άλλα δημοφιλή σύνολα δεδομένων.
Τα νέα μοντέλα και οι δυνατότητές τους
Τα δύο νέα μοντέλα αποδεικνύουν αυτή τη δύναμη. Το Canary είναι πραγματικά ένα θηρίο, προσφέροντας ποιότητα μετάφρασης και απομαγνητοφώνησης που ανταγωνίζεται μοντέλα τρεις φορές το μέγεθός του, αλλά με ταχύτητα έως και δέκα φορές μεγαλύτερη. Το Parakeet, από την άλλη, μπορεί να διαχειριστεί μια ηχογράφηση συνάντησης 24 λεπτών με τη μία, αναγνωρίζοντας αυτόματα ποια γλώσσα ομιλείται. Και τα δύο μοντέλα είναι αρκετά έξυπνα για να χειρίζονται σημεία στίξης, κεφαλαιοποίηση και να παρέχουν χρονικές σημάνσεις σε επίπεδο λέξης, κάτι που είναι απαραίτητο για την κατασκευή επαγγελματικών εφαρμογών.
Η συμβολή της NVIDIA στην καινοτομία
Με την τοποθέτηση αυτών των ισχυρών εργαλείων και των μεθόδων πίσω από αυτά στα χέρια της παγκόσμιας κοινότητας των προγραμματιστών, η NVIDIA δεν κυκλοφορεί απλώς ένα προϊόν. Ξεκινά ένα νέο κύμα καινοτομίας, με την ελπίδα να δημιουργήσει έναν κόσμο όπου η AI μιλάει τη γλώσσα σας, ανεξάρτητα από το από πού προέρχεστε.