Η Amazon Παρουσιάζει το Νέο Μοντέλο Nova Sonic για Φυσική Ομιλία
Την Τρίτη, η Amazon παρουσίασε το νέο της μοντέλο τεχνητής νοημοσύνης, Nova Sonic, που μπορεί να επεξεργάζεται φυσικά τη φωνή και να δημιουργεί ομιλία που ακούγεται φυσική. Η εταιρεία υποστηρίζει ότι η απόδοση του Sonic είναι ανταγωνιστική με τα κορυφαία μοντέλα φωνής από την OpenAI και την Google, όσον αφορά την ταχύτητα, την αναγνώριση ομιλίας και την ποιότητα συνομιλίας. Το Nova Sonic αποτελεί την απάντηση της Amazon στα νεότερα μοντέλα φωνής AI, όπως το μοντέλο που τροφοδοτεί τη λειτουργία Voice Mode του ChatGPT, τα οποία προσφέρουν πιο φυσική επικοινωνία σε σύγκριση με τα πιο άκαμπτα μοντέλα των πρώτων ημερών της Alexa. Οι πρόσφατες τεχνολογικές εξελίξεις έχουν κάνει τα παλαιότερα μοντέλα και τους ψηφιακούς βοηθούς που υποστηρίζουν, όπως η Alexa και η Siri της Apple, να φαίνονται εξαιρετικά άκαμπτα σε σύγκριση.
Το Nova Sonic και η Πλατφόρμα Bedrock της Amazon
Το Nova Sonic είναι διαθέσιμο μέσω της Bedrock, της πλατφόρμας ανάπτυξης της Amazon για τη δημιουργία επιχειρησιακών εφαρμογών AI, μέσω ενός νέου API αμφίδρομης ροής. Σε δελτίο τύπου, η Amazon χαρακτήρισε το Nova Sonic ως το «πιο οικονομικό» μοντέλο φωνής AI στην αγορά, με κόστος περίπου 80% χαμηλότερο από το GPT-4o της OpenAI. Συστατικά του Nova Sonic ήδη υποστηρίζουν την αναβαθμισμένη ψηφιακή βοηθό φωνής της Amazon, την Alexa+, σύμφωνα με τον Ανώτερο Αντιπρόεδρο και Επικεφαλής Επιστήμονα της AGI, Ροχίτ Πρασάντ. Σε συνέντευξή του, ο Πρασάντ ανέφερε ότι το Nova Sonic βασίζεται στην εμπειρία της Amazon στα «μεγάλα συστήματα ορχήστρωσης», την τεχνική υποδομή που αποτελεί την Alexa.
Ικανότητες και Πλεονεκτήματα του Nova Sonic
Συγκριτικά με άλλα μοντέλα φωνής AI, το Nova Sonic διαπρέπει στη δρομολόγηση αιτημάτων χρηστών σε διάφορα APIs, σύμφωνα με τον Πρασάντ. Αυτή η δυνατότητα βοηθά το Nova Sonic να «γνωρίζει» πότε χρειάζεται να αντλήσει πληροφορίες σε πραγματικό χρόνο από το διαδίκτυο, να αναλύσει μια ιδιόκτητη πηγή δεδομένων ή να αναλάβει δράση σε μια εξωτερική εφαρμογή — και να χρησιμοποιήσει το κατάλληλο εργαλείο για να το κάνει. Κατά τη διάρκεια μιας αμφίδρομης συνομιλίας, το Nova Sonic περιμένει να μιλήσει «στην κατάλληλη στιγμή», λαμβάνοντας υπόψη τις παύσεις και τις διακοπές του ομιλητή, όπως αναφέρει η Amazon.
Ακρίβεια και Ταχύτητα στην Αναγνώριση Ομιλίας
Το Nova Sonic είναι λιγότερο επιρρεπές σε σφάλματα αναγνώρισης ομιλίας από άλλα μοντέλα φωνής AI, σύμφωνα με τον Πρασάντ, πράγμα που σημαίνει ότι το μοντέλο είναι σχετικά καλό στην κατανόηση της πρόθεσης του χρήστη, ακόμα και αν ο χρήστης μιλάει ασαφώς, κάνει λάθη ή βρίσκεται σε θορυβώδες περιβάλλον. Σε ένα σημείο αναφοράς που μετρά την αναγνώριση ομιλίας σε διάφορες γλώσσες και διαλέκτους, το Multilingual LibriSpeech, η Amazon δηλώνει ότι το Nova Sonic πέτυχε ποσοστό σφάλματος λέξεων (WER) μόλις 4,2% όταν υπολογίζεται κατά μέσο όρο στα Αγγλικά, Γαλλικά, Ιταλικά, Γερμανικά και Ισπανικά.
Συμπέρασμα: Το Μέλλον της Τεχνητής Νοημοσύνης στην Amazon
Ο Πρασάντ αναφέρει ότι το Nova Sonic αποτελεί μέρος της ευρύτερης στρατηγικής της Amazon για την ανάπτυξη της AGI (γενικής τεχνητής νοημοσύνης), την οποία η εταιρεία ορίζει ως «συστήματα AI που μπορούν να κάνουν οτιδήποτε μπορεί να κάνει ένας άνθρωπος σε έναν υπολογιστή». Προχωρώντας, η Amazon σχεδιάζει να κυκλοφορήσει περισσότερα μοντέλα AI που μπορούν να κατανοούν διαφορετικές μορφές, συμπεριλαμβανομένων εικόνων, βίντεο και φωνής, καθώς και «άλλα αισθητηριακά δεδομένα που είναι σχετικά αν φέρνετε πράγματα στον φυσικό κόσμο». Η AGI της Amazon, την οποία επιβλέπει ο Πρασάντ, φαίνεται να παίζει μεγαλύτερο ρόλο στη στρατηγική προϊόντων της εταιρείας αυτές τις μέρες. Μόλις την προηγούμενη εβδομάδα, η Amazon παρουσίασε μια προεπισκόπηση του Nova Act, ενός μοντέλου AI που χρησιμοποιεί το πρόγραμμα περιήγησης και φαίνεται να υποστηρίζει στοιχεία της Alexa+ και της λειτουργίας Buy for Me της Amazon. Ξεκινώντας με το Nova Sonic, ο Πρασάντ λέει ότι η εταιρεία θέλει να προσφέρει περισσότερα από τα εσωτερικά της μοντέλα AI για να τα χρησιμοποιήσουν οι προγραμματιστές.















