Η ElevenLabs λανσάρει το δικό της μοντέλο μετατροπής ομιλίας σε κείμενο

Η ElevenLabs Εισέρχεται στην Αγορά Αναγνώρισης Ομιλίας με το Νέο Μοντέλο Scribe

Η ElevenLabs, μια ανερχόμενη εταιρεία τεχνητής νοημοσύνης, πρόσφατα συγκέντρωσε 180 εκατομμύρια δολάρια σε μια εντυπωσιακή χρηματοδότηση. Γνωστή κυρίως για την ικανότητά της στην παραγωγή ήχου, η εταιρεία κάνει ένα νέο τεχνολογικό άλμα με την κυκλοφορία του πρώτου ανεξάρτητου μοντέλου αναγνώρισης ομιλίας, του Scribe. Η αξία της εταιρείας ανέρχεται στα 3,3 δισεκατομμύρια δολάρια και έχει ήδη βοηθήσει πολλές άλλες εταιρείες να προσφέρουν υπηρεσίες αναγνώρισης ομιλίας μέσω της εκτεταμένης βιβλιοθήκης φωνών της. Τώρα, η ElevenLabs στοχεύει να εισέλθει στην αγορά αναγνώρισης ομιλίας και να ανταγωνιστεί εταιρείες όπως οι Gladia, Speechmatics, AssemblyAI, Deepgram και τα μοντέλα Whisper της OpenAI.

Το Νέο Μοντέλο Scribe και οι Γλώσσες που Υποστηρίζει

Το μοντέλο Scribe της ElevenLabs υποστηρίζει περισσότερες από 99 γλώσσες από την αρχή. Η εταιρεία κατατάσσει πάνω από 25 γλώσσες στην κατηγορία εξαιρετικής ακρίβειας, όπου το ποσοστό σφάλματος λέξεων είναι κάτω από 5%. Σε αυτή τη λίστα περιλαμβάνονται τα Αγγλικά (με δηλωμένο ποσοστό ακρίβειας 97%), τα Γαλλικά, τα Γερμανικά, τα Χίντι, τα Ινδονησιακά, τα Ιαπωνικά, τα Κανάντα, τα Μαλαγιάλαμ, τα Πολωνικά, τα Πορτογαλικά, τα Ισπανικά και τα Βιετναμέζικα. Άλλες γλώσσες κατατάσσονται σε διαφορετικές κατηγορίες με υψηλά (5% έως 10% ποσοστά σφάλματος λέξεων), καλά (10% έως 20% ποσοστά σφάλματος λέξεων) και μέτρια (25% έως 50%) ποσοστά σφάλματος λέξεων.

Επιδόσεις και Συγκρίσεις με Άλλα Μοντέλα

Η ElevenLabs αναφέρει ότι το μοντέλο της ξεπερνάει το Google Gemini 2.0 Flash και το Whisper Large V3 σε πολλαπλές γλώσσες, σύμφωνα με τα τεστ FLEURS & Common Voice. Η εταιρεία είχε αναπτύξει το στοιχείο αναγνώρισης ομιλίας για την πλατφόρμα συνομιλητή AI που κυκλοφόρησε πέρυσι. Ωστόσο, αυτή είναι η πρώτη φορά που η εταιρεία κυκλοφορεί ένα ανεξάρτητο μοντέλο ανίχνευσης ομιλίας.

Στοχεύοντας στη Βελτίωση των Μοντέλων Αναγνώρισης Ομιλίας

Σε μια συζήτηση με το TechCrunch τον περασμένο μήνα, ο CEO Mati Staniszewski μίλησε για τη βελτίωση των μοντέλων ανίχνευσης ομιλίας. «Θέλουμε να κατανοούμε καλύτερα τι λέγεται σε μια συνομιλία. Εργαζόμαστε για να μετακινηθούμε πέρα από τη δημιουργία περιεχομένου και να κατανοούμε και να μεταγράφουμε ομιλία», δήλωσε ο Staniszewski. «Πολλοί λένε ότι η αναγνώριση ομιλίας είναι ένα λυμένο πρόβλημα. Αλλά για πολλές γλώσσες, είναι αρκετά κακή. Πιστεύουμε ότι μπορούμε να κατασκευάσουμε καλύτερα μοντέλα ανίχνευσης ομιλίας επειδή έχουμε ομάδες εντός της εταιρείας που σχολιάζουν δεδομένα και μας παρέχουν γρήγορη ανατροφοδότηση.»

Καινοτόμα Χαρακτηριστικά και Μελλοντικές Προοπτικές

Το μοντέλο περιλαμβάνει επίσης έξυπνη διαχωρισμό ομιλητών για να αναγνωρίζει ποιος μιλάει, χρονικές σφραγίδες σε επίπεδο λέξης για ακριβείς υπότιτλους, και αυτόματη ετικετοποίηση ηχητικών γεγονότων όπως γέλια κοινού. Η εταιρεία παρέχει έναν τρόπο για τους πελάτες να μεταγράφουν απευθείας περιεχόμενο βίντεο για να προσθέσουν υπότιτλους ή λεζάντες στο στούντιο της. Το Scribe λειτουργεί επί του παρόντος μόνο με προ-ηχογραφημένες μορφές ήχου. Η εταιρεία δήλωσε ότι σύντομα θα κυκλοφορήσει μια έκδοση του μοντέλου με χαμηλή καθυστέρηση σε πραγματικό χρόνο, που σημαίνει ότι δεν είναι ακόμη αποτελεσματικό για μεταγραφές συναντήσεων ή σημειώσεις φωνής.

Ανταγωνιστική Τιμολόγηση και Σύγκριση με Ανταγωνιστές

Η ElevenLabs τιμολογεί το Scribe στα 0,40 δολάρια για μία ώρα μεταγραμμένου ήχου. Αν και η τιμή είναι ανταγωνιστική, μερικοί από τους ανταγωνιστές της προσφέρουν χαμηλότερη τιμή για μεταγραφές ήχου αυτή τη στιγμή, με κάποιες διαφοροποιήσεις χαρακτηριστικών.

Συμπέρασμα: Η Εξέλιξη της Αναγνώρισης Ομιλίας από την ElevenLabs

Η ElevenLabs κάνει ένα σημαντικό βήμα προς την κατεύθυνση της αναγνώρισης ομιλίας με το νέο της μοντέλο Scribe. Με την υποστήριξη πολλών γλωσσών και καινοτόμα χαρακτηριστικά, η εταιρεία στοχεύει να επαναπροσδιορίσει την αγορά και να προσφέρει βελτιωμένες λύσεις για την αναγνώριση ομιλίας. Ανυπομονούμε να δούμε πώς θα εξελιχθεί αυτή η τεχνολογία και ποιες νέες δυνατότητες θα φέρει στο μέλλον.