ElevenLabs, une startup d’IA reconnue pour ses capacités de génération audio, a lancé Un modèle de parole à texte autonome nommé Scribe. Le lancement fait suite à un tour de financement substantiel de 180 millions de dollars, augmentant l’évaluation de l’entreprise à 3,3 milliards de dollars.
ElevenLabs lance le scribe: un nouveau modèle de discours sur le texte d’IA
Scribe prend en charge plus de 99 langues et atteint un taux d’erreur de mot inférieur à 5% dans plus de 25 langues, y compris l’anglais, qui a un taux de précision réclamé de 97%. Les autres langues de l’excellente catégorie de précision incluent le français, l’allemand, l’hindi, l’Indonésien, le japonais, le kannada, le malayalam, le polonais, le portugais, l’espagnol et le vietnamien. Les langues supplémentaires sont classées avec des taux d’erreur variables de élevés (5% à 10%) à modérés (25% à 50%).
Vidéo: ElevenLabs
Le nouveau modèle surpasserait le Gemini 2.0 Flash de Google et Whisper Big V3 d’Openai en plusieurs langues basé sur les fleurs et les tests de référence vocaux communs. Scribe est le premier modèle distinct de détection de la parole d’ElevenLabs, qui avait déjà intégré des composants de la parole à texte dans sa plate-forme d’agent conversationnel AI.
Les abonnés de Chatgpt Plus bénéficient désormais d’une fonction de recherche approfondie
Le PDG Mati Staniszewski a souligné l’objectif d’améliorer la compréhension des conversations: « Nous travaillons sur les moyens de nous éloigner de la génération de contenu et de compréhension et de transcription de la parole », a-t-il déclaré. Le modèle dispose de la diarisation des conférenciers, des horodatages au niveau des mots pour des sous-titres précis et du marquage automatique d’événements audio non verbaux.
Scribe est actuellement limité aux formats audio préenregistrés, avec une version en temps réel qui devrait être publiée bientôt. Le prix du scribe est de 0,40 $ par heure de son transcrit, avec une réduction de 50% disponible pour les six premières semaines.

Les tests de référence indiquent que Scribe enregistre les taux d’erreur de mots les plus bas pour diverses langues, atteignant 98,7% en italien et 96,7% en anglais. Les caractéristiques clés incluent la possibilité de différencier les haut-parleurs dans les enregistrements multi-orages, les horodatages détaillés et la détection des événements non-parléniques.
Pour les utilisateurs d’entreprise, Scribe sert d’outil de transcription évolutif, bénéfique pour les secteurs qui s’appuient sur la documentation, la réalisation des transcriptions et les initiatives d’accessibilité. La prochaine version en temps réel pourrait encore améliorer son utilité dans les scénarios de communication en direct.
Le lancement de Scribe a coïncidé avec la sortie de l’octave de Hume Ai, un modèle de texte vocale personnalisable propulsé par LLM adapté à la création de contenu. ElevenLabs Claims Scribe a systématiquement surpassé les concurrents dans la précision de la transcription.
Scribe est accessible directement via le site Web ou l’API ElevenLabs, permettant aux utilisateurs de télécharger des fichiers audio ou vidéo pour les transcriptions formatées. Son intégration structurée de production dans diverses applications, présentant une option concurrentielle pour les entreprises à la recherche de services de transcription à haute précision.
Crédit d’image en vedette: Elevenlabs