Speechify, une société connue pour ses outils de synthèse vocale qui convertissent des articles, des PDF et des documents en audio, a introduit la saisie vocale et un assistant vocal dans son extension Chrome. Cette expansion répond à l’essor des outils de détection vocale au cours des 12 derniers mois, motivé par les progrès des modèles de reconnaissance vocale. Les fonctionnalités prennent en charge l’anglais et incluent la correction d’erreurs et la suppression des mots de remplissage. Speechify visait à l’origine à permettre aux utilisateurs d’écouter du contenu écrit via sa plate-forme, en transformant le texte statique en récits parlés pour une consommation plus facile. Avec l’ajout de capacités de détection vocale, l’entreprise s’oriente vers des expériences audio interactives. La fonction de saisie vocale permet de dicter directement dans le navigateur, de capturer les mots prononcés et de les convertir en texte tout en corrigeant automatiquement les inexactitudes courantes telles que les termes mal entendus ou les phrases répétées. Cela correspond aux tendances plus larges du secteur, où les réseaux neuronaux améliorés dans la reconnaissance vocale ont réduit la latence et augmenté la précision, rendant la saisie vocale en temps réel viable pour les applications quotidiennes. Au cours d’une période de test dépassant une journée, la saisie vocale a fonctionné de manière fiable dans des applications telles que Gmail et Google Docs, où l’activation s’est déroulée en douceur et l’insertion de texte a suivi la saisie vocale sans retards significatifs. Des difficultés sont apparues sur des plateformes telles que WordPress, où le lancement de la dictée s’est avéré incohérent et où le résultat contenait parfois des erreurs non résolues. Les représentants de Speechify ont expliqué que les améliorations apportées aux sites Web largement utilisés sont mises en œuvre par étapes pour garantir la compatibilité et affiner les performances dans divers environnements. Des comparaisons de précision ont révélé que la saisie vocale de Speechify présentait un taux d’erreurs de mots plus élevé que celui de ses concurrents, notamment Wispr Flow, Willow et Monologue. Ces alternatives ont démontré moins de cas de transcriptions incorrectes dans des scénarios similaires. Speechify a souligné que son modèle sous-jacent s’adapte plus rapidement aux modèles d’utilisateur individuels grâce à une interaction continue, conduisant à une diminution progressive du taux d’erreur à mesure que la familiarité avec la voix et le style de parole de l’orateur s’accumule. L’assistant vocal s’intègre dans la barre latérale du navigateur, fournissant une interface persistante pour les requêtes en langage naturel liées à la page Web active. Les utilisateurs peuvent poser des demandes spécifiques, telles que l’identification des trois concepts principaux dans le contenu ou demander une explication simplifiée de sections complexes. Cette configuration facilite une compréhension rapide sans navigation manuelle, améliorant ainsi l’accessibilité pour les apprenants auditifs ou ceux effectuant plusieurs tâches à la fois. https://www.youtube.com/watch?v=7kL3XTaTFHE Speechify positionne la voix comme mode d’interaction central, contrastant avec des plateformes comme ChatGPT et Gemini. Rohan Pavuluri, directeur commercial de la société, a déclaré dans un courriel adressé à TechCrunch« Nous pensons que le chat sera toujours l’expérience utilisateur par défaut dans ChatGPT et Gemini lorsque vous ouvrez les applications. C’est ce que leurs utilisateurs attendent. La voix sera toujours secondaire – et dans de nombreux cas, une réflexion après coup pour ChatGPT et Gemini. Nous savons, grâce à plusieurs années de création de Speechify, qu’il existe une grande partie du marché, qui inclut nos utilisateurs, qui souhaitent que la voix soit le paramètre principal par défaut à chaque fois qu’ils ouvrent une application et parlent à l’IA. » Cette perspective s’inspire de la base d’utilisateurs établie de Speechify, qui donne depuis longtemps la priorité à l’audio plutôt qu’à l’engagement textuel. Des limitations de compatibilité existent pour les navigateurs équipés d’assistants de barre latérale natifs, tels que Atlas d’OpenAI, Comet de Perplexity et Dia, où l’outil Speechify ne s’active pas. L’extension cible principalement Chrome, en tirant parti de sa vaste population d’utilisateurs pour une adoption généralisée et la collecte de commentaires. La mise en œuvre de la saisie vocale et de l’assistant s’étend au-delà de l’extension Chrome. Speechify a l’intention d’intégrer ces fonctionnalités dans sa suite complète d’applications de bureau et mobiles au fil du temps, garantissant une disponibilité cohérente sur tous les appareils et systèmes d’exploitation. Au-delà des versions actuelles, Speechify fait progresser le développement d’agents autonomes conçus pour exécuter des tâches de manière indépendante. Une capacité démontrée consiste à passer des appels sortants pour sécuriser des rendez-vous ou à gérer les temps d’attente sur les lignes d’assistance client, libérant ainsi les utilisateurs de toute implication directe. Des initiatives similaires sont en cours dans d’autres entreprises, notamment Truecaller et Cloaked, qui sont également des agents d’ingénierie pour les interactions automatisées dans des contextes de communication et de confidentialité.





