L’assistant GEMINI AI de Google permet désormais les téléchargements de fichiers audio, permettant aux utilisateurs de transcrire, résumer et extraire des informations clés des enregistrements. Cette nouvelle fonctionnalité convertit jusqu’à 10 minutes de mémos vocaux, de réunions, de conférences et d’interviews en documents consultables directement dans l’environnement de l’IA. Les téléchargements de fichiers audio sont pris en charge sur les applications Web et mobile. Les utilisateurs peuvent accéder à la fonction via l’interface de télécharge de fichiers standard. Cela diffère du traitement des commandes vocales en temps réel de Gemini Live, car la nouvelle fonction traite l’audio préenregistré pour l’extraction et l’analyse des données. Josh Woodward, vice-président des Gémeaux de Google, a déclaré que le téléchargement de fichiers audio était la fonctionnalité la plus demandée aux utilisateurs de Gemini. Cette demande met en évidence le besoin de traitement audio rationalisé au sein de l’assistant AI.
Précision de transcription et intégration des fonctionnalités
Pendant les tests, Gemini a transcrit avec précision divers types audio, y compris des croquis d’albums de comédie et des conversations téléphoniques, avec seulement des erreurs mineures dans la reconnaissance du nom. Le système a également identifié efficacement les éléments clés et généré des listes de tâches à partir du contenu audio. L’ajout de traitement audio s’aligne sur les intégrations récentes des Gemini, telles que les implémentations dans diverses applications, les tests d’une interface visuelle basée sur une carte et les options de personnalisation élargies. Ces mises à jour améliorent collectivement la fonctionnalité et l’expérience utilisateur de Gemini.
Comparaison avec d’autres assistants d’IA
Bien que les capacités audio de Gemini ne soient pas uniques, elles sont comparables aux fonctionnalités de concurrents comme Chatgpt, qui utilise son modèle de transcription Whisper. Le Claude d’Anthropic prend également en charge le traitement audio dans certains outils de développement, et Perplexity peut extraire les données des vidéos YouTube. Gemini vise à se concentrer sur les cas d’utilisation quotidiens pour une large base d’utilisateurs.
Traitement avancé des données audio
Au-delà de la simple transcription, Gemini permet aux utilisateurs de demander la simplification du langage, d’extraire les commentaires spécifiques aux locuteurs, de générer des questions à partir du contenu audio ou de créer des guides d’étude à partir de discussions enregistrées. Ces options fournissent des outils pour manipuler et réutiliser efficacement les informations audio.
Limites de la fonction audio
La limite actuelle de 10 minutes sur les téléchargements de fichiers audio restreint son applicabilité pour les enregistrements plus longs. Les utilisateurs de niveau libre sont également confrontés à des limites d’utilisation quotidiennes sur le traitement audio. Ces limitations peuvent avoir un impact sur les utilisateurs ayant des besoins de traitement audio approfondis. Google n’a pas publié un prix spécifique pour le traitement audio à haut volume. Cependant, le traitement audio est intégré au quota Gémeaux ordinaire. Cela suggère que les utilisateurs devraient gérer leur utilisation pour éviter de dépasser les ressources allouées.





