Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Google Gemini transcrit désormais des fichiers audio

byAytun Çelebi
septembre 11, 2025
in Intelligence Artificielle
Home Nouvelles Intelligence Artificielle
Share on FacebookShare on Twitter
Google Preferred Source

L’assistant GEMINI AI de Google permet désormais les téléchargements de fichiers audio, permettant aux utilisateurs de transcrire, résumer et extraire des informations clés des enregistrements. Cette nouvelle fonctionnalité convertit jusqu’à 10 minutes de mémos vocaux, de réunions, de conférences et d’interviews en documents consultables directement dans l’environnement de l’IA. Les téléchargements de fichiers audio sont pris en charge sur les applications Web et mobile. Les utilisateurs peuvent accéder à la fonction via l’interface de télécharge de fichiers standard. Cela diffère du traitement des commandes vocales en temps réel de Gemini Live, car la nouvelle fonction traite l’audio préenregistré pour l’extraction et l’analyse des données. Josh Woodward, vice-président des Gémeaux de Google, a déclaré que le téléchargement de fichiers audio était la fonctionnalité la plus demandée aux utilisateurs de Gemini. Cette demande met en évidence le besoin de traitement audio rationalisé au sein de l’assistant AI.

Précision de transcription et intégration des fonctionnalités

Pendant les tests, Gemini a transcrit avec précision divers types audio, y compris des croquis d’albums de comédie et des conversations téléphoniques, avec seulement des erreurs mineures dans la reconnaissance du nom. Le système a également identifié efficacement les éléments clés et généré des listes de tâches à partir du contenu audio. L’ajout de traitement audio s’aligne sur les intégrations récentes des Gemini, telles que les implémentations dans diverses applications, les tests d’une interface visuelle basée sur une carte et les options de personnalisation élargies. Ces mises à jour améliorent collectivement la fonctionnalité et l’expérience utilisateur de Gemini.

Comparaison avec d’autres assistants d’IA

Bien que les capacités audio de Gemini ne soient pas uniques, elles sont comparables aux fonctionnalités de concurrents comme Chatgpt, qui utilise son modèle de transcription Whisper. Le Claude d’Anthropic prend également en charge le traitement audio dans certains outils de développement, et Perplexity peut extraire les données des vidéos YouTube. Gemini vise à se concentrer sur les cas d’utilisation quotidiens pour une large base d’utilisateurs.

Traitement avancé des données audio

Au-delà de la simple transcription, Gemini permet aux utilisateurs de demander la simplification du langage, d’extraire les commentaires spécifiques aux locuteurs, de générer des questions à partir du contenu audio ou de créer des guides d’étude à partir de discussions enregistrées. Ces options fournissent des outils pour manipuler et réutiliser efficacement les informations audio.

Limites de la fonction audio

La limite actuelle de 10 minutes sur les téléchargements de fichiers audio restreint son applicabilité pour les enregistrements plus longs. Les utilisateurs de niveau libre sont également confrontés à des limites d’utilisation quotidiennes sur le traitement audio. Ces limitations peuvent avoir un impact sur les utilisateurs ayant des besoins de traitement audio approfondis. Google n’a pas publié un prix spécifique pour le traitement audio à haut volume. Cependant, le traitement audio est intégré au quota Gémeaux ordinaire. Cela suggère que les utilisateurs devraient gérer leur utilisation pour éviter de dépasser les ressources allouées.


Crédit d’image en vedette

Tags: Google Gemini

Related Posts

Amazon ajoute des aperçus de produits générés par l’IA aux résultats de recherche

Amazon ajoute des aperçus de produits générés par l’IA aux résultats de recherche

juin 4, 2026
Google déploie Ask Gemini dans Drive pour les utilisateurs Workspace éligibles

Google déploie Ask Gemini dans Drive pour les utilisateurs Workspace éligibles

juin 4, 2026
Meta lance des agents commerciaux IA sur WhatsApp, Instagram et Messenger

Meta lance des agents commerciaux IA sur WhatsApp, Instagram et Messenger

juin 4, 2026
Anthropic invite 150 organisations supplémentaires à participer au projet Glasswing

Anthropic invite 150 organisations supplémentaires à participer au projet Glasswing

juin 3, 2026
Microsoft dévoile le projet Solara pour un avenir axé sur les agents

Microsoft dévoile le projet Solara pour un avenir axé sur les agents

juin 3, 2026
Google permettra aux sites Web de se désinscrire des résultats de recherche de l’IA

Google permettra aux sites Web de se désinscrire des résultats de recherche de l’IA

juin 3, 2026

Recent Posts

  • Amazon ajoute des aperçus de produits générés par l’IA aux résultats de recherche
  • Suno lève 400 millions de dollars pour une valorisation de 5,4 milliards de dollars malgré l’intensification des poursuites pour droits d’auteur
  • Lovable et Google étendent leur collaboration pluriannuelle en matière d’IA et de cloud
  • Des chercheurs créent un ver IA qui adapte les attaques sans intervention humaine
  • Google Wallet ajoutera cet été les identifiants numériques de certains pays de l’UE

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.