Gemini Live de Google, initialement révélé lors de l’événement Made By Google de l’année dernière, reçoit des mises à niveau importantes. Ces améliorations incluent des superpositions visuelles lors du partage des aliments pour appareil photo et un nouveau modèle audio conçu pour des conversations plus naturelles. Les mises à niveau visent à faire de Gemini Live un assistant numérique plus utile et plus réactif.
Depuis son introduction, Gémeaux en direct a vu plusieurs améliorations, notamment la possibilité de partager des flux de caméras et des écrans. Google a maintenant annoncé une amélioration de ses capacités de partage de caméras et un nouveau modèle audio natif pour améliorer davantage le naturel des interactions avec le chatbot AI.
Au cours de la présentation de la prochaine série Google Pixel 10, Google a fourni des détails concernant les améliorations à venir à Gemini Live sur Android. Une caractéristique clé est l’ajout de superpositions visuelles qui mettent en évidence des objets spécifiques dans le flux de la caméra. Ces indices visuels prennent la forme de rectangles à border blanc autour des objets d’intérêt, les environs légèrement baissés pour assurer la proéminence.
La fonction «Guide visuelle» est destinée à aider les utilisateurs à localiser et à identifier rapidement les éléments dans le champ de vision de la caméra. Des exemples d’utilisations prévues comprennent la mise en évidence du bouton correct sur une machine, l’identification d’un oiseau spécifique dans un troupeau ou le pincement du bon outil pour un projet particulier. La fonctionnalité s’étend également à la fourniture de conseils, comme la recommandation de chaussures appropriées pour une occasion spécifique.
La capacité de guidage visuel peut également gérer des scénarios plus difficiles. Un chef de produit Google a raconté une expérience personnelle lors d’un voyage international où il a rencontré des difficultés à interpréter les panneaux de stationnement en langue étrangère, les marques routières et les réglementations locales. À l’aide de Gemini Live, le chef de produit a pointé la caméra sur les lieux et s’est renseigné sur la permis de parking. Gemini Live a ensuite consulté les règles locales, traduit les panneaux et mis en évidence une zone dans la rue offrant un parking gratuit pendant deux heures.
Visual Guidance sera disponible directement sur la série Google Pixel 10 et commencera son déploiement vers d’autres appareils Android la semaine suivante. L’expansion des appareils iOS est prévue dans les semaines suivantes. Un abonnement Google AI Pro ou Ultra ne sera pas nécessaire pour accéder à la fonction de guidage visuel.
Parallèlement aux superpositions visuelles, Google implémente un nouveau modèle audio natif dans Gemini Live. Ce modèle est conçu pour faciliter les conversations plus réactives et expressives.
Le nouveau modèle audio répondra de manière plus appropriée en fonction du contexte de la conversation. Par exemple, lors de la discussion d’un sujet stressant, le modèle audio répondra à l’aide d’un ton plus calme et plus mesuré.
Les utilisateurs auront le contrôle des caractéristiques de la parole du modèle audio. Si un utilisateur a du mal à suivre le discours de Gemini, il peut lui demander de parler plus lentement. Inversement, lorsque le temps est limité, les utilisateurs peuvent demander aux Gémeaux d’accélérer son discours.
Le système peut également fournir des récits sous des perspectives spécifiques. Comme Google l’a indiqué dans son article de blog, les utilisateurs peuvent «demander aux Gémeaux de vous parler de l’Empire romain du point de vue de Julius César lui-même et d’obtenir un récit riche et engageant avec des accents de caractère».
Cet article a été mis à jour à 19 h 50 HE pour fournir des clarifications concernant le modèle audio naturel et incorporer des actifs de démonstration du blog de Google.





