Google a publié le modèle d’utilisation de l’ordinateur Gemini 2.5, un nouveau modèle spécialisé disponible en avant-première via l’API Gemini. Il est construit sur Gemini 2.5 Pro et permet aux développeurs de créer des agents d’IA qui peuvent contrôler les sites Web et les applications mobiles en cliquant, en tapant et en faisant défiler, comme le ferait un humain. Bien que les modèles d’IA puissent souvent interagir avec les logiciels via des API structurées, de nombreuses tâches numériques, telles que le remplissage des formulaires ou la navigation sur des pages Web complexes, nécessitent toujours une interaction directe avec une interface utilisateur graphique (GUI). Ce modèle est conçu pour automatiser ces tâches, permettant aux agents de fonctionner derrière les connexions et de manipuler des éléments interactifs comme les dropdowns et les filtres.
Comment fonctionne le modèle d’utilisation de l’ordinateur Gemini 2.5
Les capacités du modèle sont accessibles via un nouvel outil «Computer_Use» dans l’API Gemini et fonctionnent dans une boucle continue.
- Le développeur fournit à l’agent une demande utilisateur, une capture d’écran de l’interface utilisateur actuelle et un historique des actions récentes.
- Le modèle analyse ces entrées et génère une action suggérée, comme un appel de fonction pour cliquer sur un élément ou taper du texte dans un champ.
- Le code côté client exécute l’action.
- Une nouvelle capture d’écran de l’interface graphique mise à jour est renvoyée au modèle, et la boucle se répète jusqu’à ce que la tâche soit terminée ou terminée.
Le modèle est principalement optimisé pour les navigateurs Web, mais montre également de fortes performances sur les tâches de contrôle de l’interface utilisateur mobiles. Il n’est pas encore optimisé pour contrôler un système d’exploitation de bureau. https://www.youtube.com/watch?v=_lu-fcpuifm
Performance sur les repères
Selon Google, le modèle d’utilisation de l’ordinateur Gemini 2.5 montre des performances solides sur plusieurs repères de contrôle Web et mobile. Dans les tests effectués par la société d’automatisation de navigateur BrowserBase, le modèle a fourni une précision élevée sur les tâches de contrôle du navigateur tout en maintenant une latence plus faible que les modèles concurrents.
Caractéristiques de sécurité et commandes des développeurs
Reconnaissant les risques associés aux agents de l’IA qui peuvent contrôler les ordinateurs, Google a construit des fonctionnalités de sécurité directement dans le modèle et a fourni des contrôles supplémentaires pour les développeurs.
- Formation en matière de sécurité intégrée: Le modèle est formé pour lutter contre les risques tels que l’utilisation intentionnelle par les utilisateurs, le comportement inattendu du modèle et les attaques d’injection rapides.
- Service de sécurité par étape: Un service de sécurité externe évalue chaque action que le modèle propose avant son exécution.
- Instructions du système: Les développeurs peuvent spécifier que l’agent doit refuser ou demander une confirmation de l’utilisateur avant de prendre des actions à enjeux élevés, comme effectuer un achat, en contournant un captcha ou en contrôlant un dispositif médical.
Cas d’utilisation précoce et commentaires
Le modèle a déjà été déployé en interne chez Google pour les tests d’interface utilisateur et alimente certaines capacités d’agent en mode IA dans la recherche. Les utilisateurs d’accès anticipés l’ont testé pour les assistants personnels et l’automatisation du flux de travail.
- L’assistant proactif Poke.com a noté que le modèle était souvent 50% plus rapide que les autres solutions.
- La société d’agent AI Autotab ont indiqué que le modèle augmentait les performances jusqu’à 18% sur ses évaluations les plus difficiles pour l’analyse fiable du contexte.
- Équipe de plate-forme de paiement de Google Implémentation du modèle pour corriger des tests d’interface utilisateur fragiles, réhabilitant avec succès plus de 60% des exécutions de tests qui auraient été auparavant échouées.
Comment utiliser le modèle d’utilisation de l’ordinateur Gemini 2.5
Le modèle d’utilisation de l’ordinateur Gemini 2.5 est disponible aujourd’hui dans l’aperçu public via l’API Gemini sur Google AI Studio et Vertex AI. Les développeurs peuvent commencer à construire en utilisant la documentation fournie et peuvent tester le modèle dans un environnement de démonstration hébergé par BrowserBase.





