Google a ouvert sa dernière suite de modèles d’IA, Gemini 2.0, au public, marquant une étape importante dans sa poussée vers des agents d’IA avancés. La suite comprend Gemini 2.0 Pro Experimental, conçue pour le codage et les tâches complexes, et la pensée Flash Gemini 2.0, désormais disponible dans l’application Gemini.
La famille Gemini 2.0 est maintenant ouverte à tous
Gemini 2.0 Pro expérimental est décrit comme le modèle le plus capable de Google, excellant dans le codage et la gestion des invites complexes. Il possède une fenêtre de contexte de 2 millions de jetons, ce qui lui permet de traiter environ 1,5 million de mots à la fois. Le modèle peut appeler des outils tels que Google Search et Exécuter du code au nom des utilisateurs. Initialement taquiné dans le changelog de l’application Gemini la semaine dernière, il est désormais accessible via les plateformes de développement d’IA de Google, Vertex AI et Google AI Studio, ainsi qu’aux abonnés Gemini Advanced dans l’application Gemini.
Gemini 2.0 Flash, introduit en décembre, est désormais généralement disponible. Bénéfiés comme un «modèle de cheval de bataille», il est optimisé pour les tâches à haut volume et à haute fréquence et coûte aux développeurs 10 cents par million de jetons pour les entrées de texte, d’image et de vidéo. De plus, Google a dévoilé Gemini 2.0 Flash-Lite, son modèle le plus rentable, qui correspond aux performances de son prédécesseur, Gemini 1.5 Flash, au même prix et à la même vitesse. Flash-Lite coûte 0,75 cents par million de jetons.
Concentrez-vous sur les agents de l’IA
Le libérer s’aligne sur la stratégie plus large de Google consistant à faire progresser l’IA de l’agence – les modèles capables d’effectuer des tâches complexes en plusieurs étapes de manière autonome. Dans un article de blog de décembre, Google a souligné sa concentration sur le développement de modèles qui «comprennent davantage le monde qui vous entoure, pensez à plusieurs étapes et agissez en votre nom». Gemini 2.0 introduit de nouvelles capacités multimodales, y compris la sortie d’image et audio native, ainsi que l’utilisation d’outils, rapprochant Google de sa vision d’un assistant universel.
Cette poussée place Google en concurrence directe avec d’autres géants de la technologie et startups comme Meta, Amazon, Microsoft, Openai et Anthropic, qui investissent tous beaucoup dans AI agentique. Les agents d’IA d’Anthropic, par exemple, peuvent naviguer dans les ordinateurs de la même manière que les humains, accomplissant des tâches avec des dizaines ou des centaines d’étapes. OpenAI a récemment publié un opérateur, un agent capable d’automatiser des tâches telles que la planification des vacances et la commande d’épicerie, tandis que la recherche en profondeur compile des rapports complexes pour les utilisateurs.
Google a également lancé son propre outil de recherche en profondeur en décembre, qui fonctionne comme un assistant de recherche explorant des sujets et compilant des rapports détaillés. Le PDG Sundar Pichai a souligné l’importance de l’exécution sur le fait d’être le premier, indiquant dans une réunion de stratégie de décembre: «Je pense que c’est de cela que 2025.»
Concours avec Deepseek
Les sorties de Google interviennent au milieu d’une attention croissante à Deepseek, la startup de l’IA chinoise dont les modèles rivalisent ou dépassent ceux des principales sociétés américaines. Modèle R1 de Deepseek a gagné une traction significative en raison de son abordabilité et de ses performances. Pour contrer cela, Google rend son modèle de pensée flash Gemini 2.0 plus accessible via l’application Gemini, visant potentiellement à attirer une plus grande attention sur ses offres.