Google a lancé un nouvel outil de génération d’images IA appelé Whisk, qui permet aux utilisateurs de créer des sorties visuelles à partir d’images existantes. Annoncé via une mise à jour sur Google Labs, Whisk utilise le modèle de langage Gemini pour la compréhension des images et le générateur d’images Imagen 3. Actuellement, il n’est disponible qu’aux États-Unis
Google lance Whisk : un outil d’IA pour la génération d’images créatives
Whisk fonctionne en capturant « l’essence » de l’image fournie plutôt que de la reproduire directement. Les utilisateurs saisissent une image avec des styles prédéfinis, notamment un autocollant, une épingle en émail et une peluche, pour recevoir une sortie modifiée de manière créative. Cet outil se concentre sur le brainstorming et les visualisations rapides, plutôt que sur le contenu de production final. L’interface simpliste aide les utilisateurs à générer des concepts préliminaires.
Le mode éditeur avancé, accessible via l’option « Partir de zéro », offre aux utilisateurs la possibilité de spécifier des détails dans les catégories de sujet, de scène et de style. Les utilisateurs peuvent également ajouter du texte pour affiner. Cependant, certains résultats ne correspondent pas étroitement aux attentes des utilisateurs, comme observé lors des tests. Google prévient que Whisk fera varier les attributs des images de sortie, tels que la taille, le poids et la coiffure, par rapport à l’entrée d’origine.
Sous le capot, la fonctionnalité de Whisk s’appuie sur la capacité du modèle Gemini à générer des légendes détaillées sur l’image téléchargée. Ces légendes sont ensuite utilisées par le générateur Imagen 3 pour créer de nouveaux visuels. Le processus met en évidence l’objectif de Whisk de promouvoir la liberté créative, permettant aux utilisateurs de remixer des éléments dans différents formats visuels.
Parallèlement au lancement de Whisk, Google a présenté Veo 2, une nouvelle itération de son modèle de génération vidéo. Cette dernière mise à jour démontre des capacités améliorées de génération vidéo, produisant un contenu de haute qualité avec une compréhension sophistiquée de la physique du monde réel et des mouvements humains. Lors des tests, Veo 2 a montré une diminution de la fréquence des « hallucinations », qui impliquent généralement des détails erronés ou inattendus dans le contenu généré.
Les utilisateurs peuvent demander des styles ou des attributs de tournage spécifiques dans leurs invites vidéo, améliorant ainsi le niveau de détail des sorties générées, notamment en demandant des vidéos en résolution 4K. Les vidéos produites par Veo 2 illustrent les résultats cinématographiques de haute qualité désormais possibles, répondant efficacement aux divers besoins des utilisateurs.
Le modèle Imagen 3 a également reçu une mise à niveau, capable de produire des images nettement plus lumineuses et mieux composées dans une gamme variée de styles. Ce modèle amélioré suit plus précisément les invites de l’utilisateur et génère des textures complexes. Grâce à des tests utilisateur sur des modèles de génération d’images concurrents, Imagen 3 a obtenu des résultats de pointe.
Dans le cadre de l’engagement de Google en faveur du développement responsable de l’IA, les sorties de Whisk et des derniers modèles incluent un filigrane SynthID invisible, qui aide à prévenir la désinformation. Cet accent mis sur la sécurité accompagne un processus de déploiement minutieux. Les utilisateurs peuvent accéder à ces nouvelles fonctionnalités via Google Labs, où ils peuvent s’inscrire pour recevoir des mises à jour et des améliorations de fonctionnalités.
Crédits images : Google