Google Deepmind a introduit Genie 3, un nouveau modèle mondial d’IA, capable de générer des environnements 3D pour une interaction en temps réel par les utilisateurs et les agents d’IA. Cette itération améliore l’interaction soutenue des utilisateurs et améliore la mémoire des objets dans ces mondes simulés.
Les modèles mondiaux sont des systèmes d’IA conçus pour simuler des environnements à des fins, notamment l’éducation, le divertissement et la formation pour les robots ou les agents d’IA. Ces systèmes génèrent des espaces interactifs à partir d’invites utilisateur, diffèrent des actifs 3D fabriqués à la main en créant des environnements entièrement via l’IA. Google a investi considérablement dans ce domaine, démontrant auparavant Genie 2 en décembre, qui pourrait générer des mondes interactifs à partir d’images. Une équipe dédiée des modèles mondiaux, co-dirigée par une ancienne avance de l’outil de génération de vidéos Sora d’Openai, mène ces efforts.
Les modèles précédents présentaient des limites. Les mondes Genie 2, par exemple, ont été jouables pendant un maximum d’une minute. Des technologies vidéo interactives antérieures ont montré des environnements qui se déforment lorsqu’ils sont visualisés ou révisés.
Genie 3 aborde certains de ces inconvénients. Les utilisateurs peuvent générer des mondes via des invites qui prennent en charge «quelques» minutes d’interaction continue, une augmentation par rapport aux 10 à 20 secondes proposées par Genie 2, comme indiqué dans un article de blog par Google. Genie 3 peut maintenir les espaces dans la mémoire visuelle pendant environ une minute, garantissant des éléments comme la peinture sur un mur ou l’écriture sur un tableau noir reste en place lors de la réévaluation. Les mondes générés présenteront une résolution 720p et fonctionneront à 24 images par seconde.
DeepMind incorpore des «événements mondiaux rapides» dans Genie 3. Les utilisateurs pourront modifier les conditions météorologiques ou introduire de nouveaux personnages dans un monde généré par des invites.
Genie 3 est actuellement proposé comme «un aperçu de recherche limité», accessible à «une petite cohorte d’universitaires et de créateurs». Cette version contrôlée vise à faciliter les stratégies d’évaluation des risques et d’atténuation des développeurs, selon Google. Les restrictions incluent des méthodes d’interaction utilisateur limitées et ce texte lisible est «souvent généré uniquement lorsqu’il est fourni dans la description du monde des entrées». Google a déclaré qu’il «explore» une diffusion plus large à des «testeurs supplémentaires» à l’avenir.