La récente percée de Google DeepMind avec SIMA (Self-Instructing Multimodal Agent) met en lumière les progrès rapides réalisés pour faire des agents d’IA généralistes, spécifiquement conçus pour les environnements virtuels 3D, une réalité.
Ces progrès comportent un potentiel de transformation, non seulement pour l’industrie du jeu, mais aussi pour la façon dont nous interagissons avec les espaces virtuels à travers un large éventail d’applications.
Avec des capacités améliorées de compréhension des instructions, d’adaptation à de nouvelles tâches et de raisonnement dans les contraintes des mondes virtuels, les agents de type SIMA offrent le potentiel de remodeler plusieurs domaines clés.
Le grand succès du SIMA
La dernière innovation de DeepMind est SIMA, qui signifie Scalable Instructable Multiworld Agent. Contrairement aux IA précédentes axées sur la maîtrise d’un seul jeu, SIMA est une IA généraliste.
SIMA ne se limite pas aux pixels sur l’écran. Il peut traiter à la fois des informations visuelles (ce qu’il voit dans le jeu) et des instructions en langage naturel (ce qu’un humain lui dit de faire). Cet apprentissage multimodal permet une compréhension plus nuancée de l’univers du jeu.
SIMA ne s’entraîne pas sur un seul jeu. DeepMind a collaboré avec plusieurs développeurs de jeux, exposant SIMA à une variété de titres comme No Man’s Sky et Teardown. Cette diversité renforce sa capacité à s’adapter à de nouveaux environnements.
SIMA n’a pas besoin d’être nourri à la cuillère à chaque règle. En suivant les instructions, il peut acquérir de nouvelles compétences au sein d’un jeu, comme naviguer dans une nouvelle zone, fabriquer un objet ou utiliser les menus du jeu. Cela le rend beaucoup plus polyvalent que les agents IA traditionnels.
Ne vous laissez pas berner par le manque de concentration sur l’obtention des meilleurs scores. Bien qu’impressionnant, ce n’est pas l’objectif principal.
Le véritable succès de SIMA réside dans sa capacité à comprendre et à agir selon les instructions humaines dans un environnement de jeu. Cette recherche signifie un Une étape ÉNORME a été franchie pour créer une IA qui puisse nous être utile dans le monde réel.
Certains des jeux dans lesquels Google DeepMind exécute ce modèle d’IA révolutionnaire sont :
- Chèvre Simulateur 3
- Hydroneer
- Le ciel de No Man
- Satisfaisant
- Démolir
- Valheim
- Une vie bancale
Outre tous ces jeux, l’équipe de Google DeepMind a également testé les capacités de SIMA dans des simulations réalistes qu’elle a créées et appelées : «Environnements de recherche« . Ces environnements, composés de Construction Lab, Playhouse, ProcTHOR et WorldLab, simulent de nombreux domaines où l’intelligence artificielle est considérée comme intégrée dans un avenir proche.
La magie derrière SIMA
Traitement des entrées multimodales
SIMA utilise grands modèles de langage (LLM), probablement basé sur l’architecture Transformer, pour traiter et comprendre les instructions en langage naturel données par un utilisateur. Les LLM excellent dans le traitement des données séquentielles comme le texte, ce qui les rend bien adaptés à cette tâche. Pour donner du sens à son environnement, le SIMA emploie réseaux de neurones convolutifs (CNN) pour traiter les entrées visuelles de l’environnement 3D.
Les CNN sont exceptionnellement efficaces pour extraire des caractéristiques et des modèles spatiaux à partir d’images ou de flux vidéo. SIMA utilise probablement plusieurs CNN pour créer différents niveaux de représentation au sein de l’entrée visuelle pour une compréhension complète.
Auto-apprentissage
L’une des principales innovations qui sous-tendent SIMA est sa capacité à décomposer des instructions complexes en une séquence de sous-tâches plus simples. Ceci est probablement réalisé grâce à une combinaison de traitement du langage naturel (pour analyser les instructions) et apprentissage par renforcement hiérarchique (RL).
RL hiérarchique permet aux agents d’apprendre des comportements complexes en s’appuyant sur des séquences d’actions de niveau inférieur.
De plus, SIMA peut générer ses propres données et objectifs d’entraînement en observant ses actions dans l’environnement et les changements qui en résultent. Cette technique d’autosupervision est cruciale pour permettre un apprentissage continu et une adaptation dans de nouveaux environnements, en lui donnant de la flexibilité.
Généralisation du tir zéro
La capacité impressionnante de SIMA à effectuer de nouvelles tâches sans formation explicite provient probablement d’une pré-formation approfondie sur un ensemble de données massif d’environnements 3D divers et d’instructions associées. Cette pré-formation permet au modèle de construire une représentation interne riche de mondes virtuels et d’instructions communes, lui permettant de généraliser les connaissances.
Il est probable qu’une approche de méta-apprentissage soit utilisée lors de la pré-formation, incitant le SIMA à développer une stratégie pour «apprendre à apprendre« .
Cela permet à l’agent d’acquérir rapidement de nouvelles compétences dans des environnements invisibles.
Vous pouvez en apprendre davantage sur le travail de Google DeepMind sur la formation généraliste des agents d’IA à l’aide de jeux de leur document de recherche.
Apprenez des jeux pour briller dans le monde réel
Croyez-le ou non, le SIMA marque un un tournant dans le développement de l’IA.
Les jeux vidéo offrent terrain d’entraînement idéal pour l’IA parce qu’il s’agit de mondes dynamiques et autonomes avec des objectifs, des règles et des mécanismes de rétroaction clairs.
Au sein de ces espaces virtuels, les agents IA peuvent expérimenter, faire des erreurset apprendre de leurs succès et de leurs échecs – le tout sans le risques ou limites du monde réel. À mesure que SIMA explore des mondes de jeu plus complexes et que ses modèles sous-jacents deviennent plus puissants, il développe la capacité de s’adapter, de comprendre les instructions et d’élaborer des stratégies pour atteindre les objectifs.
Ces compétences, perfectionnées dans le bac à sable sécurisé d’un jeu, se traduisent par une IA polyvalente et performante, capable de potentiellement naviguer dans les complexités de notre monde réel.
C’est juste le commencement de ce qui est possible lorsque l’IA apprend par le jeu.
En fait, le potentiel de l’IA pour relever les défis du monde réel devient évident lorsque nous examinez les invites utilisées par Google DeepMind dans divers jeux.
Pour donner quelques exemples :
Le « Ramasser le minerai de fer« invite dans Satisfaisant fait allusion au potentiel de l’IA pour améliorer la sécurité dans les industries dangereuses comme l’exploitation minière. Le Bureau of Labor Statistics rapporte une augmentation inquiétante des blessures mortelles dans les mines, avec un Augmentation de 21,8% de 2020 à 2021. Imaginez les vies qui pourraient être sauvées si des robots basés sur l’IA, moins sujets aux erreurs humaines ou à la fatigue, effectuaient des tâches minières dangereuses.
Dans le jeu de survie Valheimle « Trouver de l’eau » L’invite souligne le pouvoir de l’IA pour résoudre des problèmes vitaux tels que la pénurie d’eau. Les rapports de la Banque mondiale que environ 226 millions de personnes en Afrique orientale et australe n’ont pas accès aux services d’eau de baseet 381 millions de personnes n’avaient pas accès aux services d’assainissement de base.
Un autre robot capable d’effectuer des recherches sur la source d’eau naturelle de la région sans aucune interruption peut toucher la vie de milliards de personnes.
Même si l’intelligence artificielle semble aujourd’hui s’identifier à la génération d’images et aux chatbots incessants, croyez-nous, C’est bien plus que ça, et des études comme celles-ci recèlent un immense potentiel pour un avenir meilleur pour tous.
Crédit image en vedette: Freepik.