Vous êtes-vous déjà demandé comment les robots pourraient maîtriser la navigation comme des professionnels chevronnés ? IA Gemini l’expérience plonge dans ce domaine avec style et intelligence !
L’expérience d’IA Gemini de Google visait à doter les robots de capacités de navigation améliorées à l’aide du système Gemini 1.5 Pro. Ce système se distingue par sa capacité à traiter une grande quantité d’informations contextuelles (jusqu’à 1 million de jetons), ce qui permet aux robots d’interpréter et d’utiliser efficacement les instructions humaines, les visites vidéo et diverses entrées multimodales pour la navigation.
La fonctionnalité la plus importante du système Gemini 1.5 Pro est sa capacité à gérer un vaste contexte, ce qui permet aux robots de conserver et d’utiliser des informations spatiales détaillées sur des périodes prolongées. Cette capacité est essentielle pour naviguer dans des environnements complexes et dynamiques sans solutions de cartographie traditionnelles.
Comment la longue fenêtre contextuelle de Gemini 1.5 Pro peut-elle aider les robots à naviguer dans le monde ?
Un fil conducteur de nos dernières expériences. pic.twitter.com/ZRQqQDEw98
— Google DeepMind (@GoogleDeepMind) 11 juillet 2024
Au cours de l’expérience, les robots ont reçu des instructions via plusieurs canaux sensoriels :
- Instructions humaines:Des commandes verbales claires et des indices descriptifs qui guident les robots vers des emplacements spécifiques dans un espace désigné.
- Visites vidéo:Représentations visuelles de l’environnement, qui aident les robots à créer une carte mentale et à comprendre les relations spatiales.
- Croquis de cartes et références audio:Des indices supplémentaires sont fournis par des croquis de cartes sur des tableaux blancs, des instructions audio faisant référence à des emplacements clés et des marqueurs visuels tels que des jouets ou des boîtes placés stratégiquement dans l’environnement.
L’expérience a été menée dans une zone opérationnelle réelle de plus de 9000 pieds carrés. Dans cet espace, les robots ont été chargés d’effectuer une gamme variée de 57 tâches spécifiques. Ces tâches comprenaient diverses actions et opérations qui exigeaient que les robots se déplacent de manière autonome et efficace en fonction des entrées fournies.
Nous avons emmené les robots visiter des zones spécifiques dans un contexte réel, en mettant en évidence les endroits clés à retenir, tels que "Le bureau de Lewis" ou "espace de bureau temporaire". Ensuite, on leur a demandé de nous conduire à ces endroits.
Regardez plus. ↓ pic.twitter.com/Sptm6q31CL
— Google DeepMind (@GoogleDeepMind) 11 juillet 2024
Performances et taux de réussite des robots équipés de Gemini
Selon Google résultatsLes robots équipés de Gemini ont atteint un taux de réussite impressionnant de 90 % sur les 57 tâches assignées. Ce taux de réussite élevé souligne l’efficacité du système Gemini 1.5 Pro pour améliorer l’autonomie des robots et l’efficacité opérationnelle dans des environnements complexes.
En coulisses, le système d’IA Gemini traite les entrées multimodales reçues de l’environnement. Il crée des graphiques topologiques, une représentation simplifiée de la connectivité spatiale basée sur des images vidéo et des instructions contextuelles. Ces graphiques servent de cartes de navigation qui guident les robots en temps réel, leur permettant de naviguer sans avoir besoin de mises à jour cartographiques externes continues.
Besoin d’un récapitulatif ? Google utilise Gemini AI pour entraîner ses robots à améliorer leur navigation et à accomplir leurs tâches. Les robots peuvent traiter des informations volumineuses grâce à la fenêtre contextuelle étendue de Gemini 1.5 Pro, ce qui leur permet de répondre plus efficacement aux instructions en langage naturel. En filmant des visites vidéo d’environnements tels que des maisons ou des bureaux, les chercheurs apprennent aux robots à comprendre leur environnement. Les robots, équipés de Gemini, ont obtenu un taux de réussite de 90 % sur plus de 50 tâches dans une zone de plus de 9000 pieds carrés. Gemini aide également les robots à planifier des actions au-delà de la navigation, comme aller chercher de la nourriture dans le réfrigérateur. Bien qu’il existe encore des délais de traitement de 10 à 30 secondes par instruction, Google vise à faire progresser ces capacités dans le cadre de recherches futures.
Crédits de l’image en vedette : Google DeepMind/X