Nous entendons constamment des exploits incroyables de l’IA comme GPT-4O et Gemini – écrire du code, de la poésie de fabrication, des examens d’acing. Vous pourriez penser que ces puissants modèles de langue multimodale (MLLM), qui comprennent à la fois le texte et les images, sont en bonne voie pour tout maîtriser. Mais que se passe-t-il lorsque vous leur demandez de faire quelque chose de semble-t-il, comme suivre les instructions LEGO?
Selon un nouveau étude Des chercheurs du Laboratoire de Shanghai AI et de l’Université Tongji, la réponse est: ils échouent en grande partie. Il s’avère que ces sorciers d’IA sont étonnamment maladroits en ce qui concerne la compréhension et le raisonnement sur les objets dans l’espace sur plusieurs étapes – une compétence cruciale pour interagir avec le monde réel.
Pourquoi tester l’IA avec les legos?
Les chercheurs ont conçu une référence intelligente appelée Lego-puzzles Précisément parce que la construction de Legos reflète comment les humains développent une «intelligence spatiale». Suivre ces petits diagrammes nécessite une compréhension des formes 3D, comment elles s’assemblent, leur orientation et la séquence correcte des actions. Si une IA ne peut pas gérer cela, comment pouvons-nous nous attendre à ce qu’elle guide un bras de robot assemblant un produit ou naviguez dans une voiture autonome à travers une zone de construction complexe?
La référence LEGO-Puzzles n’est pas le jeu de l’enfant. Il comprend plus de 1 100 questions visuelles couvrant 11 tâches différentes. Ceux-ci vont des vérifications de base («cette pièce est-elle plus haute que celle-là?», «Ces deux blocs sont-ils touchés?») Et des séquences complexes («Mettez ces étapes d’assemblage dans le bon ordre», «Quelle image montre l’heure faux étape? »).
Le tableau de bord surprenant: AI vs humains
Alors, comment les meilleurs modèles d’IA d’aujourd’hui ont-ils fait ces défis LEGO? Les résultats ont été frappants, et franchement, un peu embarrassants pour l’IA.
- Écart massif: Même les meilleurs modèles, comme le GPT-4O d’Openai et le gemini-2.0-flash de Google, seulement 50-58% des questions correctement.
- Triomphe humain: Les participants humains, en revanche, ont traversé les puzzles avec plus de 90% précision.
- Luttes open source: De nombreux MLLM open source ne fonctionnaient que légèrement mieux que la supposition aléatoire. Certaines tâches spécifiques complètement échouées, comme la commande d’étapes d’assemblage, diffusant parfois la même mauvaise lettre pour presque toutes les questions.
L’IA a particulièrement lutté contre les tâches impliquant:
- Perception de la hauteur: Confondant une projection d’image 2D avec la réalité 3D (pensez aux illusions d’optique).
- Rotation: Comprendre à quoi les objets sont tournés après avoir été tournés.
- Raisonnement en plusieurs étapes: Plus il y a d’étapes impliquées dans une séquence, plus l’IA a permis de faire preuve d’IA, mettant en évidence un échec à suivre les changements au fil du temps.
Kaist a cultivé des cerveaux pour l’IA qui peuvent apprendre des appareils directement
L’IA peut-elle même nous montrer la prochaine étape?
Peut-être encore plus révélateur était le test de génération d’images. Les chercheurs ont demandé aux MLMM de générer une image montrant le résultat d’une étape d’assemblage LEGO spécifique.
Le résultat? Une défaillance presque totale. La plupart des modèles ont ignoré les instructions, ont simplement copié l’image d’entrée ou généré quelque chose de complètement sans rapport. Seul le Gémini-2.0-Flash et le GPT-4O ont montré une «capacité limitée» – Gemini était meilleur pour éditer avec précision l’image existante, tandis que GPT-4O semblait régénérer la scène conceptuellement, perdant souvent la cohérence visuelle. Les modèles open source ont été désespérément perdus.
Cette recherche expose une faiblesse critique du développement actuel de l’IA. Alors que les modèles excellent à la correspondance des modèles dans les images de langage et statiques, elles n’ont pas une compréhension robuste de raisonnement spatial en plusieurs étapes – La compréhension dynamique de la façon dont les choses fonctionnent dans l’espace physique et le temps.
L’étude a révélé que même les techniques invitant comme «chaîne de pensée» (demandant à l’IA entravé Performance sur ces tâches spatiales, en particulier celles complexes.
Il semble que la compréhension vraiment de notre monde 3D et de la façon dont les actions se déroulent à l’intérieur nécessitent plus que le simple traitement de quantités massives de texte et d’images. Les MLLM ont besoin de meilleures façons de représenter l’espace, de suivre les changements séquentiellement et peut-être de développer une forme de «mémoire visuelle».
Crédit d’image en vedette: Kerem Gülen / Imagen 3