Vous êtes-vous déjà demandé comment vous pouvez naviguer assez facilement dans un nouveau quartier, ou trouver un projet complexe à la maison? Vous le gérez probablement sans vous transpirer, trouver votre chemin ou aligner les étapes sans mapper chaque option. Maintenant, pensez à l’intelligence artificielle. Bien que l’IA puisse écraser des jeux spécifiques ou des numéros de crise, construire une IA qui navigue dans le monde réel désordonné et partiellement connu comme nous, c’est toujours un énorme défi. Pourquoi sommes-nous si bons dans cette planification complexe, trouvant souvent des solutions qui semblent incroyablement difficiles pour les ordinateurs? Et pourquoi les tests de laboratoire nous montrent-ils parfois des chemins qui ne sont pas techniquement le «meilleur» absolu?
Ce puzzle est essentiel pour comprendre l’intelligence, à la fois la nôtre et le genre artificiel. L’IA standard considère souvent la planification comme explorer un arbre de choix et de résultats géants. Plus l’arbre est grand, plus le problème est difficile. Mais les humains ne fonctionnent clairement pas de cette façon. Nous ne semblons pas transporter un plan parfait et détaillé du monde. Une équipe de chercheurs de l’Université Dalhousie, de l’Université de Waterloo, du MIT et de l’Université Cornell a une idée alternative fascinante. Et si nos cartes mentales ne sont pas comme des images statiques, mais plus comme des programmes informatiques flexibles?
Marta Kryven, Cole Wyeth, Aidan Curtis et Kevin Ellis suggèrent que notre talent pour la planification vient d’une croyance fondamentale: Le monde suit généralement des modèles prévisibles. Au lieu de mémoriser tous les derniers détails, nous construisons peut-être des modèles mentaux en utilisant des programmes compacts qui capturent la répétition, la symétrie et les morceaux réutilisables. Pensez à reconnaître la disposition standard des planchers de bureau ou la façon dont les rues forment souvent des grilles. Cette idée des «concepts en tant que programmes» imagine notre cerveau à la recherche constante du code sous-jacent du monde pour naviguer efficacement. Plongeons-nous dans leur étude.
Pourquoi les plans et la force brute échouent
Pourquoi la réflexion sur les cartes est-elle potentiellement changeante? Regardez comment la planification typique de l’IA gère, surtout lorsqu’elle n’a pas toutes les informations. Cette situation est souvent modélisée en tant que POMDP, ou processus de décision de Markov partiellement observable. Trouver la meilleure solution implique généralement de calculer les cotes pour chaque scénario possible et la planification à travers toute cette incertitude. Cette approche devient rapidement extrêmement complexe, même pour des environnements assez simples. Cela ne ressemble pas à la manière fluide des humains.
De plus, il y a cette étrange déconnexion. Nous gérons très bien la complexité structurée de la vie réelle. Pensez aux grilles de la ville, à des meubles modulaires, aux sentiers dans un parc. Mais mettez les gens dans des tâches de laboratoire simplifiées conçues sans structure claire, et ils ne suivent souvent pas le chemin mathématiquement «optimal». Les chercheurs avaient l’habitude de réprimer cela à des limites mentales, comme ne penser que quelques étapes à l’avance. Mais Kryven et ses collègues pensent que cela pourrait manquer le point. Peut-être que nous ne sommes pas des planificateurs erronés. Peut-être que nous sommes des planificateurs incroyablement bons spécifiquement pour le type de monde structuré dans lequel nous vivons. Nous recherchons des modèles et nous les utilisons.
Les chercheurs de l’IA ont tenté de lutter contre la complexité avec des stratégies telles que la planification hiérarchique (diviser les gros problèmes en petits) ou la reconnaissance des états de jeux similaires. Mais apprenant automatiquement et utilisant le type de connaissances structurelles «de bon sens», nous avons un obstacle majeur.
Rencontrez GMP: planifier comme un codeur
Pour mettre leur idée à l’épreuve, les chercheurs ont construit un modèle informatique appelé Generative Modular Planning, ou GMP. Ce modèle fonctionne sur le principe des cartes cognitives en tant que programmes. Il ne stocke pas une image exacte d’un endroit. Au lieu de cela, il trouve un programme simple qui capture sa structure de base.
GMP a deux pièces principales:
- Le générateur de carte (GMM): Cette partie regarde une carte, comme un labyrinthe dans leur expérience, et essaie d’écrire le programme le plus simple qui peut le reconstruire. Voici une tournure vraiment intéressante. Les chercheurs ont utilisé un modèle grand langage, GPT-4, pour ce travail. Pas pour la planification, mais pour écrire du code. Ils ont incité le LLM à repérer les motifs visuels répétitifs dans le labyrinthe. Ensuite, le LLM a écrit Python Code définissant ces morceaux et expliquant comment les combiner (bouger, tourner, flip) pour recréer la carte. Le système préfère les programmes simples qui réutilisent efficacement les morceaux. Il suit un principe favorisant l’explication la plus compressée, à la recherche essentiellement du code le plus soigné décrivant la structure de la carte.
- Le planificateur modulaire (FP): Une fois que le GMM crée une carte de programme en morceaux réutilisables, le module FP trouve comment se déplacer. Au lieu de calculer un chemin énorme et complexe pour toute la carte, il prévoit une route efficace dans chaque type de morceau une seule fois. Ensuite, chaque fois qu’il se heurte à ce même type de morceau, il est simplement se retire et réutilise le plan qu’il a déjà fait. Cela permet d’économiser une tonne de puissance de calcul et de mémoire. Pour passer d’un morceau à un autre, il se dirige vers le morceau le plus inexploré, en supposant pour les débutants que le but (comme la sortie du labyrinthe) pourrait être n’importe où.
Cette façon de planifier est intelligente dans chaque module. Il trouve le meilleur chemin à l’intérieur de cette pièce reconnue. Mais la connexion de ces chemins locaux intelligents pourrait conduire à un itinéraire mondial légèrement plus long que si un planificateur regardait parfaitement toute la carte. Cette possibilité de routes intelligentes, efficaces, mais peut-être légèrement indirectes, était exactement le genre de comportement humain que les chercheurs surveillaient.
Alors, les gens planifient-ils réellement comme le modèle GMP? L’équipe a utilisé une tâche de recherche de labyrinthe pour le découvrir. Trente participants ont navigué 20 labyrinthes différents sur un ordinateur, voyant le monde d’une vue à la première personne. Des parties du labyrinthe étaient cachées jusqu’à ce qu’elles se rapprochent suffisamment. Leur objectif: trouvez la sortie cachée, marquée par une tuile rouge.
Ce n’étaient pas des labyrinthes. Ils ont été spécifiquement conçus avec des structures claires et répétitives. Ils avaient des dispositions modulaires faites de pièces distinctes, comme certaines formes de pièce ou des sections de couloir. Cette configuration était parfaite pour voir si les gens exploreraient naturellement le module par module, ou s’ils prenaient des raccourcis coupant sur les modules si cela semblait mathématiquement plus court, comme le prédisaient les planificateurs optimaux traditionnels.
L’équipe a comparé les voies des gens vers trois modèles différents:
- GMP: Le nouveau modèle, pariant sur la recherche modulaire basée sur ces cartes de type programme.
- Utilité attendue: Le planificateur standard «optimal», calculant le chemin le plus court absolu compte tenu de l’incertitude.
- Utilitaire à prix réduit: Un modèle qui imite la planification avec une durée d’attention limitée (à la recherche de quelques étapes à l’avance), qui avait bien expliqué le comportement humain non structuré labyrinthes avant.
Les labyrinthes ont été conçus afin que les modèles traditionnels suggèrent généralement des chemins non modulaires, ce qui facilite la stratégie de stratégie que les gens préféraient.
Nous sommes des planificateurs modulaires
Les résultats étaient assez clairs. Les gens ont massivement utilisé des stratégies modulaires. Ils ont exploré le morceau de labyrinthe structuré par morceau, se déplaçant systématiquement d’une section reconnue à la prochaine la plus proche. Ce n’était pas seulement un coup de chance; C’était le schéma cohérent entre les différentes conceptions de labyrinthe et la plupart des participants.
Les chercheurs ont examiné de près les «décisions discriminantes». Ce sont des points dans le labyrinthe où le modèle GMP a suggéré un mouvement différent de celui des modèles traditionnels. Dans ces moments clés, GMP a fait un travail nettement mieux prédire ce que les gens feraient réellement. Les gens n’étaient pas seulement inefficaces au hasard; Ils étaient systématiquement modulaire. Leur comportement s’est bien aligné avec la stratégie que vous attendez s’ils utilisaient des cartes mentales de type programme.
L’une des parties vraiment soignées de cette étude est la façon dont ils ont utilisé le LLM. Cela ne prenait pas de décisions. Il agissait comme un stand-in pour humain perception structurelle. Parce que les LLM sont formées sur des montagnes d’écriture et de code humains, ils semblent absorber les moyens communs des humains structurent les choses, y compris les espaces. Lorsqu’on lui a demandé d’écrire un programme pour le labyrinthe, GPT-4 a proposé des pannes structurelles, les morceaux et les règles, qui correspondaient à la façon dont les gens ont ensuite navigué.
Cela laisse entendre que les LLM pourraient être utiles pour plus que la génération de texte. Ils pourraient potentiellement nous aider à comprendre les hypothèses intégrées et les raccourcis mentaux, les «biais inductifs», nous, les humains, utilisons pour donner un sens à tout. Ici, cela a contribué à traduire un labyrinthe visuel en une structure utile et semblable à un code parfaite pour une planification efficace.
Recherche: un tableau périodique pour l’apprentissage automatique
Changer la façon dont nous pensons aux cartes mentales et à l’IA
Cette recherche remet en question l’ancienne idée des cartes cognitives comme des images simples et statiques dans nos têtes. La considération d’eux comme des programmes actifs et génératifs a un sens informatique. Il explique comment nous gérons le monde réel complexe et incertain avec un cerveau limité. Il explique notre efficacité dans des endroits structurés, et peut-être même pourquoi nous prenons parfois des chemins qui ne sont pas mathématiquement parfaits mais qui sont beaucoup plus faciles à comprendre et à se souvenir.
Pour l’intelligence artificielle, cela offre un chemin pratique à suivre. Le modèle GMP montre d’abord la puissance de trouver la structure, puis la planification modulaire. Les agents de l’IA construits de cette façon pourraient potentiellement naviguer dans des environnements complexes et en partie connus beaucoup plus efficacement, nécessitant beaucoup moins de mémoire et de puissance de traitement. Il pointe vers l’IA qui prévoit plus comme nous, en repérant des modèles au lieu de simplement croquer des possibilités.
Bien sûr, il y a encore des questions. Le modèle GMP actuel fait des hypothèses simples sur le déplacement entre les morceaux. Les recherches futures doivent explorer comment nous pourrions prioriser certains domaines en fonction de l’expérience passée ou des objectifs actuels. Comment ajuster nos programmes mentaux lorsque le monde ne correspond pas à nos attentes? Dans quelle mesure nos objectifs influencent-ils les structures que nous percevons? Même avec ces questions ouvertes, cette étude nous donne une nouvelle façon puissante de réfléchir à la façon dont nous trouvons notre chemin.
En fin de compte, cela suggère quelque chose de profond chez nous. Notre incroyable capacité à naviguer et à agir efficacement dans notre monde complexe pourrait se résumer à notre cerveau étant des experts, repérant constamment le code sous-jacent de la réalité structurée qui nous entoure et la représentant non seulement comme une scène, mais comme un programme prêt à courir.