L’intelligence artificielle a longtemps lutté avec un problème fondamental: Comment une IA peut-elle explorer son environnement intelligemment sans instructions explicites? L’apprentissage traditionnel du renforcement (RL) s’appuie essais et erreurgaspillant souvent de grandes quantités de temps à interagir au hasard avec son environnement. Alors que les modèles d’IA peuvent être formés pour résoudre efficacement des tâches spécifiques, Les amener à explorer de nouveaux environnements de manière significative – sans objectifs prédéfinis – a été un défi majeur.
Un récent étude Par Cansu Sancaktar, Christian Gumbsch, Andrii Zaidaianchuk, Pavel Kolev et Georg Martius de l’Université de Tübingen, de l’Institut Max Planck, Tu Dresde et de l’Université d’Amsterdam présente une solution prometteuse: Sensei (exploration sémantiquement sensée).
Contrairement aux méthodes précédentes qui traitent l’exploration comme un problème de force bruteSensei adopte une approche différente – celle qui imite Comment les humains, en particulier les enfants, explorent le monde. Au lieu d’essayer simplement de nouvelles choses au hasard, les humains recherchent interactions significatives—Avernage des tiroirs au lieu de simplement frapper sur les bureaux, poussant les boutons au lieu de secouer leurs bras. Sensei apporte ceci Curiosité de type humain aux agents artificiels en utilisant Des modèles de fondation comme les modèles de langage de vision (VLMS) à Guide l’exploration avec compréhension sémantique.
Le problème avec l’exploration de l’IA
Pour que les agents de l’IA apprennent de nouvelles tâches, ils doivent d’abord explorer leur environnement. Les méthodes d’exploration traditionnelles reposent sur motivation intrinsèquece qui signifie que l’IA reçoit une récompense interne pour les actions qui génèrent nouveauté ou maximiser le gain d’information. Cependant, cette approche conduit souvent à comportements de bas niveau et non structurés– comme un robot se déplaçant au hasard ou à plusieurs reprises des objets sans reconnaître leur pertinence.
Imaginez un robot dans une pièce pleine d’objets:
- Un agent RL standard pourrait essayer chaque action au hasard – en train de chasser le bureau, de tourner en rond ou de saisir l’air – sans prioriser les interactions utiles.
- Un apprenant humainen revanche, Concentrez-vous naturellement sur des objets comme les tiroirs et les boutonsles reconnaissant comme des sources de interactions significatives.
C’est là que Sensei intervient.
L’IA gère maintenant les simulations moléculaires: grâce à mdcrow
Comment Sensei enseigne à l’IA à explorer comme un humain
Sensei introduit un nouveau type de motivation intrinsèque—Un basé sur compréhension sémantique. Au lieu d’explorer aveuglément, l’IA est guidée par Quel modèle de fondation (une IA à grande échelle formée sur de grandes quantités de données) juge «intéressante».
Le processus fonctionne en trois étapes principales:
1. Enseigner Ai ce qui est «intéressant»
Avant que l’agent ne commence à explorer, Sensei utilise Un modèle de langue de vision (VLM) comme GPT-4V pour évaluer les images de l’environnement. Le VLM est posé des questions comme:
«Laquelle de ces deux images est la plus intéressante?»
De ces comparaisons, Sensei distille un fonction de récompense sémantiqueenseignant l’AI Quels types d’interactions comptent.
2. Apprendre un modèle mondial
Une fois que l’IA comprend ce qui est considéré comme «intéressant», il construit un modèle mondial interne—Un système prédictif qui l’aide à anticiper comment l’environnement réagira à ses actions.
- Au lieu d’avoir besoin de Interrogez constamment le modèle de fondationl’AI apprend à prédire l’intérêt par lui-même.
- Cela réduit la dépendance aux modèles externes et permet Exploration plus rapide et autoguidée.
3. Exploration plus intelligente, pas plus difficile
Avec cette compréhension, l’IA est maintenant Guidé par deux motivations concurrentes:
- Trouver des choses intéressantes (maximiser la récompense sémantique).
- Repousser les limites de ce qu’il sait (Augmenter l’incertitude en explorant de nouvelles zones).
Le résultat? Agents d’IA Déverrouiller les comportements à la fois nouveaux et significatifs, tout comme une exploration axée sur la curiosité humaine.
Ce que Sensei peut faire: AI qui déverrouille les interactions réelles
Les chercheurs ont testé Sensei dans Deux environnements différents:
1. Simulations de jeux vidéo (MiniHack)
- Dans un jeu où une IA a dû Trouvez une clé pour ouvrir une porte verrouilléeSensei les interactions prioritaires avec la clé et la porte– Tout comme un humain le ferait.
- Les méthodes d’exploration d’IA traditionnelles ont souvent été coincées en faisant des mouvements aléatoires sans comprendre le signification des objets dans la scène.
- Sensei a résolu les puzzles du jeu plus rapide et avec moins d’actions gaspillées que les autres méthodes d’IA.
2. Simulations robotiques (Robodesk)
- Dans un environnement de bras robotSensei axé sur la manipulation d’objets comme les tiroirs et les boutonsapprendre des tâches significatives naturellement.
- Systèmes d’IA concurrents Flailled au hasard ou J’ai été coincé à répéter des actions sans but réel.
Dans les deux cas, Sensei n’a pas juste Couvrir plus de terrain-il axé sur les interactions qui comptaientconduisant à Apprentissage plus riche et plus efficace.
Pourquoi cela compte: l’avenir de l’exploration de l’IA
La capacité de Sensei à prioriser les interactions significatives pourrait révolutionner la robotique, permettant aux robots de Comportements utiles auto-apprend sans programmation explicite. Imaginer:
- Un assistant à domicile qui découvre comment utiliser de nouveaux appareils sans instructions étape par étape.
- Robots industriels qui s’adapter aux nouvelles tâches dans les usines sans intervention humaine.
En se concentrant sur exploration sémantiquement pertinenteAI peut réduire le calcul gaspilléconduisant à Apprentissage plus rapide et plus économe en énergie.
L’un des plus grands défis de l’IA est de créer des systèmes qui Apprenez de manière flexible comme les humains. Sensei représente un pas vers les agents de l’IA qui peuvent explorer de nouveaux environnements intelligemment– sans compter sur Données d’entraînement fabriquées à la main ou objectifs prédéfinis.
Limites
Alors que Sensei est un saut majeur en avantil a encore quelques limites:
- Il s’appuie sur une entrée visuelle de haute qualité. Si la caméra de l’IA est bloquée ou déformée, sa compréhension peut être affectée.
- Ce n’est pas encore multimodal. Bien qu’il fonctionne bien avec les images, les versions futures pourraient incorporer le son, le texte et d’autres entrées sensorielles pour une exploration plus riche.
- Il suppose que la curiosité générale de type humain est toujours bénéfique. Dans certaines applications spécialisées, certaines interactions peuvent ne pas être utiles.
Crédit d’image en vedette: Kerem Gülen / Midjourney