Les grands modèles de langue (LLM) deviennent plus intelligents, mais il y a un gros problème: ils ne savent pas comment apprendre efficacement. Magellan est un nouveau cadre d’IA qui imite l’apprentissage humain en prédisant ses propres progrès, ce qui l’a fait pour naviguer dans des espaces d’objectifs massifs sans rester coincé sur ce qui est trop facile ou trop dur.
Développé par des chercheurs d’Inria et du MIT, notamment Loris Gaven, Thomas Carta, Clément Romac, Cédric Colas, Sylvain Lampier, Olivier Sigaud et Pierre-Yves Oudeyer, l’étude « Magellan: Métacognitives Predictions of Learning Progress Guide Agents Autotelic LLM dans les grands espaces d’objectif»Présente un cadre qui donne à l’IA une capacité métacognitive – essentiellement, la compétence pour prédire combien elle s’améliorera en pratiquant une tâche. Cela permet à l’IA de prioriser les objectifs d’apprentissage d’une manière ouverte, tout comme les humains lors de la lutte contre les nouvelles compétences.
L’IA ne privilégie pas bien l’apprentissage
Les méthodes d’apprentissage de l’IA traditionnelles luttent dans de vastes espaces d’objectifs. Ils sont eux-mêmes:
- Perdre du temps sur les tâches qu’ils ont déjà maîtriséesfaire lentement des progrès.
- Tenter des objectifs trop difficilesconduisant à des échecs répétés.
- Nécessitent des catégories d’objectifs définies par l’hommece qui est inefficace et ne s’allonge pas.
Les humains, en revanche, instinctivement chercher des défis qui étendent leurs capacités sans être impossible. Magellan apporte cette approche humaine à la formation LLM.
Comment fonctionne Magellan: prédire les progrès, pas seulement les performances
La plupart des systèmes de formation d’IA: soit:
- Mesurer les performances passées (ce qui n’aide pas avec de nouveaux objectifs).
- Utiliser les cotes de difficulté fixe (qui ne s’adapte pas aux capacités changeantes).
Magellan prend une route plus intelligente. Il estime dynamiquement Combien une IA améliorera un objectif si elle la pratique. Cela permet aux modèles d’IA de sélectionner des tâches d’apprentissage qui maximisent les progrès plutôt que de simplement essayer les choses au hasard.
La méthode fonctionne à travers un processus appelé Progress d’apprentissage absolu (ALP)—Pracking combien une IA améliore une tâche donnée au fil du temps. En utilisant l’ALP, Magellan Clusters OBJECTIFS dans des catégories significatives sans intervention humaine, Laissant l’IA se généraliser entre les compétences connexes.
Les scores de performance LLM sont gonflés: une nouvelle méthode montre la vérité
Enseigner à l’IA à apprendre comme un humain
Pour tester Magellan, les chercheurs ont utilisé un environnement d’IA interactif appelé Petit zoooù un agent LLM a dû apprendre diverses tâches, comme reconnaître les objets, la culture de plantes et même interagir avec les animaux.
Les résultats étaient clairs:
- L’IA s’est formée avec Magellan a surpassé toutes les autres méthodes, maîtrisant plus de tâches plus rapidement.
- Il a mieux généraliséce qui signifie qu’il pourrait relever de nouveaux défis invisibles plus efficacement.
- Il ne nécessitait pas les catégories d’objectifs marqués par l’hommeprouvant son évolutivité.
En revanche, l’apprentissage traditionnel approche de plate-forme tôt ou requis groupes d’objectifs définis par des expertsles rendant rigides et inefficaces.
Pourquoi cela compte
La plus grande percée de Magellan est l’apprentissage autonome. Au lieu de compter sur les ingénieurs humains pour sélectionner des objectifs, l’IA peut déterminer de manière autonome quoi apprendre ensuite en fonction de ses propres progrès. Cela passait l’IA de la formation passive pour s’améliorer activement, ce qui en fait une approche transformatrice sur plusieurs champs.
Les assistants de l’IA peuvent se enseigner de nouvelles compétences en identifiant les domaines où ils luttent, améliorant leur capacité à s’adapter sans intervention humaine. En robotique, les machines peuvent affiner leurs capacités en se concentrant sur les tâches avec le potentiel d’apprentissage le plus élevé, conduisant à des systèmes autonomes plus efficaces et capables. Dans l’éducation, les tuteurs d’IA peuvent ajuster les leçons en temps réel, non seulement en fonction des performances passées, mais sur une amélioration prédite, offrant une expérience d’apprentissage plus personnalisée.
Magellan prouve que l’IA peut Pensez à son propre apprentissagele rendant beaucoup plus efficace dans les environnements ouverts. L’étape suivante pourrait aborder cette méthode au-delà des objectifs basés sur le texte dans des domaines comme la robotique, la découverte scientifique et même l’éducation humaine.
Crédit d’image en vedette: Kerem gülen / idéogramme