Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Pourquoi les petits modèles d’IA ne peuvent pas suivre les grands

byKerem Gülen
février 18, 2025
in Research
Home Research

La montée des modèles de grands langues (LLMS) n’a rien de moins que transformateur. Ces systèmes d’IA excellent au raisonnement complexe, décomposant les problèmes en étapes logiques structurées appelées Raisonnement de la chaîne de pensées (CO). Cependant, à mesure que la recherche sur l’IA fait pression pour l’efficacité, une question clé émerge: Les petits modèles peuvent-ils hériter de ces capacités de raisonnement avancées par la distillation à partir de modèles plus grands?

Un nouveau étude Par Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian et Radha Poovendran de l’Université de Washington, de l’Université Carnegie Mellon, et de l’Université de Western Washington Washington, la réponse est plus compliquée que celle précédemment. Dans l’étude appelée «Les petits modèles ont du mal à apprendre de forts raisonneurs», Les chercheurs ont identifié ce qu’ils appellent le Écart d’apprentissage de petit modèle—Un phénomène où de petits modèles (paramètres ≤3b) ont du mal à bénéficier du raisonnement complexe de leurs homologues plus grands. Au lieu de cela, ces modèles fonctionnent mieux lorsqu’ils sont formés sur étapes de raisonnement plus courts et plus simples ou distillé de d’autres petits modèles.

Cette constatation remet en question la croyance conventionnelle que plus gros c’est toujours mieux En ce qui concerne le transfert de connaissances sur l’IA. L’étude propose également un Nouvelle approche de la distillation de l’IA– Un qui mélange la complexité du raisonnement pour aider les petits modèles à apprendre plus efficacement.

Pourquoi les petits modèles d’IA ont du mal avec un raisonnement complexe

LLMS comme GPT-4O, Claude 3 Opus et Gemini sont formés sur des ensembles de données massifs et optimisés pour traiter les chaînes de raisonnement complexe. Leurs explications étape par étape améliorent la précision de résolution de problèmes dans des champs comme mathématiques, inférence logique et prise de décision structurée.

Naturellement, les chercheurs d’IA ont tenté de « rétrécir » Cette intelligence en modèles plus petits – les régler en utilisant des sorties de modèles plus grands. L’idée est simple: entraînez un modèle plus petit sur traces de raisonnement longs et détaillés Généré par une IA plus grande, espérant qu’elle absorbera la même logique structurée.

Mais l’étude trouve cette approche Souvent se retourner.

  • Les petits modèles ne parviennent pas à internaliser les longs étapes de raisonnement: Lorsqu’il est formé sur Explications longues et complexesles petits modèles ont du mal à généraliser, conduisant à des baisses de performances.
  • Ils apprennent mieux des chaînes de raisonnement plus simples: Formation de petits modèles sur séquences de raisonnement plus courts et plus concises améliore leur capacité à traiter les étapes logiques.
  • Le plus grand n’est pas toujours mieux pour enseigner l’IA: Les grandes chaînes de raisonnement générées par des modèles n’améliorent pas toujours le raisonnement des petits modèles – parfois ils l’entrachent.

Cet effet est particulièrement évident dans Tâches liées aux mathématiquesoù la résolution structurée de problèmes joue un rôle crucial. L’équipe de recherche a évalué les petits modèles à travers divers repères, notamment Math, GSM8K, AIME, AMC et Olympiadbenchconstatant que la distillation du raisonnement complexe a souvent entraîné une diminution des performances.

Le correctif: Mélanger la distillation

Pour aborder cela Apprendre le goulot d’étranglementles chercheurs proposent un Mélanger la distillation approche. Au lieu d’entraîner exclusivement de petits modèles sur de longues séquences de lit de lit ou une distillation à partir de grands modèles, cette méthode équilibre la complexité du raisonnement En combinant plusieurs styles de raisonnement.

Leur stratégie se compose de deux configurations:

  1. Mélange: Une combinaison de chaînes de raisonnement courtes et longuess’assurer que les petits modèles sont exposés à la logique détaillée et simplifiée.
  2. Mixage: Un mélange d’étapes de raisonnement de grands et petits modèlesoptimiser le transfert de connaissances sans écraser les modèles plus petits.

Les expériences montrent que Mélange la distillation améliore considérablement le raisonnement du petit modèle par rapport à la formation sur les données à source unique.

Par exemple:

  • QWEN2.5-3B-Istruct amélioré de 8+ points sur des repères mathématiques et AMC en utilisant Mélangepar rapport à la formation sur les données sur le COT uniquement.
  • Le même modèle gagné 7+ points en utilisant Mixagepar rapport à la distillation directe d’un grand modèle d’enseignant.

Le point à emporter? Les petits modèles n’ont pas besoin d’imiter les grands modèles textuellement – ils ont besoin d’un mélange soigneusement organisé de complexité de raisonnement.


Crédit d’image en vedette: Kerem Gülen / Midjourney

Tags: IA

Related Posts

L’IA résout enfin le puzzle le plus difficile de la biologie

L’IA résout enfin le puzzle le plus difficile de la biologie

mai 6, 2025
Le chef-d’œuvre de Raphael n’est peut-être pas tout son

Le chef-d’œuvre de Raphael n’est peut-être pas tout son

mai 5, 2025
Recherche: l’étalon-or pour l’évaluation du Genai

Recherche: l’étalon-or pour l’évaluation du Genai

mai 2, 2025
L’IA nous fait-il tous écrire la même?

L’IA nous fait-il tous écrire la même?

mai 1, 2025
GPT-4 aide les chercheurs à décoder la façon dont nous nous déplaçons réellement dans l’espace

GPT-4 aide les chercheurs à décoder la façon dont nous nous déplaçons réellement dans l’espace

mai 1, 2025
Pourquoi nous devons gouverner l’IA utilisée dans les entreprises technologiques

Pourquoi nous devons gouverner l’IA utilisée dans les entreprises technologiques

avril 29, 2025

Recent Posts

  • Brad Smith témoigne de l’application Deepseek bloquée par Microsoft pour les employés
  • Chrome déploie l’IA locale pour détecter de nouvelles escroqueries Web émergentes
  • Apprentissage automatique basé sur un modèle (MBML)
  • Traçage des performances ML
  • Apple développe de nouvelles puces pour les lunettes et les macs intelligents AI

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.