La montée des modèles de grands langues (LLMS) n’a rien de moins que transformateur. Ces systèmes d’IA excellent au raisonnement complexe, décomposant les problèmes en étapes logiques structurées appelées Raisonnement de la chaîne de pensées (CO). Cependant, à mesure que la recherche sur l’IA fait pression pour l’efficacité, une question clé émerge: Les petits modèles peuvent-ils hériter de ces capacités de raisonnement avancées par la distillation à partir de modèles plus grands?
Un nouveau étude Par Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian et Radha Poovendran de l’Université de Washington, de l’Université Carnegie Mellon, et de l’Université de Western Washington Washington, la réponse est plus compliquée que celle précédemment. Dans l’étude appelée «Les petits modèles ont du mal à apprendre de forts raisonneurs», Les chercheurs ont identifié ce qu’ils appellent le Écart d’apprentissage de petit modèle—Un phénomène où de petits modèles (paramètres ≤3b) ont du mal à bénéficier du raisonnement complexe de leurs homologues plus grands. Au lieu de cela, ces modèles fonctionnent mieux lorsqu’ils sont formés sur étapes de raisonnement plus courts et plus simples ou distillé de d’autres petits modèles.
Cette constatation remet en question la croyance conventionnelle que plus gros c’est toujours mieux En ce qui concerne le transfert de connaissances sur l’IA. L’étude propose également un Nouvelle approche de la distillation de l’IA– Un qui mélange la complexité du raisonnement pour aider les petits modèles à apprendre plus efficacement.
Pourquoi les petits modèles d’IA ont du mal avec un raisonnement complexe
LLMS comme GPT-4O, Claude 3 Opus et Gemini sont formés sur des ensembles de données massifs et optimisés pour traiter les chaînes de raisonnement complexe. Leurs explications étape par étape améliorent la précision de résolution de problèmes dans des champs comme mathématiques, inférence logique et prise de décision structurée.
Naturellement, les chercheurs d’IA ont tenté de « rétrécir » Cette intelligence en modèles plus petits – les régler en utilisant des sorties de modèles plus grands. L’idée est simple: entraînez un modèle plus petit sur traces de raisonnement longs et détaillés Généré par une IA plus grande, espérant qu’elle absorbera la même logique structurée.
Mais l’étude trouve cette approche Souvent se retourner.
- Les petits modèles ne parviennent pas à internaliser les longs étapes de raisonnement: Lorsqu’il est formé sur Explications longues et complexesles petits modèles ont du mal à généraliser, conduisant à des baisses de performances.
- Ils apprennent mieux des chaînes de raisonnement plus simples: Formation de petits modèles sur séquences de raisonnement plus courts et plus concises améliore leur capacité à traiter les étapes logiques.
- Le plus grand n’est pas toujours mieux pour enseigner l’IA: Les grandes chaînes de raisonnement générées par des modèles n’améliorent pas toujours le raisonnement des petits modèles – parfois ils l’entrachent.
Cet effet est particulièrement évident dans Tâches liées aux mathématiquesoù la résolution structurée de problèmes joue un rôle crucial. L’équipe de recherche a évalué les petits modèles à travers divers repères, notamment Math, GSM8K, AIME, AMC et Olympiadbenchconstatant que la distillation du raisonnement complexe a souvent entraîné une diminution des performances.
Le correctif: Mélanger la distillation
Pour aborder cela Apprendre le goulot d’étranglementles chercheurs proposent un Mélanger la distillation approche. Au lieu d’entraîner exclusivement de petits modèles sur de longues séquences de lit de lit ou une distillation à partir de grands modèles, cette méthode équilibre la complexité du raisonnement En combinant plusieurs styles de raisonnement.
Leur stratégie se compose de deux configurations:
- Mélange: Une combinaison de chaînes de raisonnement courtes et longuess’assurer que les petits modèles sont exposés à la logique détaillée et simplifiée.
- Mixage: Un mélange d’étapes de raisonnement de grands et petits modèlesoptimiser le transfert de connaissances sans écraser les modèles plus petits.
Les expériences montrent que Mélange la distillation améliore considérablement le raisonnement du petit modèle par rapport à la formation sur les données à source unique.
Par exemple:
- QWEN2.5-3B-Istruct amélioré de 8+ points sur des repères mathématiques et AMC en utilisant Mélangepar rapport à la formation sur les données sur le COT uniquement.
- Le même modèle gagné 7+ points en utilisant Mixagepar rapport à la distillation directe d’un grand modèle d’enseignant.
Le point à emporter? Les petits modèles n’ont pas besoin d’imiter les grands modèles textuellement – ils ont besoin d’un mélange soigneusement organisé de complexité de raisonnement.
Crédit d’image en vedette: Kerem Gülen / Midjourney