Avoir mieux les modèles de langage de grands langues (LLMS) est une chose. Les amener à le faire sans brûler des quantités absurdes de calcul en est une autre. Un nouveau document de recherche de Tu Darmstadt, UCLA, Google Deepmind et Mila approfondi dans ce compromis – et pourrait simplement changer la façon dont les développeurs de l’IA pensent à la mise à l’échelle du raisonnement au moment du test.
La tension centrale? Que les LLM doivent dépenser leur calcul générer plus de réponses (ce que l’on appelle l’auto-cohérence ou le SC), ou la vérification de quelques réponses prometteuses en utilisant des modèles de récompense génératifs (Genrms). Il s’avère que le choix de mal peut rendre vos déchets de modèle jusqu’à 128 fois plus de calcul – pour une bosse de performance à peine perceptible.
Le nouveau mathématiques du raisonnement à grande échelle
Les LLM comme GPT-4, LLAMA ou QWEN sont devenus choquants pour résoudre les problèmes de mathématiques et de sciences en générant plusieurs chaînes de pensée (COTS) et en choisissant le résultat le plus courant. C’est l’idée derrière SC – la sagesse de la force brute de la foule. Mais les chercheurs ont également été excités par les Genrms, une approche plus récente qui permet à LLMS d’agir comme leur propre juge en vérifiant les réponses grâce à un nouveau raisonnement en chaîne.
Les comparaisons précédentes ont rendu le Genrm très efficace: correspondant à la précision de SC avec 4 × moins de solutions. Mais ce document appelle ce cadrage – dur. Pourquoi? Parce que personne ne comptait le véritable coût de calcul de toutes ces étapes de vérification.
Les budgets de calcul changent tout
Cette étude introduit un cadre propre pour mesurer le coût réel des approches SC et Genrm dans un budget de calcul fixe. Cela fonctionne comme ceci: vous pouvez soit dépenser du calcul générer plus de réponses (SC), soit diviser ce budget entre quelques réponses et de nombreuses vérifications (Genrm). Leur modèle de calcul du calcul total d’inférence est rafraîchissant: c (s, v) = s (1 + λv), où S est le nombre de solutions, v le nombre de vérifications, et λ reflète la longueur de vérification par rapport aux solutions.
Le résultat brutal: SC est toujours roi (sauf si vous êtes riche)
Les expériences ont laissé peu de doute. À travers les modèles LLAMA et QWEN, des paramètres 7B à 70B, et à travers les tâches de raisonnement mathématique et scientifique, l’histoire répétée: SC a surpassé la genrm à des budgets de calcul inférieurs. Ce n’est que lorsque le calcul a mis à l’échelle après 8 × Rattrapage du Genrm. Et obtenir une modeste augmentation des performances de 3,8% par rapport à SC a nécessité un calcul alléchant 128 × plus.
Ce résultat résiste même pour les «modèles de pensée» avancés comme QWQ-32B, et sur des ensembles de données mathématiques dures comme AIME24. SC gagne lorsque le calcul est serré. Genrm n’a de sens que lorsque le calcul est pratiquement libre – ou lorsque les problèmes sont si difficiles que la vérification est de façon spectaculaire.
IEA Warns: IA pourrait doubler la consommation d’énergie du centre de données mondial d’ici 2030
La façon intelligente d’utiliser le genrm (si vous devez)
Pourtant, l’étude ne rejette pas entièrement Genrm. En fait, il tire Lois de mise à l’échelle des inférences Pour Genrm – un plan pour la résolution de problèmes optimale en calcul. La conclusion clé? Lors de l’échelle de Genrm, allocalisez le calcul à la génération de solutions plus rapidement que les vérifications – environ 1,5 à 2 fois plus rapidement. En nombre, leurs lois d’échelle ont trouvé des échelles optimales de comptage de solutions avec le budget de calcul comme s ∝ c ^ 0,57, tandis que des vérifications optimales évoluent comme v ∝ c ^ 0,39.
Cette recherche laisse aux praticiens un guide très pratique: si le calcul est limité, faites confiance à SC et dépensez-le pour générer plus de solutions. Si le calcul est abondant, et surtout si vous avez affaire à des tâches de raisonnement plus dures, l’utilisation de Genrm avec le bon équilibre de mise à l’échelle en vaut la peine – mais uniquement avec une optimisation sérieuse.
Pour les développeurs d’IA confrontés à des contraintes du monde réel, le point à retenir est presque comiquement simple: plus de réflexion bat plus de vérification, sauf si vous avez des ressources presque infinies. Et même alors, la vérification doit être intelligente, efficace et minimale.
Le papier complet, « Quand résoudre, quand vérifier: Résolution de problèmes optimale et vérification générative pour le raisonnement LLM»Est disponible sur arxiv. Leur base de code est ouverte à Github.