Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Pourquoi jeter plus d’intermédiaire à la vérification pourrait être une erreur

byKerem Gülen
avril 11, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Avoir mieux les modèles de langage de grands langues (LLMS) est une chose. Les amener à le faire sans brûler des quantités absurdes de calcul en est une autre. Un nouveau document de recherche de Tu Darmstadt, UCLA, Google Deepmind et Mila approfondi dans ce compromis – et pourrait simplement changer la façon dont les développeurs de l’IA pensent à la mise à l’échelle du raisonnement au moment du test.

La tension centrale? Que les LLM doivent dépenser leur calcul générer plus de réponses (ce que l’on appelle l’auto-cohérence ou le SC), ou la vérification de quelques réponses prometteuses en utilisant des modèles de récompense génératifs (Genrms). Il s’avère que le choix de mal peut rendre vos déchets de modèle jusqu’à 128 fois plus de calcul – pour une bosse de performance à peine perceptible.

Le nouveau mathématiques du raisonnement à grande échelle

Les LLM comme GPT-4, LLAMA ou QWEN sont devenus choquants pour résoudre les problèmes de mathématiques et de sciences en générant plusieurs chaînes de pensée (COTS) et en choisissant le résultat le plus courant. C’est l’idée derrière SC – la sagesse de la force brute de la foule. Mais les chercheurs ont également été excités par les Genrms, une approche plus récente qui permet à LLMS d’agir comme leur propre juge en vérifiant les réponses grâce à un nouveau raisonnement en chaîne.

Les comparaisons précédentes ont rendu le Genrm très efficace: correspondant à la précision de SC avec 4 × moins de solutions. Mais ce document appelle ce cadrage – dur. Pourquoi? Parce que personne ne comptait le véritable coût de calcul de toutes ces étapes de vérification.

Les budgets de calcul changent tout

Cette étude introduit un cadre propre pour mesurer le coût réel des approches SC et Genrm dans un budget de calcul fixe. Cela fonctionne comme ceci: vous pouvez soit dépenser du calcul générer plus de réponses (SC), soit diviser ce budget entre quelques réponses et de nombreuses vérifications (Genrm). Leur modèle de calcul du calcul total d’inférence est rafraîchissant: c (s, v) = s (1 + λv), où S est le nombre de solutions, v le nombre de vérifications, et λ reflète la longueur de vérification par rapport aux solutions.

Le résultat brutal: SC est toujours roi (sauf si vous êtes riche)

Les expériences ont laissé peu de doute. À travers les modèles LLAMA et QWEN, des paramètres 7B à 70B, et à travers les tâches de raisonnement mathématique et scientifique, l’histoire répétée: SC a surpassé la genrm à des budgets de calcul inférieurs. Ce n’est que lorsque le calcul a mis à l’échelle après 8 × Rattrapage du Genrm. Et obtenir une modeste augmentation des performances de 3,8% par rapport à SC a nécessité un calcul alléchant 128 × plus.

Ce résultat résiste même pour les «modèles de pensée» avancés comme QWQ-32B, et sur des ensembles de données mathématiques dures comme AIME24. SC gagne lorsque le calcul est serré. Genrm n’a de sens que lorsque le calcul est pratiquement libre – ou lorsque les problèmes sont si difficiles que la vérification est de façon spectaculaire.


IEA Warns: IA pourrait doubler la consommation d’énergie du centre de données mondial d’ici 2030


La façon intelligente d’utiliser le genrm (si vous devez)

Pourtant, l’étude ne rejette pas entièrement Genrm. En fait, il tire Lois de mise à l’échelle des inférences Pour Genrm – un plan pour la résolution de problèmes optimale en calcul. La conclusion clé? Lors de l’échelle de Genrm, allocalisez le calcul à la génération de solutions plus rapidement que les vérifications – environ 1,5 à 2 fois plus rapidement. En nombre, leurs lois d’échelle ont trouvé des échelles optimales de comptage de solutions avec le budget de calcul comme s ∝ c ^ 0,57, tandis que des vérifications optimales évoluent comme v ∝ c ^ 0,39.

Cette recherche laisse aux praticiens un guide très pratique: si le calcul est limité, faites confiance à SC et dépensez-le pour générer plus de solutions. Si le calcul est abondant, et surtout si vous avez affaire à des tâches de raisonnement plus dures, l’utilisation de Genrm avec le bon équilibre de mise à l’échelle en vaut la peine – mais uniquement avec une optimisation sérieuse.

Pour les développeurs d’IA confrontés à des contraintes du monde réel, le point à retenir est presque comiquement simple: plus de réflexion bat plus de vérification, sauf si vous avez des ressources presque infinies. Et même alors, la vérification doit être intelligente, efficace et minimale.

Le papier complet, « Quand résoudre, quand vérifier: Résolution de problèmes optimale et vérification générative pour le raisonnement LLM»Est disponible sur arxiv. Leur base de code est ouverte à Github.


Crédit d’image en vedette

Tags: IALLMS

Related Posts

Les scientifiques découvrent plus de 17 000 nouvelles espèces

Les scientifiques découvrent plus de 17 000 nouvelles espèces

décembre 26, 2025
GPT-5.2 dépasse la référence de doctorat expert avec un score scientifique de 92 %

GPT-5.2 dépasse la référence de doctorat expert avec un score scientifique de 92 %

décembre 24, 2025
Pourquoi DIG AI est l’IA malveillante la plus dangereuse de 2025

Pourquoi DIG AI est l’IA malveillante la plus dangereuse de 2025

décembre 23, 2025
Les batteries sodium-ion se rapprochent d’une charge rapide alors que les chercheurs éliminent les goulots d’étranglement ioniques

Les batteries sodium-ion se rapprochent d’une charge rapide alors que les chercheurs éliminent les goulots d’étranglement ioniques

décembre 19, 2025
Attraper le fantôme de 2 000 milliards de dollars : l’IA réécrit les règles de la criminalité financière

Attraper le fantôme de 2 000 milliards de dollars : l’IA réécrit les règles de la criminalité financière

décembre 15, 2025
Les LLM montrent des préjugés culturels distincts dans les invites en anglais et en chinois

Les LLM montrent des préjugés culturels distincts dans les invites en anglais et en chinois

décembre 15, 2025

Recent Posts

  • Le Qwen Code v0.5.0 d’Alibaba transforme le terminal en un écosystème de développement complet
  • Bethesda vise 600 heures de jeu pour Fallout 5
  • ASUS défend le port d’alimentation mal aligné du RTX 5090 HyperX comme "conception intentionnelle"
  • NVIDIA open source CUDA Tile IR sur GitHub
  • Le PDG de MicroStrategy explique les fondamentaux du Bitcoin "ça ne pourrait pas être mieux"

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.