Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Pourquoi jeter plus d’intermédiaire à la vérification pourrait être une erreur

byKerem Gülen
avril 11, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Avoir mieux les modèles de langage de grands langues (LLMS) est une chose. Les amener à le faire sans brûler des quantités absurdes de calcul en est une autre. Un nouveau document de recherche de Tu Darmstadt, UCLA, Google Deepmind et Mila approfondi dans ce compromis – et pourrait simplement changer la façon dont les développeurs de l’IA pensent à la mise à l’échelle du raisonnement au moment du test.

La tension centrale? Que les LLM doivent dépenser leur calcul générer plus de réponses (ce que l’on appelle l’auto-cohérence ou le SC), ou la vérification de quelques réponses prometteuses en utilisant des modèles de récompense génératifs (Genrms). Il s’avère que le choix de mal peut rendre vos déchets de modèle jusqu’à 128 fois plus de calcul – pour une bosse de performance à peine perceptible.

Le nouveau mathématiques du raisonnement à grande échelle

Les LLM comme GPT-4, LLAMA ou QWEN sont devenus choquants pour résoudre les problèmes de mathématiques et de sciences en générant plusieurs chaînes de pensée (COTS) et en choisissant le résultat le plus courant. C’est l’idée derrière SC – la sagesse de la force brute de la foule. Mais les chercheurs ont également été excités par les Genrms, une approche plus récente qui permet à LLMS d’agir comme leur propre juge en vérifiant les réponses grâce à un nouveau raisonnement en chaîne.

Les comparaisons précédentes ont rendu le Genrm très efficace: correspondant à la précision de SC avec 4 × moins de solutions. Mais ce document appelle ce cadrage – dur. Pourquoi? Parce que personne ne comptait le véritable coût de calcul de toutes ces étapes de vérification.

Les budgets de calcul changent tout

Cette étude introduit un cadre propre pour mesurer le coût réel des approches SC et Genrm dans un budget de calcul fixe. Cela fonctionne comme ceci: vous pouvez soit dépenser du calcul générer plus de réponses (SC), soit diviser ce budget entre quelques réponses et de nombreuses vérifications (Genrm). Leur modèle de calcul du calcul total d’inférence est rafraîchissant: c (s, v) = s (1 + λv), où S est le nombre de solutions, v le nombre de vérifications, et λ reflète la longueur de vérification par rapport aux solutions.

Le résultat brutal: SC est toujours roi (sauf si vous êtes riche)

Les expériences ont laissé peu de doute. À travers les modèles LLAMA et QWEN, des paramètres 7B à 70B, et à travers les tâches de raisonnement mathématique et scientifique, l’histoire répétée: SC a surpassé la genrm à des budgets de calcul inférieurs. Ce n’est que lorsque le calcul a mis à l’échelle après 8 × Rattrapage du Genrm. Et obtenir une modeste augmentation des performances de 3,8% par rapport à SC a nécessité un calcul alléchant 128 × plus.

Ce résultat résiste même pour les «modèles de pensée» avancés comme QWQ-32B, et sur des ensembles de données mathématiques dures comme AIME24. SC gagne lorsque le calcul est serré. Genrm n’a de sens que lorsque le calcul est pratiquement libre – ou lorsque les problèmes sont si difficiles que la vérification est de façon spectaculaire.


IEA Warns: IA pourrait doubler la consommation d’énergie du centre de données mondial d’ici 2030


La façon intelligente d’utiliser le genrm (si vous devez)

Pourtant, l’étude ne rejette pas entièrement Genrm. En fait, il tire Lois de mise à l’échelle des inférences Pour Genrm – un plan pour la résolution de problèmes optimale en calcul. La conclusion clé? Lors de l’échelle de Genrm, allocalisez le calcul à la génération de solutions plus rapidement que les vérifications – environ 1,5 à 2 fois plus rapidement. En nombre, leurs lois d’échelle ont trouvé des échelles optimales de comptage de solutions avec le budget de calcul comme s ∝ c ^ 0,57, tandis que des vérifications optimales évoluent comme v ∝ c ^ 0,39.

Cette recherche laisse aux praticiens un guide très pratique: si le calcul est limité, faites confiance à SC et dépensez-le pour générer plus de solutions. Si le calcul est abondant, et surtout si vous avez affaire à des tâches de raisonnement plus dures, l’utilisation de Genrm avec le bon équilibre de mise à l’échelle en vaut la peine – mais uniquement avec une optimisation sérieuse.

Pour les développeurs d’IA confrontés à des contraintes du monde réel, le point à retenir est presque comiquement simple: plus de réflexion bat plus de vérification, sauf si vous avez des ressources presque infinies. Et même alors, la vérification doit être intelligente, efficace et minimale.

Le papier complet, « Quand résoudre, quand vérifier: Résolution de problèmes optimale et vérification générative pour le raisonnement LLM»Est disponible sur arxiv. Leur base de code est ouverte à Github.


Crédit d’image en vedette

Tags: IALLMS

Related Posts

OpenAI GPT 5.2 résout le problème mathématique d'Erdő en 15 minutes

OpenAI GPT 5.2 résout le problème mathématique d'Erdő en 15 minutes

janvier 19, 2026
Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

janvier 15, 2026
La pénurie mondiale de puces mémoire fait monter en flèche les prix des PC

La pénurie mondiale de puces mémoire fait monter en flèche les prix des PC

janvier 14, 2026
Les ingénieurs construisent des robots inspirés des sauterelles pour résoudre l'épuisement de la batterie

Les ingénieurs construisent des robots inspirés des sauterelles pour résoudre l'épuisement de la batterie

janvier 14, 2026
Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

janvier 7, 2026
L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

janvier 6, 2026

Recent Posts

  • Walmart maintient l'interdiction d'Apple Pay dans les magasins américains pour 2026
  • Nvidia atteint 200 téraFLOP émulés FP64 pour le calcul scientifique
  • OpenAI GPT 5.2 résout le problème mathématique d'Erdő en 15 minutes
  • Réparation de 20 $ de Verizon : comment réclamer votre crédit de panne aujourd'hui
  • Anthropic nomme Irina Ghose, vétéran de Microsoft, pour diriger l'expansion en Inde

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.