Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Pourquoi jeter plus d’intermédiaire à la vérification pourrait être une erreur

byKerem Gülen
avril 11, 2025
in Recherche
Home Recherche
Share on FacebookShare on Twitter
Google Preferred Source

Avoir mieux les modèles de langage de grands langues (LLMS) est une chose. Les amener à le faire sans brûler des quantités absurdes de calcul en est une autre. Un nouveau document de recherche de Tu Darmstadt, UCLA, Google Deepmind et Mila approfondi dans ce compromis – et pourrait simplement changer la façon dont les développeurs de l’IA pensent à la mise à l’échelle du raisonnement au moment du test.

La tension centrale? Que les LLM doivent dépenser leur calcul générer plus de réponses (ce que l’on appelle l’auto-cohérence ou le SC), ou la vérification de quelques réponses prometteuses en utilisant des modèles de récompense génératifs (Genrms). Il s’avère que le choix de mal peut rendre vos déchets de modèle jusqu’à 128 fois plus de calcul – pour une bosse de performance à peine perceptible.

Le nouveau mathématiques du raisonnement à grande échelle

Les LLM comme GPT-4, LLAMA ou QWEN sont devenus choquants pour résoudre les problèmes de mathématiques et de sciences en générant plusieurs chaînes de pensée (COTS) et en choisissant le résultat le plus courant. C’est l’idée derrière SC – la sagesse de la force brute de la foule. Mais les chercheurs ont également été excités par les Genrms, une approche plus récente qui permet à LLMS d’agir comme leur propre juge en vérifiant les réponses grâce à un nouveau raisonnement en chaîne.

Les comparaisons précédentes ont rendu le Genrm très efficace: correspondant à la précision de SC avec 4 × moins de solutions. Mais ce document appelle ce cadrage – dur. Pourquoi? Parce que personne ne comptait le véritable coût de calcul de toutes ces étapes de vérification.

Les budgets de calcul changent tout

Cette étude introduit un cadre propre pour mesurer le coût réel des approches SC et Genrm dans un budget de calcul fixe. Cela fonctionne comme ceci: vous pouvez soit dépenser du calcul générer plus de réponses (SC), soit diviser ce budget entre quelques réponses et de nombreuses vérifications (Genrm). Leur modèle de calcul du calcul total d’inférence est rafraîchissant: c (s, v) = s (1 + λv), où S est le nombre de solutions, v le nombre de vérifications, et λ reflète la longueur de vérification par rapport aux solutions.

Le résultat brutal: SC est toujours roi (sauf si vous êtes riche)

Les expériences ont laissé peu de doute. À travers les modèles LLAMA et QWEN, des paramètres 7B à 70B, et à travers les tâches de raisonnement mathématique et scientifique, l’histoire répétée: SC a surpassé la genrm à des budgets de calcul inférieurs. Ce n’est que lorsque le calcul a mis à l’échelle après 8 × Rattrapage du Genrm. Et obtenir une modeste augmentation des performances de 3,8% par rapport à SC a nécessité un calcul alléchant 128 × plus.

Ce résultat résiste même pour les «modèles de pensée» avancés comme QWQ-32B, et sur des ensembles de données mathématiques dures comme AIME24. SC gagne lorsque le calcul est serré. Genrm n’a de sens que lorsque le calcul est pratiquement libre – ou lorsque les problèmes sont si difficiles que la vérification est de façon spectaculaire.


IEA Warns: IA pourrait doubler la consommation d’énergie du centre de données mondial d’ici 2030


La façon intelligente d’utiliser le genrm (si vous devez)

Pourtant, l’étude ne rejette pas entièrement Genrm. En fait, il tire Lois de mise à l’échelle des inférences Pour Genrm – un plan pour la résolution de problèmes optimale en calcul. La conclusion clé? Lors de l’échelle de Genrm, allocalisez le calcul à la génération de solutions plus rapidement que les vérifications – environ 1,5 à 2 fois plus rapidement. En nombre, leurs lois d’échelle ont trouvé des échelles optimales de comptage de solutions avec le budget de calcul comme s ∝ c ^ 0,57, tandis que des vérifications optimales évoluent comme v ∝ c ^ 0,39.

Cette recherche laisse aux praticiens un guide très pratique: si le calcul est limité, faites confiance à SC et dépensez-le pour générer plus de solutions. Si le calcul est abondant, et surtout si vous avez affaire à des tâches de raisonnement plus dures, l’utilisation de Genrm avec le bon équilibre de mise à l’échelle en vaut la peine – mais uniquement avec une optimisation sérieuse.

Pour les développeurs d’IA confrontés à des contraintes du monde réel, le point à retenir est presque comiquement simple: plus de réflexion bat plus de vérification, sauf si vous avez des ressources presque infinies. Et même alors, la vérification doit être intelligente, efficace et minimale.

Le papier complet, « Quand résoudre, quand vérifier: Résolution de problèmes optimale et vérification générative pour le raisonnement LLM»Est disponible sur arxiv. Leur base de code est ouverte à Github.


Crédit d’image en vedette

Tags: IALLMS

Related Posts

Les chercheurs débloquent une amélioration 20 fois supérieure dans des expériences laser ultrarapides

Les chercheurs débloquent une amélioration 20 fois supérieure dans des expériences laser ultrarapides

juin 3, 2026
Un sondage montre que 71 % des Américains pensent que l’IA progresse trop rapidement

Un sondage montre que 71 % des Américains pensent que l’IA progresse trop rapidement

mai 20, 2026
Les cartes de paiement volées au Royaume-Uni se vendent 12 $ sur le dark web, selon NordVPN

Les cartes de paiement volées au Royaume-Uni se vendent 12 $ sur le dark web, selon NordVPN

mai 20, 2026
Les centres de données et la cryptographie pourraient augmenter les coûts d’électricité de 57 % d’ici 2030

Les centres de données et la cryptographie pourraient augmenter les coûts d’électricité de 57 % d’ici 2030

mai 20, 2026
Les compétences en IA sont désormais vitales pour les promotions et les augmentations d’emploi, selon une étude

Les compétences en IA sont désormais vitales pour les promotions et les augmentations d’emploi, selon une étude

mai 20, 2026
Une nouvelle conception de puce magnétique pourrait surpasser les accélérateurs d’IA actuels

Une nouvelle conception de puce magnétique pourrait surpasser les accélérateurs d’IA actuels

mai 19, 2026

Recent Posts

  • Les règles de désinscription de la recherche Google AI déclenchent le lancement du navigateur Enviromates
  • Sony révèle God of War : Laufey pour PS5
  • Les chercheurs débloquent une amélioration 20 fois supérieure dans des expériences laser ultrarapides
  • Microsoft dévoile Surface RTX Spark Dev Box pour les charges de travail d’IA
  • Les nouvelles puces Core Ultra d’Intel seraient rares

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.