Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

ByTedance Vapo: la mise à niveau de l’IA dont vous entendrez bientôt parler

byKerem Gülen
avril 11, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Les chercheurs en semences de Bytedance ont déployé la valeur de la valeur augmentée de la politique proximale (VAPO), un cadre de formation d’apprentissage en renforcement conçu pour affiner le raisonnement des modèles de grande langue sur des tâches complexes et longues, obtenant de nouveaux résultats de pointe sur la référence AIME24.

Formation LLMS pour un raisonnement complexe en utilisant l’apprentissage par renforcement basé sur la valeur auparavant confronté à des obstacles importants. Les méthodes ont lutté avec le biais du modèle de valeur, l’adaptation efficace aux séquences de réponse de longueurs très variables et la gestion des signaux de récompense clairsemés, en particulier dans les tâches basées sur les vérificateurs ne fournissant que des commentaires binaires.

VAPO relève ces défis grâce à trois innovations de base: un cadre de formation basé sur la valeur détaillée, un mécanisme d’estimation généralisée de la longueur d’estimation des avantages généralisés (GAE) ajusté les paramètres basés sur la longueur de la réponse et l’intégration systématique des techniques à partir de recherches antérieures.

Cette combinaison crée un système où les améliorations fonctionnent en synergie. En utilisant le modèle QWEN2.5-32B sans données SFT spécifiques, VAPO a amélioré les scores de référence de 5 à 60, dépassant les méthodes antérieures de pointe de 10 points.

VAPO s’appuie sur l’algorithme d’optimisation de la politique proximale (PPO) mais intègre des modifications clés pour améliorer le raisonnement mathématique. L’analyse de la formation a révélé que VAPO présente des courbes de formation plus lisses par rapport à la méthode DAPO sans valeur, indiquant une optimisation plus stable.

Vapo a également démontré une meilleure mise à l’échelle de longueur pour une généralisation améliorée, une croissance plus rapide du score attribuable aux signaux granulaires de son modèle de valeur et une entropie inférieure aux étapes de formation ultérieures. Bien que l’entropie réduite puisse potentiellement limiter l’exploration, la méthode équilibre effectivement cela, améliorant la reproductibilité et la stabilité avec un impact sur les performances minimales.

Bytedance-vapo-the-a-upgrade-youll-hear-up-soon
Image: semences de bydance

Sur la référence AIME24, Deepseek R1 en utilisant GRPO a atteint 47 points et Dapo a atteint 50 points. Vapo, en utilisant le modèle QWEN-32B, a fait correspondre les performances de DAPO avec seulement 60% des étapes de mise à jour et définir un nouveau score de pointe de 60,4 dans les 5 000 étapes. En revanche, la vanille PPO n’a marqué que 5 points en raison de l’effondrement de l’apprentissage du modèle de valeur.


Cette référence demande si l’IA peut penser comme un ingénieur


Des études d’ablation ont confirmé l’efficacité de sept modifications distinctes au sein du vapo. Le prélèvement de valeur empêche l’effondrement du modèle; Le GAE découplé permet une optimisation complète des longues réponses; Boulances de GAE adaptatives à l’optimisation de la réponse courte et longue; Clip plus élevé encourage une exploration approfondie; La perte au niveau des jetons augmente la pondération pour les longues réponses; L’incorporation de la perte de LM à l’exemple positif a ajouté 6 points; Et l’échantillonnage de groupe a contribué 5 points au score final.

Chercheurs souligner Le vapo, en utilisant le modèle QWEN2.5-32b, démontre que cette approche basée sur la valeur peut surpasser de manière décisive des méthodes sans valeur telles que GRPO et DAPO, établissant un nouveau niveau de performance pour des tâches de raisonnement complexes et relever des défis fondamentaux dans les modèles de valeur de formation pour les scénarios à longue chaîne de chaîne.


Crédit d’image en vedette

Tags: Bytedancevapo

Related Posts

JWST identifie SN Eos : la supernova la plus lointaine jamais confirmée par spectroscopie

JWST identifie SN Eos : la supernova la plus lointaine jamais confirmée par spectroscopie

janvier 21, 2026
Miggo Security contourne les défenses de Google Gemini via les invitations de calendrier

Miggo Security contourne les défenses de Google Gemini via les invitations de calendrier

janvier 21, 2026
Analyste Forrester : l’IA n’a pas réussi à faire avancer la productivité mondiale

Analyste Forrester : l’IA n’a pas réussi à faire avancer la productivité mondiale

janvier 20, 2026
Comment l'IA a créé le malware VoidLink en seulement sept jours

Comment l'IA a créé le malware VoidLink en seulement sept jours

janvier 20, 2026
OpenAI GPT 5.2 résout le problème mathématique d'Erdő en 15 minutes

OpenAI GPT 5.2 résout le problème mathématique d'Erdő en 15 minutes

janvier 19, 2026
Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

janvier 15, 2026

Recent Posts

  • Barret Zoph dirigera le pivot commercial agressif d'OpenAI
  • Substack s'installe dans le salon avec le lancement de l'application bêta TV
  • LiveKit est valorisé à 1 milliard de dollars en tant que moteur du mode vocal de ChatGPT
  • Vimeo commence à licencier du personnel suite à l'acquisition de Bending Spoons
  • AWS et Prime Video frappés alors qu'Amazon prépare une nouvelle vague de licenciements

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.