Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

ByTedance Vapo: la mise à niveau de l’IA dont vous entendrez bientôt parler

byKerem Gülen
avril 11, 2025
in Research
Home Research

Les chercheurs en semences de Bytedance ont déployé la valeur de la valeur augmentée de la politique proximale (VAPO), un cadre de formation d’apprentissage en renforcement conçu pour affiner le raisonnement des modèles de grande langue sur des tâches complexes et longues, obtenant de nouveaux résultats de pointe sur la référence AIME24.

Formation LLMS pour un raisonnement complexe en utilisant l’apprentissage par renforcement basé sur la valeur auparavant confronté à des obstacles importants. Les méthodes ont lutté avec le biais du modèle de valeur, l’adaptation efficace aux séquences de réponse de longueurs très variables et la gestion des signaux de récompense clairsemés, en particulier dans les tâches basées sur les vérificateurs ne fournissant que des commentaires binaires.

VAPO relève ces défis grâce à trois innovations de base: un cadre de formation basé sur la valeur détaillée, un mécanisme d’estimation généralisée de la longueur d’estimation des avantages généralisés (GAE) ajusté les paramètres basés sur la longueur de la réponse et l’intégration systématique des techniques à partir de recherches antérieures.

Cette combinaison crée un système où les améliorations fonctionnent en synergie. En utilisant le modèle QWEN2.5-32B sans données SFT spécifiques, VAPO a amélioré les scores de référence de 5 à 60, dépassant les méthodes antérieures de pointe de 10 points.

VAPO s’appuie sur l’algorithme d’optimisation de la politique proximale (PPO) mais intègre des modifications clés pour améliorer le raisonnement mathématique. L’analyse de la formation a révélé que VAPO présente des courbes de formation plus lisses par rapport à la méthode DAPO sans valeur, indiquant une optimisation plus stable.

Vapo a également démontré une meilleure mise à l’échelle de longueur pour une généralisation améliorée, une croissance plus rapide du score attribuable aux signaux granulaires de son modèle de valeur et une entropie inférieure aux étapes de formation ultérieures. Bien que l’entropie réduite puisse potentiellement limiter l’exploration, la méthode équilibre effectivement cela, améliorant la reproductibilité et la stabilité avec un impact sur les performances minimales.

Bytedance-vapo-the-a-upgrade-youll-hear-up-soon
Image: semences de bydance

Sur la référence AIME24, Deepseek R1 en utilisant GRPO a atteint 47 points et Dapo a atteint 50 points. Vapo, en utilisant le modèle QWEN-32B, a fait correspondre les performances de DAPO avec seulement 60% des étapes de mise à jour et définir un nouveau score de pointe de 60,4 dans les 5 000 étapes. En revanche, la vanille PPO n’a marqué que 5 points en raison de l’effondrement de l’apprentissage du modèle de valeur.


Cette référence demande si l’IA peut penser comme un ingénieur


Des études d’ablation ont confirmé l’efficacité de sept modifications distinctes au sein du vapo. Le prélèvement de valeur empêche l’effondrement du modèle; Le GAE découplé permet une optimisation complète des longues réponses; Boulances de GAE adaptatives à l’optimisation de la réponse courte et longue; Clip plus élevé encourage une exploration approfondie; La perte au niveau des jetons augmente la pondération pour les longues réponses; L’incorporation de la perte de LM à l’exemple positif a ajouté 6 points; Et l’échantillonnage de groupe a contribué 5 points au score final.

Chercheurs souligner Le vapo, en utilisant le modèle QWEN2.5-32b, démontre que cette approche basée sur la valeur peut surpasser de manière décisive des méthodes sans valeur telles que GRPO et DAPO, établissant un nouveau niveau de performance pour des tâches de raisonnement complexes et relever des défis fondamentaux dans les modèles de valeur de formation pour les scénarios à longue chaîne de chaîne.


Crédit d’image en vedette

Tags: Bytedancevapo

Related Posts

L’IA résout enfin le puzzle le plus difficile de la biologie

L’IA résout enfin le puzzle le plus difficile de la biologie

mai 6, 2025
Le chef-d’œuvre de Raphael n’est peut-être pas tout son

Le chef-d’œuvre de Raphael n’est peut-être pas tout son

mai 5, 2025
Recherche: l’étalon-or pour l’évaluation du Genai

Recherche: l’étalon-or pour l’évaluation du Genai

mai 2, 2025
L’IA nous fait-il tous écrire la même?

L’IA nous fait-il tous écrire la même?

mai 1, 2025
GPT-4 aide les chercheurs à décoder la façon dont nous nous déplaçons réellement dans l’espace

GPT-4 aide les chercheurs à décoder la façon dont nous nous déplaçons réellement dans l’espace

mai 1, 2025
Pourquoi nous devons gouverner l’IA utilisée dans les entreprises technologiques

Pourquoi nous devons gouverner l’IA utilisée dans les entreprises technologiques

avril 29, 2025

Recent Posts

  • Les publicités NextDoor obtiennent un bouclier de sécurité alimenté en AI de IAS
  • Infrastructure d’apprentissage automatique
  • Réseaux de neurones auprès de la mémoire (Manns)
  • Apprentissage automatique dans les tests de logiciels
  • Points de contrôle de l’apprentissage automatique

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.