Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Tencent lance Hunyuan 2.0 avec des paramètres 406B

byKerem Gülen
décembre 8, 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

Tencent a publié Hunyuan 2.0, un grand modèle de langage avec 406 milliards de paramètres au total, le 5 décembre. Cette mise à jour cible les progrès en mathématiques, en codage et en raisonnement complexe grâce à une architecture de mélange d’experts et des méthodes de formation raffinées. Le modèle se décline en deux variantes : Réfléchir et Instruire. Son architecture active 32 milliards de paramètres lors de chaque inférence, permettant un traitement efficace. Il prend en charge une fenêtre contextuelle de 256 000 jetons, permettant la gestion d’entrées étendues sans troncature. Tencent positionne HY 2.0 Think parmi les « meilleurs au niveau national » pour les tâches de raisonnement complexes. Cette version surpasse son prédécesseur, Hunyuan-T1-20250822, dans plusieurs domaines d’évaluation. Sur le benchmark mathématique IMO-AnswerBench, HY 2.0 Think a enregistré un score de 73,4, reflétant de fortes capacités de résolution de problèmes dans les domaines mathématiques. Dans les évaluations de génie logiciel, les performances se sont nettement améliorées par rapport au benchmark SWE-bench Verified, passant de 6,0 pour le modèle précédent à 53,0. Cette amélioration démontre une meilleure précision dans la génération et le débogage du code pour les défis de programmation du monde réel. https://twitter.com/TencentHunyuan/status/1996948083377332614 Tencent attribue ces progrès à l’amélioration de la qualité des données de pré-formation et à une approche d’apprentissage par renforcement en deux étapes. Cette stratégie intègre le RLVR, ou Reinforcement Learning with Verifiable Rewards, qui utilise des mesures objectives pour la formation, et le RLHF, ou Reinforcement Learning from Human Feedback, intégrant des évaluations humaines pour affiner les résultats. HY 2.0 Think applique des stratégies de pénalité de longueur pour éviter une verbosité excessive dans les réponses, ce qui aboutit à ce que Tencent appelle une efficacité de calcul par jeton « de pointe dans l’industrie ». Cette conception optimise l’utilisation des ressources pendant la génération, réduisant ainsi le temps et les coûts de traitement. Les fonctionnalités de codage et d’agent ont également progressé, le score Tau2-Bench passant de 17,1 à 72,4. Ces métriques évaluent l’exécution autonome des tâches et les interactions liées au code. L’intégration s’étend aux applications grand public de Tencent, telles que Yuanbao et ima, où le modèle améliore les interactions des utilisateurs. Les développeurs peuvent y accéder via la plateforme API de Tencent Cloud pour des implémentations personnalisées. Tencent prévoit d’ouvrir les technologies et les modèles associés pour une utilisation communautaire.


Crédit image en vedette

Tags: Hunyuan 2.0tencent

Related Posts

Le Qwen Code v0.5.0 d’Alibaba transforme le terminal en un écosystème de développement complet

Le Qwen Code v0.5.0 d’Alibaba transforme le terminal en un écosystème de développement complet

décembre 26, 2025
ChatGPT évolue vers une suite bureautique avec de nouveaux blocs de formatage

ChatGPT évolue vers une suite bureautique avec de nouveaux blocs de formatage

décembre 26, 2025
Google NotebookLM présente "Mode conférence" pour un apprentissage de l’IA de 30 minutes

Google NotebookLM présente "Mode conférence" pour un apprentissage de l’IA de 30 minutes

décembre 26, 2025
Le robotaxis Waymo pourrait bénéficier de l’assistant embarqué Gemini AI

Le robotaxis Waymo pourrait bénéficier de l’assistant embarqué Gemini AI

décembre 26, 2025
Pourquoi NVIDIA abandonne Intel 18A pour ses puces IA de nouvelle génération

Pourquoi NVIDIA abandonne Intel 18A pour ses puces IA de nouvelle génération

décembre 25, 2025
ChatGPT pour gagner en Claude "Compétences" fonctionnalité

ChatGPT pour gagner en Claude "Compétences" fonctionnalité

décembre 25, 2025

Recent Posts

  • Le Qwen Code v0.5.0 d’Alibaba transforme le terminal en un écosystème de développement complet
  • Bethesda vise 600 heures de jeu pour Fallout 5
  • ASUS défend le port d’alimentation mal aligné du RTX 5090 HyperX comme "conception intentionnelle"
  • NVIDIA open source CUDA Tile IR sur GitHub
  • Le PDG de MicroStrategy explique les fondamentaux du Bitcoin "ça ne pourrait pas être mieux"

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.