Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

DeepSeek présente les hyper-connexions à contraintes multiples pour R2

byKerem Gülen
janvier 6, 2026
in News, Research
Home News
Share on FacebookShare on Twitter

Juste avant le début de la nouvelle année, la communauté de l’intelligence artificielle a découvert une avancée potentielle dans la formation de modèles. Une équipe de chercheurs de la société chinoise d’IA DeepSeek a publié une papier décrivant une nouvelle approche architecturale appelée Manifold-Constrained Hyper-Connections, ou mHC en abrégé. Cette nouvelle méthodologie pourrait permettre aux ingénieurs de créer et de mettre à l'échelle de grands modèles de langage sans les coûts de calcul et les capitaux prohibitifs généralement requis.

DeepSeek a attiré l'attention culturelle pour la première fois il y a un an avec la sortie de R1. Ce modèle rivalisait avec les capacités du o1 d'OpenAI, mais aurait été formé à une fraction du coût. Cette publication a été un choc pour les développeurs basés aux États-Unis, car elle remettait en question l’hypothèse selon laquelle seules des réserves massives de capital et de matériel pourraient produire une IA de pointe. L'article mHC récemment publié, hébergé sur le serveur de préimpression arXiv, pourrait servir de cadre technologique pour le prochain modèle de DeepSeek, R2. Le modèle R2 était initialement attendu pour la mi-2025, mais a été reporté, apparemment en raison des inquiétudes du PDG Liang Wenfeng concernant les performances et l'accès limité de la Chine aux puces d'IA avancées.

Le nouveau document tente de combler une lacune technique complexe qui entrave actuellement l’évolutivité de l’IA. Les grands modèles de langage reposent sur des réseaux de neurones conçus pour conserver les signaux sur plusieurs couches. Cependant, à mesure que le modèle s'agrandit et que de nouvelles couches sont ajoutées, le signal peut s'atténuer ou se dégrader, augmentant ainsi le risque qu'il se transforme en bruit. Les chercheurs comparent cela à un jeu de « téléphone » : plus il y a de personnes impliquées dans la chaîne, plus il y a de chances que le message original soit confus ou altéré. Le principal défi technique consiste à optimiser le compromis entre plasticité et stabilité, en garantissant que les signaux sont conservés sur autant de couches que possible sans dégradation.

Les auteurs de l'article, dont le PDG Liang Wenfeng, ont construit leurs recherches sur les hyper-connexions (HC), un cadre introduit en 2024 par des chercheurs de ByteDance. Les HC standards diversifient les canaux par lesquels les couches de réseaux neuronaux partagent des informations, mais ils introduisent un risque de perte de signal et entraînent des coûts de mémoire élevés qui les rendent difficiles à mettre en œuvre à grande échelle. L'architecture mHC de DeepSeek vise à résoudre ce problème en limitant l'hyperconnectivité au sein d'un modèle. Cette approche préserve la complexité informationnelle permise par les HC tout en évitant les problèmes de mémoire, permettant la formation de modèles très complexes d'une manière pratique même pour les développeurs disposant de ressources limitées.

Les débuts du cadre mHC suggèrent un tournant dans l’évolution du développement de l’IA. Jusqu’à récemment, l’opinion dominante dans l’industrie était que seules les entreprises les plus riches pouvaient se permettre de construire des modèles pionniers. DeepSeek continue de démontrer que des percées peuvent être réalisées grâce à une ingénierie intelligente plutôt qu’à une force financière brute. En publiant cette recherche, DeepSeek a mis la méthode mHC à la disposition des petits développeurs, démocratisant ainsi potentiellement l'accès aux capacités avancées d'IA si cette architecture s'avère efficace dans le modèle R2 attendu.


Crédit image en vedette

Tags: IArecherche profonde

Related Posts

XBrew Lab dévoile une machine à café nitro sans cartouche au CES 2026

XBrew Lab dévoile une machine à café nitro sans cartouche au CES 2026

janvier 9, 2026
Google transforme Gmail avec AI Inbox et la recherche en langage naturel

Google transforme Gmail avec AI Inbox et la recherche en langage naturel

janvier 9, 2026
TikTok signe un partenariat avec la FIFA pour les temps forts de la Coupe du Monde

TikTok signe un partenariat avec la FIFA pour les temps forts de la Coupe du Monde

janvier 9, 2026
Dell lance une infrastructure désagrégée pour les centres de données modernes

Dell lance une infrastructure désagrégée pour les centres de données modernes

janvier 9, 2026
Xbox Developer Direct revient le 22 janvier avec Fable et Forza Horizon 6

Xbox Developer Direct revient le 22 janvier avec Fable et Forza Horizon 6

janvier 9, 2026
YouTube vous permet désormais de masquer les Shorts dans les résultats de recherche

YouTube vous permet désormais de masquer les Shorts dans les résultats de recherche

janvier 9, 2026

Recent Posts

  • XBrew Lab dévoile une machine à café nitro sans cartouche au CES 2026
  • Snowflake va acquérir la plateforme d'observabilité Observe
  • Google transforme Gmail avec AI Inbox et la recherche en langage naturel
  • L'UE et le Royaume-Uni enquêtent sur X en raison du manque de garanties de Grok
  • TikTok signe un partenariat avec la FIFA pour les temps forts de la Coupe du Monde

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.