Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

DeepSeek présente les hyper-connexions à contraintes multiples pour R2

byKerem Gülen
janvier 6, 2026
in News, Research
Home News
Share on FacebookShare on Twitter

Juste avant le début de la nouvelle année, la communauté de l’intelligence artificielle a découvert une avancée potentielle dans la formation de modèles. Une équipe de chercheurs de la société chinoise d’IA DeepSeek a publié une papier décrivant une nouvelle approche architecturale appelée Manifold-Constrained Hyper-Connections, ou mHC en abrégé. Cette nouvelle méthodologie pourrait permettre aux ingénieurs de créer et de mettre à l'échelle de grands modèles de langage sans les coûts de calcul et les capitaux prohibitifs généralement requis.

DeepSeek a attiré l'attention culturelle pour la première fois il y a un an avec la sortie de R1. Ce modèle rivalisait avec les capacités du o1 d'OpenAI, mais aurait été formé à une fraction du coût. Cette publication a été un choc pour les développeurs basés aux États-Unis, car elle remettait en question l’hypothèse selon laquelle seules des réserves massives de capital et de matériel pourraient produire une IA de pointe. L'article mHC récemment publié, hébergé sur le serveur de préimpression arXiv, pourrait servir de cadre technologique pour le prochain modèle de DeepSeek, R2. Le modèle R2 était initialement attendu pour la mi-2025, mais a été reporté, apparemment en raison des inquiétudes du PDG Liang Wenfeng concernant les performances et l'accès limité de la Chine aux puces d'IA avancées.

Le nouveau document tente de combler une lacune technique complexe qui entrave actuellement l’évolutivité de l’IA. Les grands modèles de langage reposent sur des réseaux de neurones conçus pour conserver les signaux sur plusieurs couches. Cependant, à mesure que le modèle s'agrandit et que de nouvelles couches sont ajoutées, le signal peut s'atténuer ou se dégrader, augmentant ainsi le risque qu'il se transforme en bruit. Les chercheurs comparent cela à un jeu de « téléphone » : plus il y a de personnes impliquées dans la chaîne, plus il y a de chances que le message original soit confus ou altéré. Le principal défi technique consiste à optimiser le compromis entre plasticité et stabilité, en garantissant que les signaux sont conservés sur autant de couches que possible sans dégradation.

Les auteurs de l'article, dont le PDG Liang Wenfeng, ont construit leurs recherches sur les hyper-connexions (HC), un cadre introduit en 2024 par des chercheurs de ByteDance. Les HC standards diversifient les canaux par lesquels les couches de réseaux neuronaux partagent des informations, mais ils introduisent un risque de perte de signal et entraînent des coûts de mémoire élevés qui les rendent difficiles à mettre en œuvre à grande échelle. L'architecture mHC de DeepSeek vise à résoudre ce problème en limitant l'hyperconnectivité au sein d'un modèle. Cette approche préserve la complexité informationnelle permise par les HC tout en évitant les problèmes de mémoire, permettant la formation de modèles très complexes d'une manière pratique même pour les développeurs disposant de ressources limitées.

Les débuts du cadre mHC suggèrent un tournant dans l’évolution du développement de l’IA. Jusqu’à récemment, l’opinion dominante dans l’industrie était que seules les entreprises les plus riches pouvaient se permettre de construire des modèles pionniers. DeepSeek continue de démontrer que des percées peuvent être réalisées grâce à une ingénierie intelligente plutôt qu’à une force financière brute. En publiant cette recherche, DeepSeek a mis la méthode mHC à la disposition des petits développeurs, démocratisant ainsi potentiellement l'accès aux capacités avancées d'IA si cette architecture s'avère efficace dans le modèle R2 attendu.


Crédit image en vedette

Tags: IArecherche profonde

Related Posts

La panne de Verizon de 10 heures est enfin résolue

La panne de Verizon de 10 heures est enfin résolue

janvier 15, 2026
Netflix lance des podcasts vidéo mettant en vedette Pete Davidson et Michael Irvin

Netflix lance des podcasts vidéo mettant en vedette Pete Davidson et Michael Irvin

janvier 15, 2026
Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

janvier 15, 2026
Digg lance une version bêta publique ouverte en tant que rival de Reddit sans toxicité

Digg lance une version bêta publique ouverte en tant que rival de Reddit sans toxicité

janvier 15, 2026
NVIDIA force la mise à niveau des graphiques RTX avec la version officielle DLSS 4.5

NVIDIA force la mise à niveau des graphiques RTX avec la version officielle DLSS 4.5

janvier 15, 2026
OpenAI lance ChatGPT Translate autonome

OpenAI lance ChatGPT Translate autonome

janvier 15, 2026

Recent Posts

  • La panne de Verizon de 10 heures est enfin résolue
  • OpenAI annonce un accord Cerebras de 10 milliards de dollars pour un calcul de 750 MW
  • Netflix lance des podcasts vidéo mettant en vedette Pete Davidson et Michael Irvin
  • Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars
  • Digg lance une version bêta publique ouverte en tant que rival de Reddit sans toxicité

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.