Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

DeepSeek présente les hyper-connexions à contraintes multiples pour R2

byKerem Gülen
janvier 6, 2026
in Nouvelles, Recherche
Home Nouvelles
Share on FacebookShare on Twitter
Google Preferred Source

Juste avant le début de la nouvelle année, la communauté de l’intelligence artificielle a découvert une avancée potentielle dans la formation de modèles. Une équipe de chercheurs de la société chinoise d’IA DeepSeek a publié une papier décrivant une nouvelle approche architecturale appelée Manifold-Constrained Hyper-Connections, ou mHC en abrégé. Cette nouvelle méthodologie pourrait permettre aux ingénieurs de créer et de mettre à l'échelle de grands modèles de langage sans les coûts de calcul et les capitaux prohibitifs généralement requis.

DeepSeek a attiré l'attention culturelle pour la première fois il y a un an avec la sortie de R1. Ce modèle rivalisait avec les capacités du o1 d'OpenAI, mais aurait été formé à une fraction du coût. Cette publication a été un choc pour les développeurs basés aux États-Unis, car elle remettait en question l’hypothèse selon laquelle seules des réserves massives de capital et de matériel pourraient produire une IA de pointe. L'article mHC récemment publié, hébergé sur le serveur de préimpression arXiv, pourrait servir de cadre technologique pour le prochain modèle de DeepSeek, R2. Le modèle R2 était initialement attendu pour la mi-2025, mais a été reporté, apparemment en raison des inquiétudes du PDG Liang Wenfeng concernant les performances et l'accès limité de la Chine aux puces d'IA avancées.

Le nouveau document tente de combler une lacune technique complexe qui entrave actuellement l’évolutivité de l’IA. Les grands modèles de langage reposent sur des réseaux de neurones conçus pour conserver les signaux sur plusieurs couches. Cependant, à mesure que le modèle s'agrandit et que de nouvelles couches sont ajoutées, le signal peut s'atténuer ou se dégrader, augmentant ainsi le risque qu'il se transforme en bruit. Les chercheurs comparent cela à un jeu de « téléphone » : plus il y a de personnes impliquées dans la chaîne, plus il y a de chances que le message original soit confus ou altéré. Le principal défi technique consiste à optimiser le compromis entre plasticité et stabilité, en garantissant que les signaux sont conservés sur autant de couches que possible sans dégradation.

Les auteurs de l'article, dont le PDG Liang Wenfeng, ont construit leurs recherches sur les hyper-connexions (HC), un cadre introduit en 2024 par des chercheurs de ByteDance. Les HC standards diversifient les canaux par lesquels les couches de réseaux neuronaux partagent des informations, mais ils introduisent un risque de perte de signal et entraînent des coûts de mémoire élevés qui les rendent difficiles à mettre en œuvre à grande échelle. L'architecture mHC de DeepSeek vise à résoudre ce problème en limitant l'hyperconnectivité au sein d'un modèle. Cette approche préserve la complexité informationnelle permise par les HC tout en évitant les problèmes de mémoire, permettant la formation de modèles très complexes d'une manière pratique même pour les développeurs disposant de ressources limitées.

Les débuts du cadre mHC suggèrent un tournant dans l’évolution du développement de l’IA. Jusqu’à récemment, l’opinion dominante dans l’industrie était que seules les entreprises les plus riches pouvaient se permettre de construire des modèles pionniers. DeepSeek continue de démontrer que des percées peuvent être réalisées grâce à une ingénierie intelligente plutôt qu’à une force financière brute. En publiant cette recherche, DeepSeek a mis la méthode mHC à la disposition des petits développeurs, démocratisant ainsi potentiellement l'accès aux capacités avancées d'IA si cette architecture s'avère efficace dans le modèle R2 attendu.


Crédit image en vedette

Tags: IArecherche profonde

Related Posts

Sony révèle God of War : Laufey pour PS5

Sony révèle God of War : Laufey pour PS5

juin 3, 2026
Les chercheurs débloquent une amélioration 20 fois supérieure dans des expériences laser ultrarapides

Les chercheurs débloquent une amélioration 20 fois supérieure dans des expériences laser ultrarapides

juin 3, 2026
Microsoft dévoile Surface RTX Spark Dev Box pour les charges de travail d’IA

Microsoft dévoile Surface RTX Spark Dev Box pour les charges de travail d’IA

juin 3, 2026
Anthropic invite 150 organisations supplémentaires à participer au projet Glasswing

Anthropic invite 150 organisations supplémentaires à participer au projet Glasswing

juin 3, 2026
June Android Drop apporte des outils de sécurité et des fonctionnalités de recherche plus intelligentes

June Android Drop apporte des outils de sécurité et des fonctionnalités de recherche plus intelligentes

juin 3, 2026
Microsoft dévoile le projet Solara pour un avenir axé sur les agents

Microsoft dévoile le projet Solara pour un avenir axé sur les agents

juin 3, 2026

Recent Posts

  • Les règles de désinscription de la recherche Google AI déclenchent le lancement du navigateur Enviromates
  • Sony révèle God of War : Laufey pour PS5
  • Les chercheurs débloquent une amélioration 20 fois supérieure dans des expériences laser ultrarapides
  • Microsoft dévoile Surface RTX Spark Dev Box pour les charges de travail d’IA
  • Les nouvelles puces Core Ultra d’Intel seraient rares

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.