DeepSeek présente les hyper-connexions à contraintes multiples pour R2

Juste avant le début de la nouvelle année, la communauté de l’intelligence artificielle a découvert une avancée potentielle dans la formation de modèles. Une équipe de chercheurs de la société chinoise d’IA DeepSeek a publié une papier décrivant une nouvelle approche architecturale appelée Manifold-Constrained Hyper-Connections, ou mHC en abrégé. Cette nouvelle méthodologie pourrait permettre aux ingénieurs de créer et de mettre à l'échelle de grands modèles de langage sans les coûts de calcul et les capitaux prohibitifs généralement requis.

DeepSeek a attiré l'attention culturelle pour la première fois il y a un an avec la sortie de R1. Ce modèle rivalisait avec les capacités du o1 d'OpenAI, mais aurait été formé à une fraction du coût. Cette publication a été un choc pour les développeurs basés aux États-Unis, car elle remettait en question l’hypothèse selon laquelle seules des réserves massives de capital et de matériel pourraient produire une IA de pointe. L'article mHC récemment publié, hébergé sur le serveur de préimpression arXiv, pourrait servir de cadre technologique pour le prochain modèle de DeepSeek, R2. Le modèle R2 était initialement attendu pour la mi-2025, mais a été reporté, apparemment en raison des inquiétudes du PDG Liang Wenfeng concernant les performances et l'accès limité de la Chine aux puces d'IA avancées.

Le nouveau document tente de combler une lacune technique complexe qui entrave actuellement l’évolutivité de l’IA. Les grands modèles de langage reposent sur des réseaux de neurones conçus pour conserver les signaux sur plusieurs couches. Cependant, à mesure que le modèle s'agrandit et que de nouvelles couches sont ajoutées, le signal peut s'atténuer ou se dégrader, augmentant ainsi le risque qu'il se transforme en bruit. Les chercheurs comparent cela à un jeu de « téléphone » : plus il y a de personnes impliquées dans la chaîne, plus il y a de chances que le message original soit confus ou altéré. Le principal défi technique consiste à optimiser le compromis entre plasticité et stabilité, en garantissant que les signaux sont conservés sur autant de couches que possible sans dégradation.

Les auteurs de l'article, dont le PDG Liang Wenfeng, ont construit leurs recherches sur les hyper-connexions (HC), un cadre introduit en 2024 par des chercheurs de ByteDance. Les HC standards diversifient les canaux par lesquels les couches de réseaux neuronaux partagent des informations, mais ils introduisent un risque de perte de signal et entraînent des coûts de mémoire élevés qui les rendent difficiles à mettre en œuvre à grande échelle. L'architecture mHC de DeepSeek vise à résoudre ce problème en limitant l'hyperconnectivité au sein d'un modèle. Cette approche préserve la complexité informationnelle permise par les HC tout en évitant les problèmes de mémoire, permettant la formation de modèles très complexes d'une manière pratique même pour les développeurs disposant de ressources limitées.

Les débuts du cadre mHC suggèrent un tournant dans l’évolution du développement de l’IA. Jusqu’à récemment, l’opinion dominante dans l’industrie était que seules les entreprises les plus riches pouvaient se permettre de construire des modèles pionniers. DeepSeek continue de démontrer que des percées peuvent être réalisées grâce à une ingénierie intelligente plutôt qu’à une force financière brute. En publiant cette recherche, DeepSeek a mis la méthode mHC à la disposition des petits développeurs, démocratisant ainsi potentiellement l'accès aux capacités avancées d'IA si cette architecture s'avère efficace dans le modèle R2 attendu.

Crédit image en vedette

Tags: IA recherche profonde

DeepSeek présente les hyper-connexions à contraintes multiples pour R2

Related Posts

Microsoft teste la nouvelle fonctionnalité PC Insights de Copilot dans Windows 11

OpenAI abandonne le navigateur Atlas pour se concentrer sur la nouvelle superapplication ChatGPT

La nouvelle théorie de la matière noire propose deux types de particules

La fuite du Pixel 11 montre des couleurs vives magenta et pêche

Le champ de recherche de Windows 11 est moins encombré et plus de contrôle

La mise à jour de l’algorithme X vise à rendre les réponses plus conviviales

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

DeepSeek présente les hyper-connexions à contraintes multiples pour R2

Related Posts

Microsoft teste la nouvelle fonctionnalité PC Insights de Copilot dans Windows 11

OpenAI abandonne le navigateur Atlas pour se concentrer sur la nouvelle superapplication ChatGPT

La nouvelle théorie de la matière noire propose deux types de particules

La fuite du Pixel 11 montre des couleurs vives magenta et pêche

Le champ de recherche de Windows 11 est moins encombré et plus de contrôle

La mise à jour de l’algorithme X vise à rendre les réponses plus conviviales

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us