Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

DeepSeek révèle l'architecture MODEL1 dans la mise à jour de GitHub avant la V4

byKerem Gülen
janvier 21, 2026
in Intelligence Artificielle, Nouvelles
Home Nouvelles Intelligence Artificielle
Share on FacebookShare on Twitter
Google Preferred Source

DeepSeek a révélé les détails d'un nouveau modèle désigné « MODEL1 » grâce à des mises à jour récentes de sa base de code FlashMLA sur GitHub. L'identifiant « MODEL1 » apparaît 28 fois dans 114 fichiers du référentiel, marquant cette divulgation à l'occasion du premier anniversaire de la version R1 de l'entreprise. Ce développement fait suite à des informations selon lesquelles DeepSeek prévoit de lancer son modèle V4 de nouvelle génération vers la mi-février 2026, coïncidant avec le Nouvel An lunaire. L'analyse de la base de code mise à jour par les développeurs indique que MODEL1 présente une architecture distincte de DeepSeek-V3.2, nommée « V32 » dans le référentiel. Les divergences de logique du code suggèrent des changements dans la disposition du cache clé-valeur, la gestion de la parcimonie et le décodage du format de données FP8, pointant vers une restructuration pour l'optimisation de la mémoire et l'efficacité des calculs. Chercheurs de la communauté LocalLLaMA de Reddit noté la mise à jour du code source FlashMLA a ajouté une prise en charge étendue de MODEL1, y compris la compatibilité avec la prochaine architecture Blackwell de Nvidia (SM100) et les puces Hopper actuelles. Les changements montreraient que MODEL1 reviendrait à une dimension standard unifiée 512 et introduireait des fonctionnalités de « Value Vector Position Awareness », ainsi que des implémentations potentielles du système de mémoire conditionnelle « Engram » récemment publié par DeepSeek. Le référentiel FlashMLA, qui héberge le noyau de décodage Multi-Head Latent Attention de DeepSeek optimisé pour les GPU Nvidia Hopper, était à l'origine des indices techniques. Le modèle V4 de DeepSeek devrait intégrer l'architecture Engram, qui facilite une récupération efficace à partir de contextes dépassant un million de jetons en utilisant un système de recherche de faits fondamentaux plutôt que de les recalculer par le biais de calculs. Des tests internes effectués par les employés de DeepSeek suggèrent que la V4 pourrait surpasser les modèles concurrents d'Anthropic et d'OpenAI sur les tests de codage, en particulier avec de longues invites de code. La révélation de MODEL1 se produit alors que DeepSeek approche d'un an depuis ses débuts R1 en janvier 2025. La version R1 a entraîné une réduction de 593 milliards de dollars de la valeur marchande de Nvidia en un seul jour, selon ITPro. Le modèle R1 de DeepSeek aurait coûté moins de 6 millions de dollars pour s'entraîner et aurait atteint des performances égales ou supérieures au modèle o1 d'OpenAI sur les tests de mathématiques et de codage. La société a ensuite publié la V3.1 en août et la V3.2 en décembre, la V3.2 étant décrite comme offrant des performances équivalentes à celles du GPT-5 d'OpenAI. DeepSeek n'a pas officiellement commenté le MODEL1 ni confirmé le calendrier de sortie spécifique de la V4.


Crédit image en vedette

Tags: modèle1recherche profonde

Related Posts

Sony révèle God of War : Laufey pour PS5

Sony révèle God of War : Laufey pour PS5

juin 3, 2026
Microsoft dévoile Surface RTX Spark Dev Box pour les charges de travail d’IA

Microsoft dévoile Surface RTX Spark Dev Box pour les charges de travail d’IA

juin 3, 2026
Anthropic invite 150 organisations supplémentaires à participer au projet Glasswing

Anthropic invite 150 organisations supplémentaires à participer au projet Glasswing

juin 3, 2026
June Android Drop apporte des outils de sécurité et des fonctionnalités de recherche plus intelligentes

June Android Drop apporte des outils de sécurité et des fonctionnalités de recherche plus intelligentes

juin 3, 2026
Microsoft dévoile le projet Solara pour un avenir axé sur les agents

Microsoft dévoile le projet Solara pour un avenir axé sur les agents

juin 3, 2026
X lance des réponses vidéo de style TikTok pour les publications

X lance des réponses vidéo de style TikTok pour les publications

juin 3, 2026

Recent Posts

  • Les règles de désinscription de la recherche Google AI déclenchent le lancement du navigateur Enviromates
  • Sony révèle God of War : Laufey pour PS5
  • Les chercheurs débloquent une amélioration 20 fois supérieure dans des expériences laser ultrarapides
  • Microsoft dévoile Surface RTX Spark Dev Box pour les charges de travail d’IA
  • Les nouvelles puces Core Ultra d’Intel seraient rares

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.