DeepSeek révèle l'architecture MODEL1 dans la mise à jour de GitHub avant la V4

DeepSeek a révélé les détails d'un nouveau modèle désigné « MODEL1 » grâce à des mises à jour récentes de sa base de code FlashMLA sur GitHub. L'identifiant « MODEL1 » apparaît 28 fois dans 114 fichiers du référentiel, marquant cette divulgation à l'occasion du premier anniversaire de la version R1 de l'entreprise. Ce développement fait suite à des informations selon lesquelles DeepSeek prévoit de lancer son modèle V4 de nouvelle génération vers la mi-février 2026, coïncidant avec le Nouvel An lunaire. L'analyse de la base de code mise à jour par les développeurs indique que MODEL1 présente une architecture distincte de DeepSeek-V3.2, nommée « V32 » dans le référentiel. Les divergences de logique du code suggèrent des changements dans la disposition du cache clé-valeur, la gestion de la parcimonie et le décodage du format de données FP8, pointant vers une restructuration pour l'optimisation de la mémoire et l'efficacité des calculs. Chercheurs de la communauté LocalLLaMA de Reddit noté la mise à jour du code source FlashMLA a ajouté une prise en charge étendue de MODEL1, y compris la compatibilité avec la prochaine architecture Blackwell de Nvidia (SM100) et les puces Hopper actuelles. Les changements montreraient que MODEL1 reviendrait à une dimension standard unifiée 512 et introduireait des fonctionnalités de « Value Vector Position Awareness », ainsi que des implémentations potentielles du système de mémoire conditionnelle « Engram » récemment publié par DeepSeek. Le référentiel FlashMLA, qui héberge le noyau de décodage Multi-Head Latent Attention de DeepSeek optimisé pour les GPU Nvidia Hopper, était à l'origine des indices techniques. Le modèle V4 de DeepSeek devrait intégrer l'architecture Engram, qui facilite une récupération efficace à partir de contextes dépassant un million de jetons en utilisant un système de recherche de faits fondamentaux plutôt que de les recalculer par le biais de calculs. Des tests internes effectués par les employés de DeepSeek suggèrent que la V4 pourrait surpasser les modèles concurrents d'Anthropic et d'OpenAI sur les tests de codage, en particulier avec de longues invites de code. La révélation de MODEL1 se produit alors que DeepSeek approche d'un an depuis ses débuts R1 en janvier 2025. La version R1 a entraîné une réduction de 593 milliards de dollars de la valeur marchande de Nvidia en un seul jour, selon ITPro. Le modèle R1 de DeepSeek aurait coûté moins de 6 millions de dollars pour s'entraîner et aurait atteint des performances égales ou supérieures au modèle o1 d'OpenAI sur les tests de mathématiques et de codage. La société a ensuite publié la V3.1 en août et la V3.2 en décembre, la V3.2 étant décrite comme offrant des performances équivalentes à celles du GPT-5 d'OpenAI. DeepSeek n'a pas officiellement commenté le MODEL1 ni confirmé le calendrier de sortie spécifique de la V4.

Crédit image en vedette

No Result