DeepSeek révèle l'architecture MODEL1 dans la mise à jour de GitHub avant la V4

DeepSeek a révélé les détails d'un nouveau modèle désigné « MODEL1 » grâce à des mises à jour récentes de sa base de code FlashMLA sur GitHub. L'identifiant « MODEL1 » apparaît 28 fois dans 114 fichiers du référentiel, marquant cette divulgation à l'occasion du premier anniversaire de la version R1 de l'entreprise. Ce développement fait suite à des informations selon lesquelles DeepSeek prévoit de lancer son modèle V4 de nouvelle génération vers la mi-février 2026, coïncidant avec le Nouvel An lunaire. L'analyse de la base de code mise à jour par les développeurs indique que MODEL1 présente une architecture distincte de DeepSeek-V3.2, nommée « V32 » dans le référentiel. Les divergences de logique du code suggèrent des changements dans la disposition du cache clé-valeur, la gestion de la parcimonie et le décodage du format de données FP8, pointant vers une restructuration pour l'optimisation de la mémoire et l'efficacité des calculs. Chercheurs de la communauté LocalLLaMA de Reddit noté la mise à jour du code source FlashMLA a ajouté une prise en charge étendue de MODEL1, y compris la compatibilité avec la prochaine architecture Blackwell de Nvidia (SM100) et les puces Hopper actuelles. Les changements montreraient que MODEL1 reviendrait à une dimension standard unifiée 512 et introduireait des fonctionnalités de « Value Vector Position Awareness », ainsi que des implémentations potentielles du système de mémoire conditionnelle « Engram » récemment publié par DeepSeek. Le référentiel FlashMLA, qui héberge le noyau de décodage Multi-Head Latent Attention de DeepSeek optimisé pour les GPU Nvidia Hopper, était à l'origine des indices techniques. Le modèle V4 de DeepSeek devrait intégrer l'architecture Engram, qui facilite une récupération efficace à partir de contextes dépassant un million de jetons en utilisant un système de recherche de faits fondamentaux plutôt que de les recalculer par le biais de calculs. Des tests internes effectués par les employés de DeepSeek suggèrent que la V4 pourrait surpasser les modèles concurrents d'Anthropic et d'OpenAI sur les tests de codage, en particulier avec de longues invites de code. La révélation de MODEL1 se produit alors que DeepSeek approche d'un an depuis ses débuts R1 en janvier 2025. La version R1 a entraîné une réduction de 593 milliards de dollars de la valeur marchande de Nvidia en un seul jour, selon ITPro. Le modèle R1 de DeepSeek aurait coûté moins de 6 millions de dollars pour s'entraîner et aurait atteint des performances égales ou supérieures au modèle o1 d'OpenAI sur les tests de mathématiques et de codage. La société a ensuite publié la V3.1 en août et la V3.2 en décembre, la V3.2 étant décrite comme offrant des performances équivalentes à celles du GPT-5 d'OpenAI. DeepSeek n'a pas officiellement commenté le MODEL1 ni confirmé le calendrier de sortie spécifique de la V4.

Crédit image en vedette

Tags: modèle1 recherche profonde

DeepSeek révèle l'architecture MODEL1 dans la mise à jour de GitHub avant la V4

Related Posts

Netflix lance le vote interactif en temps réel pour la première en direct de Star Search

Netflix prévoit une refonte de son application mobile en 2026 pour stimuler l'engagement quotidien des utilisateurs

OpenAI impose des filtres de sécurité aux adolescents via la prédiction comportementale de l'âge

Setapp Mobile cessera ses activités dans l'UE d'ici le 16 février

Samsung fuit puis supprime la refonte de Bixby avec la recherche Perplexity

Altman rompt avec sa position anti-publicité "sponsorisé" liens ci-dessous les réponses ChatGPT

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

DeepSeek révèle l'architecture MODEL1 dans la mise à jour de GitHub avant la V4

Related Posts

Netflix lance le vote interactif en temps réel pour la première en direct de Star Search

Netflix prévoit une refonte de son application mobile en 2026 pour stimuler l'engagement quotidien des utilisateurs

OpenAI impose des filtres de sécurité aux adolescents via la prédiction comportementale de l'âge

Setapp Mobile cessera ses activités dans l'UE d'ici le 16 février

Samsung fuit puis supprime la refonte de Bixby avec la recherche Perplexity

Altman rompt avec sa position anti-publicité "sponsorisé" liens ci-dessous les réponses ChatGPT

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us