Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

DeepSeek révèle l'architecture MODEL1 dans la mise à jour de GitHub avant la V4

byKerem Gülen
janvier 21, 2026
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

DeepSeek a révélé les détails d'un nouveau modèle désigné « MODEL1 » grâce à des mises à jour récentes de sa base de code FlashMLA sur GitHub. L'identifiant « MODEL1 » apparaît 28 fois dans 114 fichiers du référentiel, marquant cette divulgation à l'occasion du premier anniversaire de la version R1 de l'entreprise. Ce développement fait suite à des informations selon lesquelles DeepSeek prévoit de lancer son modèle V4 de nouvelle génération vers la mi-février 2026, coïncidant avec le Nouvel An lunaire. L'analyse de la base de code mise à jour par les développeurs indique que MODEL1 présente une architecture distincte de DeepSeek-V3.2, nommée « V32 » dans le référentiel. Les divergences de logique du code suggèrent des changements dans la disposition du cache clé-valeur, la gestion de la parcimonie et le décodage du format de données FP8, pointant vers une restructuration pour l'optimisation de la mémoire et l'efficacité des calculs. Chercheurs de la communauté LocalLLaMA de Reddit noté la mise à jour du code source FlashMLA a ajouté une prise en charge étendue de MODEL1, y compris la compatibilité avec la prochaine architecture Blackwell de Nvidia (SM100) et les puces Hopper actuelles. Les changements montreraient que MODEL1 reviendrait à une dimension standard unifiée 512 et introduireait des fonctionnalités de « Value Vector Position Awareness », ainsi que des implémentations potentielles du système de mémoire conditionnelle « Engram » récemment publié par DeepSeek. Le référentiel FlashMLA, qui héberge le noyau de décodage Multi-Head Latent Attention de DeepSeek optimisé pour les GPU Nvidia Hopper, était à l'origine des indices techniques. Le modèle V4 de DeepSeek devrait intégrer l'architecture Engram, qui facilite une récupération efficace à partir de contextes dépassant un million de jetons en utilisant un système de recherche de faits fondamentaux plutôt que de les recalculer par le biais de calculs. Des tests internes effectués par les employés de DeepSeek suggèrent que la V4 pourrait surpasser les modèles concurrents d'Anthropic et d'OpenAI sur les tests de codage, en particulier avec de longues invites de code. La révélation de MODEL1 se produit alors que DeepSeek approche d'un an depuis ses débuts R1 en janvier 2025. La version R1 a entraîné une réduction de 593 milliards de dollars de la valeur marchande de Nvidia en un seul jour, selon ITPro. Le modèle R1 de DeepSeek aurait coûté moins de 6 millions de dollars pour s'entraîner et aurait atteint des performances égales ou supérieures au modèle o1 d'OpenAI sur les tests de mathématiques et de codage. La société a ensuite publié la V3.1 en août et la V3.2 en décembre, la V3.2 étant décrite comme offrant des performances équivalentes à celles du GPT-5 d'OpenAI. DeepSeek n'a pas officiellement commenté le MODEL1 ni confirmé le calendrier de sortie spécifique de la V4.


Crédit image en vedette

Tags: modèle1recherche profonde

Related Posts

Netflix lance le vote interactif en temps réel pour la première en direct de Star Search

Netflix lance le vote interactif en temps réel pour la première en direct de Star Search

janvier 21, 2026
Netflix prévoit une refonte de son application mobile en 2026 pour stimuler l'engagement quotidien des utilisateurs

Netflix prévoit une refonte de son application mobile en 2026 pour stimuler l'engagement quotidien des utilisateurs

janvier 21, 2026
OpenAI impose des filtres de sécurité aux adolescents via la prédiction comportementale de l'âge

OpenAI impose des filtres de sécurité aux adolescents via la prédiction comportementale de l'âge

janvier 21, 2026
Setapp Mobile cessera ses activités dans l'UE d'ici le 16 février

Setapp Mobile cessera ses activités dans l'UE d'ici le 16 février

janvier 21, 2026
Samsung fuit puis supprime la refonte de Bixby avec la recherche Perplexity

Samsung fuit puis supprime la refonte de Bixby avec la recherche Perplexity

janvier 21, 2026
Altman rompt avec sa position anti-publicité "sponsorisé" liens ci-dessous les réponses ChatGPT

Altman rompt avec sa position anti-publicité "sponsorisé" liens ci-dessous les réponses ChatGPT

janvier 21, 2026

Recent Posts

  • Netflix lance le vote interactif en temps réel pour la première en direct de Star Search
  • Snap paie des millions pour régler un procès contre la toxicomanie d'un adolescent
  • Le PDG d'Anthropic critique les États-Unis et Nvidia pour les ventes de puces IA à la Chine
  • Netflix prévoit une refonte de son application mobile en 2026 pour stimuler l'engagement quotidien des utilisateurs
  • OpenAI impose des filtres de sécurité aux adolescents via la prédiction comportementale de l'âge

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.