Deepseek V3.1 rival GPT-5 avec un modèle de paramètre 685b

En janvier 2025, Deepseek, une startup de l’IA chinoise, a lancé R1, un modèle d’IA qui rivalisait avec les LLM de haut niveau d’Openai et Anthropic. Construit à une fraction du coût avec moins de puces Nvidia, Deepseek a maintenant publié la v3.1, une mise à jour de son modèle v3 phare, au prix de l’Openai, et optimisée pour les puces de fabrication chinoise.

La V3.1 de Deepseek a été tranquillement lancée via un message sur WeChat, une messagerie chinoise et une application sociale de premier plan, et sur la plate-forme de visage étreint. Ce développement souligne plusieurs récits clés dans le paysage actuel de l’IA. Les efforts de Deepseek sont au cœur de l’ambition de la Chine de développer et de contrôler les systèmes d’IA avancés indépendamment de la technologie étrangère.

Le nouveau modèle Deepseek V3 est spécifiquement optimisé pour se produire efficacement sur les puces de fabrication chinoise, reflétant l’évolution stratégique de la Chine vers l’auto-affaire technologique. Bien que les entreprises américaines aient montré une réticence à adopter les modèles de Deepseek, ils ont gagné une traction considérable en Chine et sont de plus en plus utilisés dans d’autres régions du monde entier. Certaines entreprises américaines ont même intégré le modèle de raisonnement R1 de Deepseek dans leurs applications. Les chercheurs, cependant, avertissent que les résultats de ces modèles s’alignent souvent étroitement avec les récits approuvés par le Parti communiste chinois, ce qui soulève des préoccupations concernant leur neutralité et leur fiabilité.

Les ambitions de l’IA de la Chine s’étendent au-delà de Deepseek, avec d’autres modèles notables, notamment Qwen d’Alibaba, Kimi de Moonshot Ai et Ernie de Baidu. La récente sortie de Deepseek, suivant de près après Lancement du GPT-5 d’Openaimet l’accent sur l’engagement de la Chine à maintenir le rythme ou à dépasser les laboratoires de l’IA. Le déploiement de GPT-5 n’a pas réussi les attentes de l’industrie, soulignant davantage l’importance des progrès de Deepseek.

Le PDG d’OpenAI, Sam Altman, a reconnu que la concurrence des modèles open-source chinoises, a inclus Deepseek, a influencé la décision d’Openai de publier ses propres modèles ouverts. Lors d’une récente discussion avec les journalistes, Altman a déclaré que si OpenAI n’avait pas franchi cette étape, le paysage de l’IA serait probablement dominé par les modèles chinois open-source. Il a souligné que cette considération était un facteur important dans leur processus décisionnel.

Le gouvernement américain a accordé aux licences NVIDIA et AMD d’exporter des puces d’IA spécifiques vers la Chine, y compris le H20 de Nvidia. Ces licences sont conditionnelles aux entreprises qui acceptent de remettre 15% des revenus de ces ventes au gouvernement américain. En réponse, Pékin a décidé de restreindre les achats de puces Nvidia. Cela a suivi la déclaration du secrétaire du Commerce Howard Lutnick sur Cnbc que les États-Unis ne vendent pas la Chine de la meilleure technologie de la meilleure, la meilleure ou même la meilleure.

L’optimisation de Deepseek pour les puces de fabrication chinoise indique une décision stratégique pour contrer les contrôles des exportations américaines et réduire la dépendance à Nvidia. La société a déclaré dans son annonce WeChat que le nouveau format modèle est optimisé pour «les puces nationales de nouvelle génération qui seront bientôt publiées».

Altman a exprimé ses préoccupations sur le fait que les États-Unis pourraient sous-estimer la complexité et l’importance des progrès de la Chine dans l’IA. Il a averti que les contrôles à l’exportation pourraient ne pas être suffisants pour relever les défis posés par les progrès rapides de la Chine. Il a exprimé ses préoccupations concernant les capacités croissantes de la Chine dans le domaine de l’intelligence artificielle.

Le modèle Deepseek V3.1 intègre des progrès techniques qui sont principalement bénéfiques pour les développeurs. Ces innovations visent à réduire les coûts opérationnels et à améliorer la polyvalence par rapport à de nombreux modèles concurrents fermés et plus chers. V3.1 a 685 milliards de paramètres, le plaçant parmi les meilleurs modèles «frontière». Sa conception de «mélange des experts» active qu’une fraction du modèle pour chaque requête, réduisant les coûts informatiques pour les développeurs. Contrairement aux modèles Deepseek précédents qui séparaient les tâches nécessitant des réponses instantanées de ceux qui ont besoin d’un raisonnement étape par étape, V3.1 intègre les deux capacités dans un seul système.

GPT-5, ainsi que des modèles récents d’Anthropic et Google, présentent également cette capacité intégrée. Cependant, peu de modèles ouverts ont atteint ce niveau d’intégration. Ben Dickson, fondateur du blog TechTalks, décrit l’architecture hybride de V3.1 comme «la plus grande fonctionnalité de loin».

William Falcon, fondateur et PDG de Lightning AI, a noté que les améliorations continues de Deepseek sont remarquables, même si V3.1 n’est pas un saut aussi significatif que le modèle R1 précédent. Il a déclaré que la société continue de faire des «améliorations non marginales», ce qui est impressionnant. Falcon prévoit qu’Openai répondra si son modèle open-source commence à prendre un retard de manière significative. Il a également souligné que le modèle Deepseek est plus difficile pour les développeurs de se déployer en production par rapport à la version d’Openai, qui est relativement facile à déployer.

La sortie de Deepseek met en évidence la perception croissante de l’IA en tant que composante clé d’une concurrence technologique entre les États-Unis et la Chine. Le fait que les entreprises chinoises prétendent construire des modèles d’IA supérieurs à un coût réduit nous donnent des raisons d’évaluer soigneusement leur stratégie pour maintenir le leadership dans le domaine.

Crédit d’image en vedette