Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Deepseek libère un modèle R1 formé pour 294 000 $ sur 512 GPU H800

byAytun Çelebi
septembre 19, 2025
in Intelligence Artificielle
Home Nouvelles Intelligence Artificielle
Share on FacebookShare on Twitter
Google Preferred Source

La société chinoise Deepseek AI a publié son modèle de grande langue, R1, qui a été formé pour seulement 294 000 $ en utilisant 512 GPU NVIDIA H800. Dans un article publié dans la revue Naturela société a expliqué comment elle réalisait ce faible coût en utilisant une méthode d’apprentissage par renforcement d’essai et d’erreur, permettant au modèle d’obtenir des performances concurrentielles contre des concurrents avec des budgets beaucoup plus importants, comme OpenAI.

Comment fonctionne la méthode d’apprentissage du renforcement de Deepseek

L’innovation clé de Deepseek était de s’éloigner du processus coûteux et à forte intensité humaine de création d’ensembles de données annotés. Les modèles d’IA traditionnels pour les tâches de raisonnement sont souvent formés sur de vastes ensembles de données où les experts humains fournissent des solutions étape par étape à des problèmes complexes. Au lieu de cela, Deepseek a développé un système d’apprentissage autonome qui utilise l’apprentissage du renforcement pour affiner les compétences de raisonnement du modèle à travers un système de récompenses et de pénalités. Des chercheurs de l’Université Carnegie Mellon, dans un article accompagnant le document de la nature, ont comparé le processus à un enfant apprenant à jouer à un jeu vidéo.

« Alors que l’enfant navigue dans son avatar à travers le monde du jeu, il apprend par essais et erreurs que certaines actions (comme la collecte de pièces d’or) gagnent des points, tandis que d’autres (comme la rencontre dans les ennemis) ont mis leur score à zéro. Dans un score similaire, Deepseek-R1 a reçu un score élevé lorsqu’il a répondu aux questions correctement et à un score faible lorsque cela a donné de mauvaises réponses. »

Cette méthode était particulièrement efficace pour les tâches en mathématiques et en programmation, où les réponses peuvent être définitivement vérifiées comme bonnes ou mal. Le modèle générerait des solutions potentielles, qui ont ensuite été évaluées par un système de notation automatisé. Il irait ensuite sur son approche jusqu’à ce qu’il atteigne le score le plus élevé, le tout sans intervention humaine. Ce processus efficace et autonome a permis à l’entreprise de construire un puissant système d’IA avec une fraction de l’investissement requis par ses concurrents.

Limitations et préoccupations concernant le modèle

Bien que l’approche d’apprentissage par renforcement s’est avérée rentable, elle a également certaines limites. Les résultats du modèle cachent souvent les étapes de raisonnement sous-jacentes, ce qui rend difficile pour un humain de comprendre comment il est arrivé à une conclusion. Lorsqu’on lui a demandé de fournir son raisonnement, R1 a généré des explications extrêmement longues et difficiles à lire – parfois plus de 10 000 mots – qui a basculé entre l’anglais et le chinois. La technique a également lutté avec des tâches nécessitant des nuances ou de la subjectivité, où il n’y a pas de réponse « correcte ». Au-delà de ses limites techniques, le développement du modèle en Chine a soulevé des préoccupations concernant l’influence potentielle du gouvernement. Un récent rapport du Washington Post a révélé que R1 présentait des biais dans ses résultats. Les chercheurs ont découvert que le modèle refuserait de générer du code avec des défauts de sécurité majeurs lorsque les invites impliquaient des groupes considérés comme sensibles par les autorités chinoises. Cependant, lorsqu’on lui a demandé de créer du code pour des entités comme le Tibet, Taiwan ou le mouvement religieux Falun Gong, le modèle a produit des versions moins sécurisées avec des vulnérabilités intégrées. Cela suggère que le comportement du modèle peut être façonné par les priorités politiques du gouvernement chinois.


Crédit d’image en vedette

Tags: en profondeurEn vedette

Related Posts

OpenAI étend ses efforts en matière de cybersécurité avec Patch the Planet

OpenAI étend ses efforts en matière de cybersécurité avec Patch the Planet

juin 24, 2026
ByteDance lance le modèle de langage Doubao 2.1 Pro

ByteDance lance le modèle de langage Doubao 2.1 Pro

juin 24, 2026
Claude Tag apporte un assistant IA partagé aux chaînes Slack

Claude Tag apporte un assistant IA partagé aux chaînes Slack

juin 24, 2026
Getty Images s’associe à OpenAI pour fournir des visuels sous licence pour ChatGPT

Getty Images s’associe à OpenAI pour fournir des visuels sous licence pour ChatGPT

juin 23, 2026
Samsung adopte ChatGPT Enterprise et Codex pour l’ensemble de ses effectifs mondiaux

Samsung adopte ChatGPT Enterprise et Codex pour l’ensemble de ses effectifs mondiaux

juin 22, 2026
Les Gémeaux sont-ils en panne ? Les utilisateurs signalent des problèmes avec Google Gemini

Les Gémeaux sont-ils en panne ? Les utilisateurs signalent des problèmes avec Google Gemini

juin 17, 2026

Recent Posts

  • Meta lance des lunettes intelligentes à 299 $ sous sa propre marque
  • Meta charge une équipe de créer Arena, une application de marché de prédiction
  • Les consommateurs européens pourraient abandonner les entreprises faisant appel à des fournisseurs de technologie américains
  • La hausse des températures augmente le refroidissement des centres de données et les risques de panne
  • OpenAI étend ses efforts en matière de cybersécurité avec Patch the Planet

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.