Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Deepseek libère un modèle R1 formé pour 294 000 $ sur 512 GPU H800

byAytun Çelebi
septembre 19, 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

La société chinoise Deepseek AI a publié son modèle de grande langue, R1, qui a été formé pour seulement 294 000 $ en utilisant 512 GPU NVIDIA H800. Dans un article publié dans la revue Naturela société a expliqué comment elle réalisait ce faible coût en utilisant une méthode d’apprentissage par renforcement d’essai et d’erreur, permettant au modèle d’obtenir des performances concurrentielles contre des concurrents avec des budgets beaucoup plus importants, comme OpenAI.

Comment fonctionne la méthode d’apprentissage du renforcement de Deepseek

L’innovation clé de Deepseek était de s’éloigner du processus coûteux et à forte intensité humaine de création d’ensembles de données annotés. Les modèles d’IA traditionnels pour les tâches de raisonnement sont souvent formés sur de vastes ensembles de données où les experts humains fournissent des solutions étape par étape à des problèmes complexes. Au lieu de cela, Deepseek a développé un système d’apprentissage autonome qui utilise l’apprentissage du renforcement pour affiner les compétences de raisonnement du modèle à travers un système de récompenses et de pénalités. Des chercheurs de l’Université Carnegie Mellon, dans un article accompagnant le document de la nature, ont comparé le processus à un enfant apprenant à jouer à un jeu vidéo.

« Alors que l’enfant navigue dans son avatar à travers le monde du jeu, il apprend par essais et erreurs que certaines actions (comme la collecte de pièces d’or) gagnent des points, tandis que d’autres (comme la rencontre dans les ennemis) ont mis leur score à zéro. Dans un score similaire, Deepseek-R1 a reçu un score élevé lorsqu’il a répondu aux questions correctement et à un score faible lorsque cela a donné de mauvaises réponses. »

Cette méthode était particulièrement efficace pour les tâches en mathématiques et en programmation, où les réponses peuvent être définitivement vérifiées comme bonnes ou mal. Le modèle générerait des solutions potentielles, qui ont ensuite été évaluées par un système de notation automatisé. Il irait ensuite sur son approche jusqu’à ce qu’il atteigne le score le plus élevé, le tout sans intervention humaine. Ce processus efficace et autonome a permis à l’entreprise de construire un puissant système d’IA avec une fraction de l’investissement requis par ses concurrents.

Limitations et préoccupations concernant le modèle

Bien que l’approche d’apprentissage par renforcement s’est avérée rentable, elle a également certaines limites. Les résultats du modèle cachent souvent les étapes de raisonnement sous-jacentes, ce qui rend difficile pour un humain de comprendre comment il est arrivé à une conclusion. Lorsqu’on lui a demandé de fournir son raisonnement, R1 a généré des explications extrêmement longues et difficiles à lire – parfois plus de 10 000 mots – qui a basculé entre l’anglais et le chinois. La technique a également lutté avec des tâches nécessitant des nuances ou de la subjectivité, où il n’y a pas de réponse « correcte ». Au-delà de ses limites techniques, le développement du modèle en Chine a soulevé des préoccupations concernant l’influence potentielle du gouvernement. Un récent rapport du Washington Post a révélé que R1 présentait des biais dans ses résultats. Les chercheurs ont découvert que le modèle refuserait de générer du code avec des défauts de sécurité majeurs lorsque les invites impliquaient des groupes considérés comme sensibles par les autorités chinoises. Cependant, lorsqu’on lui a demandé de créer du code pour des entités comme le Tibet, Taiwan ou le mouvement religieux Falun Gong, le modèle a produit des versions moins sécurisées avec des vulnérabilités intégrées. Cela suggère que le comportement du modèle peut être façonné par les priorités politiques du gouvernement chinois.


Crédit d’image en vedette

Tags: en profondeurEn vedette

Related Posts

Le robotaxis Waymo pourrait bénéficier de l’assistant embarqué Gemini AI

Le robotaxis Waymo pourrait bénéficier de l’assistant embarqué Gemini AI

décembre 26, 2025
Pourquoi NVIDIA abandonne Intel 18A pour ses puces IA de nouvelle génération

Pourquoi NVIDIA abandonne Intel 18A pour ses puces IA de nouvelle génération

décembre 25, 2025
ChatGPT pour gagner en Claude "Compétences" fonctionnalité

ChatGPT pour gagner en Claude "Compétences" fonctionnalité

décembre 25, 2025
Le pape Léon XIV prépare un monument "Magnifica Humanitas" encyclique sur l’IA

Le pape Léon XIV prépare un monument "Magnifica Humanitas" encyclique sur l’IA

décembre 25, 2025
Google révèle "en forme de pilule" bouton pour les sessions Gemini persistantes

Google révèle "en forme de pilule" bouton pour les sessions Gemini persistantes

décembre 25, 2025
Amazon ajoute Angi, Expedia, Square et Yelp à Alexa+

Amazon ajoute Angi, Expedia, Square et Yelp à Alexa+

décembre 24, 2025

Recent Posts

  • La publicité de vacances Porsche 2025 devient virale car elle n’utilise absolument aucune IA
  • Le jeu en nuage Xbox arrive sur les modèles Amazon Fire TV
  • La violation de données Aflac a touché 22,65 millions de clients
  • La panne d’AWS perturbe Fortnite et Steam
  • Les scientifiques découvrent plus de 17 000 nouvelles espèces

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.