Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Deepseek libère un modèle R1 formé pour 294 000 $ sur 512 GPU H800

byAytun Çelebi
septembre 19, 2025
in Intelligence Artificielle
Home Nouvelles Intelligence Artificielle
Share on FacebookShare on Twitter
Google Preferred Source

La société chinoise Deepseek AI a publié son modèle de grande langue, R1, qui a été formé pour seulement 294 000 $ en utilisant 512 GPU NVIDIA H800. Dans un article publié dans la revue Naturela société a expliqué comment elle réalisait ce faible coût en utilisant une méthode d’apprentissage par renforcement d’essai et d’erreur, permettant au modèle d’obtenir des performances concurrentielles contre des concurrents avec des budgets beaucoup plus importants, comme OpenAI.

Comment fonctionne la méthode d’apprentissage du renforcement de Deepseek

L’innovation clé de Deepseek était de s’éloigner du processus coûteux et à forte intensité humaine de création d’ensembles de données annotés. Les modèles d’IA traditionnels pour les tâches de raisonnement sont souvent formés sur de vastes ensembles de données où les experts humains fournissent des solutions étape par étape à des problèmes complexes. Au lieu de cela, Deepseek a développé un système d’apprentissage autonome qui utilise l’apprentissage du renforcement pour affiner les compétences de raisonnement du modèle à travers un système de récompenses et de pénalités. Des chercheurs de l’Université Carnegie Mellon, dans un article accompagnant le document de la nature, ont comparé le processus à un enfant apprenant à jouer à un jeu vidéo.

« Alors que l’enfant navigue dans son avatar à travers le monde du jeu, il apprend par essais et erreurs que certaines actions (comme la collecte de pièces d’or) gagnent des points, tandis que d’autres (comme la rencontre dans les ennemis) ont mis leur score à zéro. Dans un score similaire, Deepseek-R1 a reçu un score élevé lorsqu’il a répondu aux questions correctement et à un score faible lorsque cela a donné de mauvaises réponses. »

Cette méthode était particulièrement efficace pour les tâches en mathématiques et en programmation, où les réponses peuvent être définitivement vérifiées comme bonnes ou mal. Le modèle générerait des solutions potentielles, qui ont ensuite été évaluées par un système de notation automatisé. Il irait ensuite sur son approche jusqu’à ce qu’il atteigne le score le plus élevé, le tout sans intervention humaine. Ce processus efficace et autonome a permis à l’entreprise de construire un puissant système d’IA avec une fraction de l’investissement requis par ses concurrents.

Limitations et préoccupations concernant le modèle

Bien que l’approche d’apprentissage par renforcement s’est avérée rentable, elle a également certaines limites. Les résultats du modèle cachent souvent les étapes de raisonnement sous-jacentes, ce qui rend difficile pour un humain de comprendre comment il est arrivé à une conclusion. Lorsqu’on lui a demandé de fournir son raisonnement, R1 a généré des explications extrêmement longues et difficiles à lire – parfois plus de 10 000 mots – qui a basculé entre l’anglais et le chinois. La technique a également lutté avec des tâches nécessitant des nuances ou de la subjectivité, où il n’y a pas de réponse « correcte ». Au-delà de ses limites techniques, le développement du modèle en Chine a soulevé des préoccupations concernant l’influence potentielle du gouvernement. Un récent rapport du Washington Post a révélé que R1 présentait des biais dans ses résultats. Les chercheurs ont découvert que le modèle refuserait de générer du code avec des défauts de sécurité majeurs lorsque les invites impliquaient des groupes considérés comme sensibles par les autorités chinoises. Cependant, lorsqu’on lui a demandé de créer du code pour des entités comme le Tibet, Taiwan ou le mouvement religieux Falun Gong, le modèle a produit des versions moins sécurisées avec des vulnérabilités intégrées. Cela suggère que le comportement du modèle peut être façonné par les priorités politiques du gouvernement chinois.


Crédit d’image en vedette

Tags: en profondeurEn vedette

Related Posts

Anthropic invite 150 organisations supplémentaires à participer au projet Glasswing

Anthropic invite 150 organisations supplémentaires à participer au projet Glasswing

juin 3, 2026
Microsoft dévoile le projet Solara pour un avenir axé sur les agents

Microsoft dévoile le projet Solara pour un avenir axé sur les agents

juin 3, 2026
Google permettra aux sites Web de se désinscrire des résultats de recherche de l’IA

Google permettra aux sites Web de se désinscrire des résultats de recherche de l’IA

juin 3, 2026
OpenAI étend le Codex avec des plug-ins d’entreprise et une nouvelle fonctionnalité Sites

OpenAI étend le Codex avec des plug-ins d’entreprise et une nouvelle fonctionnalité Sites

juin 3, 2026
Meta corrige une faille d’IA qui a permis le rachat de comptes Instagram

Meta corrige une faille d’IA qui a permis le rachat de comptes Instagram

juin 2, 2026
Un package Codex populaire surpris en train d’exfiltrer les informations d’authentification

Un package Codex populaire surpris en train d’exfiltrer les informations d’authentification

juin 2, 2026

Recent Posts

  • Les règles de désinscription de la recherche Google AI déclenchent le lancement du navigateur Enviromates
  • Sony révèle God of War : Laufey pour PS5
  • Les chercheurs débloquent une amélioration 20 fois supérieure dans des expériences laser ultrarapides
  • Microsoft dévoile Surface RTX Spark Dev Box pour les charges de travail d’IA
  • Les nouvelles puces Core Ultra d’Intel seraient rares

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.