Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Deepseek libère un modèle R1 formé pour 294 000 $ sur 512 GPU H800

byAytun Çelebi
septembre 19, 2025
in Artificial Intelligence
Home Artificial Intelligence

La société chinoise Deepseek AI a publié son modèle de grande langue, R1, qui a été formé pour seulement 294 000 $ en utilisant 512 GPU NVIDIA H800. Dans un article publié dans la revue Naturela société a expliqué comment elle réalisait ce faible coût en utilisant une méthode d’apprentissage par renforcement d’essai et d’erreur, permettant au modèle d’obtenir des performances concurrentielles contre des concurrents avec des budgets beaucoup plus importants, comme OpenAI.

Comment fonctionne la méthode d’apprentissage du renforcement de Deepseek

L’innovation clé de Deepseek était de s’éloigner du processus coûteux et à forte intensité humaine de création d’ensembles de données annotés. Les modèles d’IA traditionnels pour les tâches de raisonnement sont souvent formés sur de vastes ensembles de données où les experts humains fournissent des solutions étape par étape à des problèmes complexes. Au lieu de cela, Deepseek a développé un système d’apprentissage autonome qui utilise l’apprentissage du renforcement pour affiner les compétences de raisonnement du modèle à travers un système de récompenses et de pénalités. Des chercheurs de l’Université Carnegie Mellon, dans un article accompagnant le document de la nature, ont comparé le processus à un enfant apprenant à jouer à un jeu vidéo.

« Alors que l’enfant navigue dans son avatar à travers le monde du jeu, il apprend par essais et erreurs que certaines actions (comme la collecte de pièces d’or) gagnent des points, tandis que d’autres (comme la rencontre dans les ennemis) ont mis leur score à zéro. Dans un score similaire, Deepseek-R1 a reçu un score élevé lorsqu’il a répondu aux questions correctement et à un score faible lorsque cela a donné de mauvaises réponses. »

Cette méthode était particulièrement efficace pour les tâches en mathématiques et en programmation, où les réponses peuvent être définitivement vérifiées comme bonnes ou mal. Le modèle générerait des solutions potentielles, qui ont ensuite été évaluées par un système de notation automatisé. Il irait ensuite sur son approche jusqu’à ce qu’il atteigne le score le plus élevé, le tout sans intervention humaine. Ce processus efficace et autonome a permis à l’entreprise de construire un puissant système d’IA avec une fraction de l’investissement requis par ses concurrents.

Limitations et préoccupations concernant le modèle

Bien que l’approche d’apprentissage par renforcement s’est avérée rentable, elle a également certaines limites. Les résultats du modèle cachent souvent les étapes de raisonnement sous-jacentes, ce qui rend difficile pour un humain de comprendre comment il est arrivé à une conclusion. Lorsqu’on lui a demandé de fournir son raisonnement, R1 a généré des explications extrêmement longues et difficiles à lire – parfois plus de 10 000 mots – qui a basculé entre l’anglais et le chinois. La technique a également lutté avec des tâches nécessitant des nuances ou de la subjectivité, où il n’y a pas de réponse « correcte ». Au-delà de ses limites techniques, le développement du modèle en Chine a soulevé des préoccupations concernant l’influence potentielle du gouvernement. Un récent rapport du Washington Post a révélé que R1 présentait des biais dans ses résultats. Les chercheurs ont découvert que le modèle refuserait de générer du code avec des défauts de sécurité majeurs lorsque les invites impliquaient des groupes considérés comme sensibles par les autorités chinoises. Cependant, lorsqu’on lui a demandé de créer du code pour des entités comme le Tibet, Taiwan ou le mouvement religieux Falun Gong, le modèle a produit des versions moins sécurisées avec des vulnérabilités intégrées. Cela suggère que le comportement du modèle peut être façonné par les priorités politiques du gouvernement chinois.


Crédit d’image en vedette

Tags: en profondeurEn vedette

Related Posts

Google Cloud ajoute des clients adorables et alcoolisés en tant que clients de codage AI

Google Cloud ajoute des clients adorables et alcoolisés en tant que clients de codage AI

septembre 19, 2025
Zoom annonce AI Companion 3.0 à Zoomtopia

Zoom annonce AI Companion 3.0 à Zoomtopia

septembre 19, 2025
Le chatbot Xai Chatbot d’Elon Musk a exposé des centaines de milliers de conversations d’utilisateurs privés

Le chatbot Xai Chatbot d’Elon Musk a exposé des centaines de milliers de conversations d’utilisateurs privés

septembre 19, 2025
L’AI Gemini de Google atteint la médaille d’or dans la prestigieuse compétition de codage ICPC, surpassant la plupart des équipes humaines

L’AI Gemini de Google atteint la médaille d’or dans la prestigieuse compétition de codage ICPC, surpassant la plupart des équipes humaines

septembre 18, 2025
Les laboratoires AI investissent dans des environnements RL pour les agents autonomes

Les laboratoires AI investissent dans des environnements RL pour les agents autonomes

septembre 17, 2025
L’échelle AI sécurise 100 millions de dollars de contrat du pentagone pour le déploiement de la plate-forme d’IA

L’échelle AI sécurise 100 millions de dollars de contrat du pentagone pour le déploiement de la plate-forme d’IA

septembre 17, 2025

Recent Posts

  • Deepseek libère un modèle R1 formé pour 294 000 $ sur 512 GPU H800
  • NVIDIA dépense plus de 900 millions de dollars pour embaucher le PDG d’Enfabrica et Liced AI Hardware Technology
  • Roblox Game Vol A Braintrot supprime le personnage généré par l’AI, le contrecoup de ventilateurs et un débat sur le droit d’auteur
  • La recherche Openai trouve que les modèles d’IA peuvent schémage et tromper délibérément les utilisateurs
  • Radware Tricks de la recherche approfondie de Chatgpt sur la fuite de données Gmail

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.