La société chinoise Deepseek AI a publié son modèle de grande langue, R1, qui a été formé pour seulement 294 000 $ en utilisant 512 GPU NVIDIA H800. Dans un article publié dans la revue Naturela société a expliqué comment elle réalisait ce faible coût en utilisant une méthode d’apprentissage par renforcement d’essai et d’erreur, permettant au modèle d’obtenir des performances concurrentielles contre des concurrents avec des budgets beaucoup plus importants, comme OpenAI.
Comment fonctionne la méthode d’apprentissage du renforcement de Deepseek
L’innovation clé de Deepseek était de s’éloigner du processus coûteux et à forte intensité humaine de création d’ensembles de données annotés. Les modèles d’IA traditionnels pour les tâches de raisonnement sont souvent formés sur de vastes ensembles de données où les experts humains fournissent des solutions étape par étape à des problèmes complexes. Au lieu de cela, Deepseek a développé un système d’apprentissage autonome qui utilise l’apprentissage du renforcement pour affiner les compétences de raisonnement du modèle à travers un système de récompenses et de pénalités. Des chercheurs de l’Université Carnegie Mellon, dans un article accompagnant le document de la nature, ont comparé le processus à un enfant apprenant à jouer à un jeu vidéo.
« Alors que l’enfant navigue dans son avatar à travers le monde du jeu, il apprend par essais et erreurs que certaines actions (comme la collecte de pièces d’or) gagnent des points, tandis que d’autres (comme la rencontre dans les ennemis) ont mis leur score à zéro. Dans un score similaire, Deepseek-R1 a reçu un score élevé lorsqu’il a répondu aux questions correctement et à un score faible lorsque cela a donné de mauvaises réponses. »
Cette méthode était particulièrement efficace pour les tâches en mathématiques et en programmation, où les réponses peuvent être définitivement vérifiées comme bonnes ou mal. Le modèle générerait des solutions potentielles, qui ont ensuite été évaluées par un système de notation automatisé. Il irait ensuite sur son approche jusqu’à ce qu’il atteigne le score le plus élevé, le tout sans intervention humaine. Ce processus efficace et autonome a permis à l’entreprise de construire un puissant système d’IA avec une fraction de l’investissement requis par ses concurrents.
Limitations et préoccupations concernant le modèle
Bien que l’approche d’apprentissage par renforcement s’est avérée rentable, elle a également certaines limites. Les résultats du modèle cachent souvent les étapes de raisonnement sous-jacentes, ce qui rend difficile pour un humain de comprendre comment il est arrivé à une conclusion. Lorsqu’on lui a demandé de fournir son raisonnement, R1 a généré des explications extrêmement longues et difficiles à lire – parfois plus de 10 000 mots – qui a basculé entre l’anglais et le chinois. La technique a également lutté avec des tâches nécessitant des nuances ou de la subjectivité, où il n’y a pas de réponse « correcte ». Au-delà de ses limites techniques, le développement du modèle en Chine a soulevé des préoccupations concernant l’influence potentielle du gouvernement. Un récent rapport du Washington Post a révélé que R1 présentait des biais dans ses résultats. Les chercheurs ont découvert que le modèle refuserait de générer du code avec des défauts de sécurité majeurs lorsque les invites impliquaient des groupes considérés comme sensibles par les autorités chinoises. Cependant, lorsqu’on lui a demandé de créer du code pour des entités comme le Tibet, Taiwan ou le mouvement religieux Falun Gong, le modèle a produit des versions moins sécurisées avec des vulnérabilités intégrées. Cela suggère que le comportement du modèle peut être façonné par les priorités politiques du gouvernement chinois.