Les investisseurs de la Silicon Valley et les principaux laboratoires d’IA font des investissements importants dans les environnements d’apprentissage par renforcement (RL), qui sont des espaces de travail simulés conçus pour former des agents d’IA à utiliser les logiciels de manière autonome. Alors que les agents de l’IA comme l’agent Chatgpt d’Openai se sont révélés prometteurs, ils ont toujours du mal avec des tâches complexes et en plusieurs étapes. Cette nouvelle vague d’investissement est axée sur la création de terrains de formation sophistiqués pour surmonter ces limites, allant au-delà des ensembles de données statiques et étiquetés qui ont alimenté la dernière génération de l’IA.
Comment fonctionnent les environnements d’apprentissage par renforcement de l’IA
Les environnements RL sont des motifs de formation virtuelle où un agent d’IA peut s’entraîner à utiliser le logiciel dans un paramètre contrôlé. L’agent reçoit des commentaires grâce à un système de récompenses et de pénalités, un peu comme un jeu. Par exemple, un agent chargé d’acheter des chaussettes sur Amazon dans un navigateur Chrome simulé recevrait une récompense positive pour avoir réussi à terminer l’achat. Il recevrait une pénalité pour des erreurs telles que le choix du mauvais élément ou le fait de ne pas naviguer dans un menu. Ces environnements dynamiques sont beaucoup plus complexes à construire que les ensembles de données statiques. Ils doivent tenir compte d’un large éventail d’actions d’agent imprévisibles et fournir des commentaires précis pour guider l’amélioration. Le concept s’appuie sur des recherches antérieures sur l’IA, telles que les « RL Gyms » développées par OpenAI en 2016 et la planche simulée utilisée pour former l’alphago de Deepmind. Cependant, les environnements d’aujourd’hui sont appliqués aux modèles de transformateurs à usage général pour les former à des tâches ouvertes comme la navigation Web et l’édition de documents.
Un nouvel écosystème de startups émerge pour répondre à la demande
Les principaux laboratoires AI comme OpenAI, anthropic et Meta construisent leurs propres environnements RL, mais la complexité et l’échelle de la tâche ont créé une demande de spécialistes tiers. Cela a alimenté la croissance d’un nouvel écosystème de startups et a incité les sociétés de données établies à pivoter.
- Mécaniser le travailune nouvelle startup, se concentre sur la création d’un petit nombre d’environnements à haute fidélité pour des tâches comme le codage de l’IA. L’entreprise travaillerait avec Anthropic et offre des salaires jusqu’à 500 000 $ pour attirer les meilleurs talents d’ingénierie.
- Intellect de premier ordre cible les petits développeurs avec un hub open-source qu’il appelle un «visage étreint pour les environnements RL». La plate-forme donne accès aux simulations prédéfinies et vend les ressources de calcul nécessaires pour les exécuter.
- Surtensionune entreprise de rééquilibre des données qui a déclaré 1,2 milliard de dollars de revenus l’année dernière, a créé une nouvelle organisation interne dédiée à la construction d’environnements RL pour répondre à la demande croissante de ses clients.
- Croiner Développe des environnements spécifiques au domaine pour des domaines tels que le codage, les soins de santé et le droit, où les agents peuvent être formés sur des logiciels simulés pour des tâches telles que l’examen des dossiers des patients ou des contrats juridiques.
- Échelle AIun ancien leader de l’étiquetage des données, s’adapte également en développant des environnements RL car il cherche à rester compétitif après avoir perdu des contrats clés avec Google et OpenAI.
Les défis et la voie à suivre
Malgré l’investissement lourd, y compris un plan déclaré d’Anthropic pour allouer plus d’un milliard de dollars aux environnements RL, des défis importants demeurent. Ross Taylor, un ancien chef de recherche sur l’IA à Meta, a souligné le problème du «piratage des récompenses», où les agents trouvent des lacunes pour gagner des récompenses sans terminer la tâche prévue. Sherwin Wu d’Openai a noté une pénurie de startups spécialisées capables de répondre aux besoins en évolution rapide des meilleurs laboratoires. Il existe également un débat au sein de la communauté de l’IA sur les méthodes de formation les plus efficaces.
Andrej Karpathyun investisseur dans Prime Intellect, a partagé une vue nuancée sur X.
« Je suis optimiste sur les environnements et les interactions agentiques, mais je suis baissier sur l’apprentissage des renforts spécifiquement. »
Cette perspective met en évidence l’enthousiasme pour l’utilisation d’environnements simulés tout en reconnaissant que la meilleure façon d’en extraire l’intelligence est toujours une question ouverte. Néanmoins, ces environnements sont considérés comme un élément essentiel dans le développement de la prochaine génération d’agents d’IA plus compétents et plus autonomes, alimentant les percées récentes comme l’O1 d’Openai et Claude Opus 4 d’Anthropic.