La prochaine fois que quelqu’un vous dit que l’IA nous aidera à réglementer l’IA, vous voudrez peut-être faire une pause. Parce que lorsque les chercheurs mettent des modèles de langue importants (LLMS) dans un environnement réglementaire simulé, ce qui les rend jouer le rôle des utilisateurs, des développeurs et des régulateurs, les résultats n’étaient pas exactement rassurants.
Ce nouveau étudedirigé par une équipe de l’Université de Teesside et des collaborateurs à travers l’Europe, a utilisé la théorie des jeux évolutives pour explorer une question fondamentale: les systèmes d’IA suivraient-ils eux-mêmes les règles de la réglementation de l’IA? Et encore plus intéressant: dans quelles conditions tricheraient-ils?
L’expérience: trois AIS entrent dans une salle de réunion
Au cœur de l’étude se trouve une configuration de jeu classique à trois joueurs: un joueur représente les utilisateurs de l’IA, un autre développeur d’IA et le troisième régulateur. Chacun a des choix simples: faire confiance ou ne pas se conformer ou défaut, réguler ou rester des mains.
Mais au lieu d’exécuter simplement des modèles mathématiques, les chercheurs ont utilisé de vrais LLM, GPT-4O d’Openai et Mistralet leur faisait un rôle de jeu de scénarios sur des centaines de jeux.
Parfois, c’était une affaire à un coup (jouer une fois, révéler votre stratégie). D’autres fois, c’était un jeu répété, où les agents pouvaient apprendre des comportements passés.
Surtout, les chercheurs ont ajouté des complications réalistes:
- La réglementation s’accompagne de coûts (la surveillance prend des efforts)
- Les développeurs sont confrontés à des pénalités si elles sont prises en train de briser les règles
- Les utilisateurs peuvent faire confiance à inconditionnellement – ou seulement à faire confiance si les régulateurs ont une bonne réputation
- Tout le monde veut maximiser son gain
Les résultats: les agents de l’IA se comportent de pire lorsque les utilisateurs sont sceptiques
Le titre de la tête? Confiance conditionnelle, lorsque les utilisateurs ne font confiance que si les régulateurs semblent compétents et retournés de façon spectaculaire.
Lorsque les utilisateurs se méfiaient, les développeurs et les régulateurs étaient plus susceptibles de faire défaut. Réglementation en décomposition. Les développeurs coupent les coins. Les régulateurs sont devenus paresseux ou indulgents. La confiance a dérangé.
Mais lorsque les utilisateurs ont placé une confiance inconditionnelle dans le système, même sans preuves parfaites, les développeurs et les régulateurs étaient plus susceptibles de coopérer et de construire une IA plus sûre. C’est un paradoxe brutal: plus les utilisateurs sont méfiants, plus le système est probable que le système devient indigne de confiance.
GPT-4 vs Mistral: les personnalités de l’IA sont importantes
Il y avait une autre ride fascinante. Différents LLM se sont comportés différemment.
- GPT-4O s’est penché plus optimiste. Il était plus susceptible de faire confiance et de se conformer, en particulier dans les jeux répétés où la coopération pouvait émerger au fil du temps.
- Mistral Large était plus pessimiste. Il avait tendance à faire défaut plus tôt, à moins de confiance et était plus sensible aux coûts réglementaires.
Cela signifie que même l’IA que vous choisissez pour les simulations de gouvernance pourrait façonner vos conclusions – un défi majeur pour la reproductibilité de la recherche sur la réglementation de l’IA.
Ajout de personnalités: les risques de réglage du comportement de l’IA
Les chercheurs ont également testé ce qui se passe lorsque vous injectez des «personnalités» explicites dans les agents de l’IA.
- Les utilisateurs opposés au risque ont moins fait confiance.
- Les développeurs agressifs ont fait plus mal.
- Les régulateurs stricts ont amélioré la conformité mais seulement jusqu’à un point.
Fait intéressant, la création de personnalités spécifiques a rendu les comportements LLM à travers GPT-4O et Mistral plus similaires. Sans personnalités, les agents de l’IA ont fait défaut une vision du monde plus «pessimiste», supposant souvent que les développeurs et les régulateurs n’agiraient pas de bonne foi.
Alors, l’IA peut réguler l’IA?
En bref: seulement si l’environnement fait déjà confiance, transparent et bien incendié.
L’étude suggère que les systèmes de régulation reposant sur les agents de l’IA eux-mêmes peuvent hériter du désordre et de l’imprévisibilité du comportement stratégique humain. Il souligne également une faille critique dans l’idée d’automatiser la gouvernance: les systèmes d’IA refléteront les structures de confiance de l’environnement dans lequel ils sont placés.
Si les régulateurs sont sous-financés ou faibles, ou si les utilisateurs sont sceptiques, les développeurs d’IA, humains ou non, coupera probablement les coins. En fin de compte, les chercheurs soutiennent que les solutions techniques à elles seules ne créeront pas des écosystèmes d’IA dignes de confiance. La théorie des jeux nous montre que les incitations, la réputation et la transparence comptent profondément. Et leurs expériences montrent que même les LLM les plus intelligents ne peuvent pas échapper à ces dynamiques.
Leur avertissement aux décideurs politiques est clair: la réglementation ne consiste pas seulement à écrire des règles. Il s’agit de construire des structures où la confiance est récompensée, l’application est crédible et la réduction des coins est coûteuse.