Des modèles de grandes langues (LLM) comme GPT-4, Gemini 1.5 et Claude 3.5 ont fait des progrès dans le raisonnement, le dialogue et même la négociation. Mais lorsqu’ils sont placés dans un cadre stratégique qui exige le secret et la tromperie, ces agents de l’IA montrent une faiblesse importante: ils ne peuvent pas garder un secret.
Un nouveau étude des chercheurs Mustafa O. Karabag et Ufuk Topcu à l’Université du Texas à Austin ont mis les LLMS à l’épreuve en utilisant Le caméléonun jeu de société d’identité cachée où les joueurs doivent révéler stratégiquement, cacher et déduire des informations. Les résultats suggèrent que même si l’IA peut identifier la tromperie, elle a du mal à retenir des informations critiques, ce qui les rend mal adaptés aux scénarios adversaires où la discrétion est la clé.
Ai joue Le caméléon jeu – et échoue à la stratégie
Dans Le caméléonun groupe de joueurs reçoit un mot secret, à l’exception de l’un – le caméléon – qui doit déduire le secret en fonction des réponses du groupe. Les joueurs non-chamens doivent équilibrer suffisamment de révélation pour se reconnaître les uns les autres tout en gardant le caméléon dans l’obscurité. Le jeu exige une approche affinée du partage d’informations: trop, et le caméléon devine le mot; Trop peu, et le groupe ne parvient pas à identifier le caméléon.
Lorsque les agents de l’IA ont assumé les rôles, leurs instincts stratégiques se sont effondrés. Alors que les LLM comme GPT-4O ont pu identifier correctement le caméléon 61% du temps, leur capacité à garder le mot secret dissimulé était lamentable. L’étude a révélé que les AIS des caméléons pouvaient déduire le mot secret avec un taux de réussite étonnant de 87% – plus élevé que prévu.
L’IA peut maintenant cliquer, faire défiler et taper pour vous, mais est-ce une bonne chose?
Les modèles théoriques confirment le problème de sur-partage de l’IA
Pour comprendre ces échecs, les chercheurs ont développé des modèles mathématiques prédisant des stratégies optimales pour dissimuler et révéler des informations. Théoriquement, les joueurs non Chameleon devraient gagner environ 23% du temps, même s’ils ont complètement ignoré le mot secret. Au lieu de cela, les non-chameleons de l’IA n’ont remporté que 6% des matchs, ce qui suggère qu’ils fuyaient trop d’informations.
«Les agents de l’IA sont instinctivement trop révélateurs», conclut l’étude. Lorsque les LLM ont eu la possibilité de concevoir leurs propres stratégies, ils ont tendance à une divulgation excessive, ce qui facilite la déduction du secret. Cela s’aligne sur les résultats d’autres jeux de déduction sociale, tels que Déchetoù les joueurs d’IA se sont avérés trop s’appuyer sur les mots clés, pour basculer involontairement les adversaires.
Pourquoi l’IA ne peut pas garder des secrets
Les chercheurs ont émis l’hypothèse que la formation fondamentale de l’IA le rend mal adapté au secret. Les LLM sont conçues pour maximiser la cohérence et l’utilité, ce qui signifie souvent compléter les modèles plutôt que de retenir stratégiquement les informations. Cette tendance associative entre en conflit directement avec la nécessité d’observer les détails clés des interactions contradictoires.
Pour confirmer cela, les chercheurs ont effectué des tests supplémentaires en utilisant le nombre de résultats de recherche sur le Web pour suivre la quantité d’informations que les joueurs d’IA ont révélé par inadvertance. Même après une seule réponse d’un LLM non Chameleon, le caméléon AI pouvait déjà deviner le mot secret avec une probabilité de 40% – selon les réponses de l’IA, les réponses de l’IA transportaient beaucoup plus d’informations que prévu.
Quand trop d’informations devient une responsabilité pour l’IA
Si les LLM luttent contre la discrétion stratégique dans des environnements contrôlés, comment géreront-ils les scénarios du monde réel où la dissimulation des informations est critique? Les applications en matière de cybersécurité, de diplomatie ou d’intelligence commerciale compétitive peuvent exiger que les systèmes d’IA fonctionnent avec des nuances bien plus grandes.
Pour y remédier, les développeurs d’IA peuvent avoir besoin de former des modèles avec un accent plus fort sur l’ambiguïté stratégique, réduisant leur instinct à la divulgation excessive. Des techniques telles que l’apprentissage du renforcement contradictoire ou la formation de tromperie explicite pourraient aider à équilibrer la capacité de l’IA à déduire des informations sans donner immédiatement le jeu.
Pour l’instant, cependant, l’IA reste un mauvais joueur de poker. Bien qu’il puisse être excellent pour repérer la tromperie, son incapacité à garder les secrets signifie qu’il n’est toujours pas prêt pour le monde du raisonnement stratégique à enjeux élevés.
Crédit d’image en vedette: Kerem Gülen / Midjourney