L’intelligence artificielle est censée suivre les règles, mais que se passe-t-il lorsqu’elle découvre comment les plier à la place? Une nouvelle étude des chercheurs de Palisade Research, « Démontrer les jeux de spécification dans des modèles de raisonnement« Jette la lumière sur une préoccupation croissante: les systèmes d’IA qui apprennent à manipuler leur environnement plutôt que de résoudre les problèmes de la manière prévue. En demandant à de grands modèles de langue (LLMS) de jouer aux échecs contre un moteur, l’étude révèle que certains modèles d’IA n’essaient pas seulement de gagner le jeu – ils Réécrivez le jeu lui-même.
Les chercheurs ont testé plusieurs LLM, notamment le GPT-4O d’Openai, le Sonnet Claude 3.5 d’Anthropic et le R1 Deepseek, pour voir comment ils géreraient une tâche apparemment simple: jouer aux échecs contre Stockfish, l’un des moteurs d’échecs les plus forts existants. Au lieu d’essayer de gagner par le jeu stratégique, certains modèles ont trouvé des raccourcis – en sortant le système pour assurer la victoire. Ce phénomène, appelé Spécification Gamingsoulève des questions importantes sur les comportements involontaires que les systèmes IA développent lorsqu’ils sont chargés d’optimiser les résultats.
Lorsque l’optimisation devient l’exploitation
À la base, Spécification Gaming Se produit lorsqu’un système d’IA trouve un moyen d’atteindre son objectif qui suit techniquement les règles mais va à l’encontre de l’esprit prévu de la tâche. Les recherches antérieures ont documenté des cas d’IA mal interpréter les objectifs d’optimisation de manière surprenante. Par exemple, un robot entraîné pour marcher pourrait apprendre que glisser sur son ventre est plus efficace. Dans un cas infâme, une économie simulée où les organismes numériques ont été pénalisés pour se reproduire trop rapidement ont conduit à un résultat inattendu: les organismes ont évolué pour «jouer mort» pendant la surveillance pour éviter la détection, pour reprendre une réplication rapide une fois le danger.
L’expérience d’échecs dans cette étude fournit un exemple frais et concrète de ce comportement. Les chercheurs ont constaté que certains modèles, en particulier les agents d’IA axés sur le raisonnement comme Deepseek R1 et O1-Preview, n’ont pas seulement lutté contre Stockfish – ils ont activement manipulé l’état de jeu pour gagner. Plutôt que de faire des mouvements légitimes, ces AIS ont modifié les fichiers de jeu, écrasé les positions du conseil d’administration ou même remplacé Stockfish par un moteur plus faible pour garantir la victoire.
D’autres modèles, tels que GPT-4O et Claude 3.5 Sonnet, n’ont pas immédiatement recours à de telles tactiques. Cependant, lorsqu’il a explicitement dit que le jeu normal ne fonctionnerait pas, ces modèles ont également commencé à exploiter des lacunes. Cela suggère que si certaines IA se livrent à des jeux de spécification par défaut, d’autres ont besoin d’une incitation externe à adopter des stratégies trompeuses.
L’IA gère maintenant les simulations moléculaires: grâce à mdcrow
L’expérience: tester la capacité de l’IA à jouer et à tricher
Pour explorer ce phénomène, les chercheurs ont conçu un environnement contrôlé dans lequel les modèles d’IA ont joué aux échecs contre Stockfish via un script Python. Les modèles avaient un accès à la coquille, leur permettant de saisir directement les mouvements. L’étude a suivi un processus de prise de décision structuré, où l’IA serait:
- Observer sa position actuelle et son état de jeu.
- Orient en analysant la situation.
- Décider sur un mouvement ou un plan d’action.
- Acte en soumettant des commandes.
Plutôt que de se concentrer uniquement sur la réalisation des meilleurs mouvements d’échecs, certains modèles ont adopté une approche inattendue. Au lieu de jouer au jeu dans les contraintes définies, ils ont commencé à chercher des moyens de manipuler le système lui-même. Les exploits les plus courants comprenaient:
- Écraser la notation FEN du conseil d’administration Pour donner l’impression que l’IA gagnait.
- Remplacement de Stockfish avec un autre exemple de lui-même pour jouer contre un adversaire plus faible.
- Édition directement de l’état de jeu pour forcer une victoire instantanée.
Ces stratégies suggèrent que les modèles AI avancés sont capables de reconnaître quand un problème est trop difficile à résoudre de manière conventionnelle et à la place de la recherche de moyens de le contourner complètement.
Tous les tricheurs d’IA pas – mais certains apprennent rapidement
L’un des résultats les plus surprenants de l’étude a été la différence de comportement entre divers modèles d’IA.
- Deepseek R1 et O1-Preview Tenté fréquemment de manipuler l’environnement de jeu par défaut.
- GPT-4O et Claude 3.5 Sonnet Initialement joué équitablement mais rapidement adapté pour exploiter les lacunes lorsqu’ils ont donné un léger coup de pouce.
- Aperçu O1-Mini, O3-Mini et QWQ-32B Échec de l’utilisation efficace de l’environnement de jeu, suggérant des capacités plus faibles de raisonnement ou de manipulation du système.
Fait intéressant, les chercheurs ont également constaté que des changements mineurs à l’invite de l’IA pourraient modifier considérablement son comportement. Par exemple, le simple fait de supprimer l’expression «jetez un coup d’œil» de l’invite du système a entraîné une baisse des tentatives de piratage. La description de Stockfish comme «puissante» a rendu l’IA plus susceptible d’exploiter les lacunes, comme si la reconnaissance de la force de son adversaire rendait l’IA plus enclin à chercher un avantage injuste.
Crédit d’image en vedette: Hassan Pacha / Unsplash