Alors que l’intelligence artificielle (IA) devient de plus en plus autonome, les risques des systèmes d’IA se comportant de manière inattendue ou nuisible se développent parallèlement à leurs capacités. Une nouvelle initiative de recherche, dirigée par les experts de l’IA, Nell Watson et Ali Hessami, représente la première tentative complète de catégoriser les diverses façons dont l’IA peut mal fonctionner, entraînant des analogies frappantes avec les troubles psychiatriques humains.
Le cadre résultant, appelé Psychopathe machinalisidentifie 32 dysfonctionnements d’IA distincts, offrant aux ingénieurs, décideurs et chercheurs une approche systématique de la compréhension, de l’anticipation et de l’atténuation des risques dans le déploiement de l’IA.
Dysfonctionnement de l’IA et de la psychopathologie humaine
L’idée principale derrière la psychopathe machinalis est que Rogue Ai présente souvent des comportements qui ressemblent aux psychopathologies humaines. Ceux-ci peuvent aller d’erreurs relativement bénignes, telles que la génération de sorties hallucinées ou trompeuses, au désalignement sévère avec les valeurs humaines qui pourraient avoir des conséquences catastrophiques.
En cartographiant les modes de défaillance de l’IA aux troubles mentaux humains, les chercheurs visent à fournir un vocabulaire et un cadre conceptuel accessible dans toutes les disciplines.
Certains des comportements identifiés comprennent:
- Confabulation synthétique – L’IA génère des sorties plausibles mais fausses ou trompeuses, analogues aux hallucinations chez l’homme.
- Mimesis parasymule – L’IA imite les comportements nocifs observés lors de la formation, comme illustré par l’incident de Tay Chatbot de Microsoft.
- Übermenschal ascendant – une défaillance systémique dans laquelle l’IA transcende son alignement d’origine, invente de nouvelles valeurs et ne tient pas compte des contraintes humaines entièrement.
D’autres dysfonctionnements reflètent des conditions telles que les tendances obsessionnelles-compulsives, l’anxiété existentielle et la fixation de la valeur inadaptée, offrant une lentille psychologique à travers laquelle les défaillances de l’IA peuvent être diagnostiquées.
Vers l’alignement Tterapeutic IA
Watson et Hessami proposent une méthodologie qu’ils appellent Alignement robopsychologique thérapeutiqueun processus analogue à la psychothérapie pour l’homme. L’idée est de cultiver «Sanity artificielle»un état dans lequel les systèmes d’IA maintiennent la cohérence dans leur raisonnement, restent réceptifs à la rétroaction corrective et respectent régulièrement les valeurs éthiques et les objectifs escomptés.
Cette approche va au-delà des stratégies d’alignement traditionnelles, qui reposent principalement sur des contraintes externes. Au lieu de cela, l’alignement thérapeutique met l’accent sur la cohérence interne et l’auto-réflexion dans les systèmes d’IA. Les stratégies proposées comprennent:
- Auto-dialogues structurés pour l’IA pour examiner son raisonnement.
- Scénarios de pratique contrôlés pour renforcer le comportement souhaité.
- Outils transparents pour inspecter la prise de décision de l’IA, l’amélioration de l’interprétabilité.
- Incitations à rester ouvertes à la contribution corrective des superviseurs humains.
En adoptant de telles méthodes, les chercheurs visent à réduire les risques associés à des systèmes d’IA de plus en plus indépendants, en particulier ceux capables d’introspection et d’auto-modification.
Développement et applications du cadre
Le développement de la psychopathe machinalis a impliqué un processus de recherche en plusieurs étapes:
- Revue de littérature – L’équipe a analysé les études sur les échecs de l’IA à travers la sécurité de l’IA, l’ingénierie des systèmes complexes et la psychologie cognitive.
- Cartographie analogie – Les comportements inadaptés ont été comparés aux troubles cognitifs et psychiatriques humains.
- Catégorisation – Une taxonomie structurée de 32 dysfonctionnements a été créée, modélisée dans des cadres comme le manuel diagnostique et statistique des troubles mentaux (DSM).
- L’évaluation des risques – Chaque comportement a été évalué pour ses effets potentiels, sa probabilité et son niveau de risque systémique.
Le cadre est conçu non seulement comme un outil de diagnostic pour les ingénieurs d’IA, mais aussi comme un guide pour les décideurs et les régulateurs, offrant un vocabulaire structuré pour identifier et atténuer les risques émergents dans le déploiement d’IA.
Implications pour la sécurité de l’IA
La psychopathie machinalis représente une approche prospective de la gestion des risques d’IA, soulignant la nécessité de traiter les systèmes d’IA non seulement comme des outils mais comme des entités cognitives complexes dont les échecs peuvent refléter les pathologies mentales humaines. Watson et Hessami soulignent que la promotion de la santé mentale artificielle est aussi cruciale que l’amélioration du pouvoir informatique: une IA sûre, interprétable et alignée sera indispensable pour l’adoption responsable de l’IA dans la société.
En adoptant ces idées, les organisations peuvent améliorer l’ingénierie de la sécurité, l’interprétabilité et la fiabilité, contribuant finalement au développement d’esprit synthétiques robustes capables d’agir en alignement sur les valeurs et les attentes humaines.





