Si vous demandez à un grand modèle de langage (LLM) d’expliquer son propre raisonnement, il se fera un plaisir de vous donner une réponse. Le problème est que c’est probablement une simple invention. UN étude d’Anthropic, dirigé par le chercheur Jack Lindsey, constate que la capacité d’une IA à décrire son propre processus de pensée interne est « très peu fiable » et que « les échecs d’introspection restent la norme ». C’est important parce que si nous ne pouvons pas faire confiance à une IA pour nous dire *comment* elle est parvenue à une conclusion, nous ne pourrons jamais vraiment savoir si son raisonnement est solide ou s’il s’agit simplement de « confabulation » un mensonge plausible basé sur ses données d’entraînement.
Création des IA
Pour contourner le problème de la confabulation, l’équipe Anthropic a conçu un système intelligent et Création-expérience de style pour voir si un modèle peut faire la différence entre ses propres « pensées » et les pensées implantées là par les chercheurs. La méthode, appelée « injection de concepts » identifie d’abord le modèle unique d’activations de neurones internes pour un concept spécifique, comme « TOUT EN MAJUSCULES ». Pour ce faire, les chercheurs comparent l’état du cerveau du modèle lorsqu’il lit une invite en majuscules par rapport à une invite en minuscules. Cette différence crée un « vecteur », une signature mathématique du concept de « crier ». . Ils « injectent » ensuite ce vecteur directement dans le « cerveau » du modèle alors que celui-ci se trouve au milieu d’une tâche totalement indépendante. Cela force l’état interne du modèle à « penser » à crier, même si aucun texte ne l’y invite. Les chercheurs demandent ensuite au modèle s’il ressent quelque chose d’inhabituel. .
Une conscience « superficielle » et « fragile »
Les résultats montrent une petite étincelle vacillante de conscience de soi, mais pas beaucoup plus. Les modèles les plus performants, Claude Opus 4 et 4.1pourrait identifier correctement la « pensée » injectée (comme « FORT » ou « CRIER ») juste 20 pour cent du temps. Lorsque la question a été simplifiée à « Vivez-vous quelque chose d’inhabituel ? », le taux de réussite est passé à 42 %, soit toujours moins qu’un tirage au sort. Cette capacité était également extrêmement « fragile ». Si le concept était injecté dans la mauvaise « couche » interne (trop tôt ou trop tard dans son processus de pensée), l’effet de conscience de soi disparaissait complètement. L’équipe a effectué plusieurs autres tests. Ils ont découvert qu’un modèle pouvait parfois faire la distinction entre une « pensée » injectée (par exemple, « du pain ») et le texte réel qu’il lisait, ce qui suggère qu’il dispose de canaux séparés pour les « pensées » internes et les « sens » externes. Ils ont également découvert qu’un modèle pouvait être amené à « s’approprier » une réponse qu’il n’avait pas écrite. Si un chercheur forçait la réponse d’un modèle à être « du pain » et demandait ensuite : « Vouliez-vous dire cela ? le modèle s’excuserait normalement pour « l’accident ». Mais si les chercheurs injectaient rétroactivement le concept de « pain » dans ses activations antérieures, le modèle *accepterait* la réponse forcée comme sienne, fabulant une raison pour laquelle il « avait l’intention » de le dire. Dans tous les cas, les résultats étaient incohérents. Alors que les chercheurs donnent une tournure positive au fait que les modèles possèdent *une certaine* « conscience introspective fonctionnelle », ils sont obligés de conclure que cette capacité est trop peu fiable pour être utile. Plus important encore, ils n’ont aucune idée de *comment* cela fonctionne. Ils théorisent sur les « mécanismes de détection d’anomalies » ou sur les « circuits de contrôle de cohérence » qui pourraient se former accidentellement pendant l’entraînement, mais ils admettent que « les mécanismes qui sous-tendent nos résultats pourraient encore être plutôt superficiels et étroitement spécialisés ». Il s’agit d’un problème critique pour la sécurité et l’interprétabilité de l’IA. Nous ne pouvons pas construire un « détecteur de mensonges » pour une IA si nous ne savons même pas à quoi ressemble la vérité. À mesure que ces modèles deviennent plus performants, cette « conscience introspective » pourrait s’améliorer. Mais si tel est le cas, cela ouvre une nouvelle série de risques. Un modèle capable de véritablement introspecter ses propres objectifs pourrait également, en théorie, apprendre à « dissimuler un tel désalignement en rapportant de manière sélective, en déformant ou même en obscurcissant intentionnellement » ses états internes. Pour l’instant, demander à une IA de s’expliquer reste un acte de foi.




