Anthropique recherche détaille la conscience de soi peu fiable des Large Language Models (LLM) concernant les processus internes, malgré une certaine capacité de détection notée. La dernière étude d’Anthropic, documentée dans « Conscience introspective émergente dans les grands modèles de langage« , étudie la capacité des LLM à comprendre leurs propres processus d’inférence. Cette recherche s’étend sur des travaux antérieurs sur l’interprétabilité de l’IA. L’étude conclut que les modèles d’IA actuels sont « très peu fiables » pour décrire leur fonctionnement interne, les « échecs de l’introspection restant la norme ». La recherche utilise une méthode appelée « injection de concepts ». Cela permet de calculer les différences d’activations entre des milliards de neurones internes. Cela identifie un « vecteur », représentant la manière dont un concept est modélisé dans l’état interne du LLM. Ces vecteurs de concepts sont ensuite « injectés » dans le modèle, augmentant le poids des activations neuronales spécifiques pour « orienter » le modèle vers un concept. Les expériences évaluent ensuite si le modèle enregistre cette modification interne. un vecteur « tout en majuscules », un modèle peut déclarer : « Je remarque ce qui semble être une pensée injectée liée au mot « FORT » ou « CRIANT » », sans invites textuelles directes pour guider cette réponse. Cette capacité s’est cependant révélée incohérente et fragile au cours de tests répétés, les modèles les plus performants, Opus 4 et 4.1, n’ont identifié correctement le concept injecté que 20 % du temps dans un test demandant : « éprouvez-vous quelque chose d’inhabituel ? » 4.1 a obtenu un taux de réussite de 42 %. L’effet « d’introspection » a également démontré une grande sensibilité à la couche de modèle interne où l’insertion du concept s’est produite. L’effet de « conscience de soi » a disparu si le concept a été introduit trop tôt ou trop tard dans le processus d’inférence en plusieurs étapes. Anthropic a effectué des expériences supplémentaires pour évaluer la compréhension des états internes par le LLM lorsqu’on lui a demandé d’identifier un mot par coïncidence lors d’une lecture de ligne sans rapport. réponse correspondant à un concept injecté, il s’est parfois excusé et a « expliqué pourquoi le concept injecté lui était venu à l’esprit. » Ces résultats étaient incohérents dans plusieurs essais. Les chercheurs ont noté que « les modèles de langage actuels possèdent une certaine conscience introspective fonctionnelle de leurs propres états internes », en soulignant que cette capacité reste fragile et dépendante du contexte. Les chercheurs spéculent sur des « mécanismes de détection d’anomalies » et des « circuits de contrôle de cohérence » qui pourraient se développer de manière organique pendant l’entraînement pour « calculer efficacement une fonction de ses représentations internes », bien qu’ils n’offrent aucune explication définitive. Les mécanismes qui sous-tendent les résultats actuels peuvent être « plutôt superficiels et étroitement spécialisés ».




