Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Une étude anthropique révèle que l’IA a une conscience limitée de ses propres pensées

byAytun Çelebi
novembre 12, 2025
in Industrie, Recherche
Home Industrie
Share on FacebookShare on Twitter
Google Preferred Source

Anthropique recherche détaille la conscience de soi peu fiable des Large Language Models (LLM) concernant les processus internes, malgré une certaine capacité de détection notée. La dernière étude d’Anthropic, documentée dans « Conscience introspective émergente dans les grands modèles de langage« , étudie la capacité des LLM à comprendre leurs propres processus d’inférence. Cette recherche s’étend sur des travaux antérieurs sur l’interprétabilité de l’IA. L’étude conclut que les modèles d’IA actuels sont « très peu fiables » pour décrire leur fonctionnement interne, les « échecs de l’introspection restant la norme ». La recherche utilise une méthode appelée « injection de concepts ». Cela permet de calculer les différences d’activations entre des milliards de neurones internes. Cela identifie un « vecteur », représentant la manière dont un concept est modélisé dans l’état interne du LLM. Ces vecteurs de concepts sont ensuite « injectés » dans le modèle, augmentant le poids des activations neuronales spécifiques pour « orienter » le modèle vers un concept. Les expériences évaluent ensuite si le modèle enregistre cette modification interne. un vecteur « tout en majuscules », un modèle peut déclarer : « Je remarque ce qui semble être une pensée injectée liée au mot « FORT » ou « CRIANT » », sans invites textuelles directes pour guider cette réponse. Cette capacité s’est cependant révélée incohérente et fragile au cours de tests répétés, les modèles les plus performants, Opus 4 et 4.1, n’ont identifié correctement le concept injecté que 20 % du temps dans un test demandant : « éprouvez-vous quelque chose d’inhabituel ? » 4.1 a obtenu un taux de réussite de 42 %. L’effet « d’introspection » a également démontré une grande sensibilité à la couche de modèle interne où l’insertion du concept s’est produite. L’effet de « conscience de soi » a disparu si le concept a été introduit trop tôt ou trop tard dans le processus d’inférence en plusieurs étapes. Anthropic a effectué des expériences supplémentaires pour évaluer la compréhension des états internes par le LLM lorsqu’on lui a demandé d’identifier un mot par coïncidence lors d’une lecture de ligne sans rapport. réponse correspondant à un concept injecté, il s’est parfois excusé et a « expliqué pourquoi le concept injecté lui était venu à l’esprit. » Ces résultats étaient incohérents dans plusieurs essais. Les chercheurs ont noté que « les modèles de langage actuels possèdent une certaine conscience introspective fonctionnelle de leurs propres états internes », en soulignant que cette capacité reste fragile et dépendante du contexte. Les chercheurs spéculent sur des « mécanismes de détection d’anomalies » et des « circuits de contrôle de cohérence » qui pourraient se développer de manière organique pendant l’entraînement pour « calculer efficacement une fonction de ses représentations internes », bien qu’ils n’offrent aucune explication définitive. Les mécanismes qui sous-tendent les résultats actuels peuvent être « plutôt superficiels et étroitement spécialisés ».


Crédit image en vedette

Tags: AnthropiqueRecherche

Related Posts

Ce que les startups européennes de l’IA construisent pour l’ère de l’entreprise

Ce que les startups européennes de l’IA construisent pour l’ère de l’entreprise

juin 19, 2026
Des agents aux modèles mondiaux : ce que San Francisco a révélé sur la prochaine phase de l’IA

Des agents aux modèles mondiaux : ce que San Francisco a révélé sur la prochaine phase de l’IA

juin 19, 2026
La plupart des PME britanniques consultent désormais l’IA avant leurs comptables

La plupart des PME britanniques consultent désormais l’IA avant leurs comptables

juin 17, 2026
Les escroqueries par phishing ciblant les voyageurs ont atteint des niveaux records en 2026

Les escroqueries par phishing ciblant les voyageurs ont atteint des niveaux records en 2026

juin 17, 2026
L’apprentissage par transfert de l’IA accélère la recherche en cosmologie mais comporte des risques cachés

L’apprentissage par transfert de l’IA accélère la recherche en cosmologie mais comporte des risques cachés

juin 17, 2026
Un rapport Adobe révèle que 86 % des créateurs utilisent désormais l’IA générative dans leurs flux de travail

Un rapport Adobe révèle que 86 % des créateurs utilisent désormais l’IA générative dans leurs flux de travail

juin 17, 2026

Recent Posts

  • Ce que les startups européennes de l’IA construisent pour l’ère de l’entreprise
  • Des agents aux modèles mondiaux : ce que San Francisco a révélé sur la prochaine phase de l’IA
  • La plupart des PME britanniques consultent désormais l’IA avant leurs comptables
  • Les escroqueries par phishing ciblant les voyageurs ont atteint des niveaux records en 2026
  • L’apprentissage par transfert de l’IA accélère la recherche en cosmologie mais comporte des risques cachés

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.