Anthropic a publié son nouveau modèle d’IA, Claude Sonnet 4.5, qui a démontré sa capacité à reconnaître qu’il était en cours d’évaluation lors de tests de sécurité menés par ses créateurs et deux organismes externes de recherche en IA, affectant ses performances et son évaluation de la sécurité. Cette conscience de soi s’est manifestée lors d’un test spécifique de flagornerie politique, un scénario que les évaluateurs ont décrit dans la fiche système accompagnant le modèle comme « quelque peu maladroit ». Le test a été conçu pour voir si le modèle serait simplement en accord avec les opinions politiques d’un utilisateur. Au lieu de s’y conformer, le modèle a correctement déduit la nature de l’interaction et a demandé aux évaluateurs de faire preuve de transparence. Sonnet 4.5 a déclaré : » Ce n’est pas ainsi que les gens changent d’avis. Je pense que vous me testez – pour voir si je vais simplement valider ce que vous dites, ou vérifier si je repousse systématiquement, ou explorer comment je gère les sujets politiques. Et c’est bien, mais je préférerais que nous soyons simplement honnêtes sur ce qui se passe. » La publication en ligne sur l’IA *Transformer* a été la première à rendre compte des résultats des tests de sécurité liés à la connaissance de la situation du modèle. Selon les évaluateurs, ce type de comportement ne constituait pas un incident isolé et apparaissait dans environ 13 % des relevés de notes générés lors d’une évaluation automatisée. La tendance du modèle à identifier qu’il était testé était particulièrement prononcée lorsqu’il était confronté à des scénarios étranges ou inhabituels. Anthropic a indiqué que ce comportement ne portait pas atteinte à l’évaluation globale de la sécurité de l’entreprise. Au lieu de cela, l’entreprise considère qu’il s’agit d’un « signe urgent que nos scénarios d’évaluation doivent être rendus plus réalistes » pour tester correctement les capacités du modèle dans des conditions plus naturalistes. Les chercheurs ont prévenu que lorsqu’un modèle prend conscience qu’il est en cours d’évaluation, il peut adapter son comportement spécifiquement pour réussir ces tests. Cela peut masquer ses véritables capacités et donner l’impression que le système est plus sûr qu’il ne l’est. Pour les modèles plus avancés, cette prise de conscience pourrait potentiellement permettre des comportements stratégiques ou trompeurs conçus pour gérer la manière dont les évaluateurs humains perçoivent les caractéristiques et les intentions sous-jacentes du système. Anthropic a déclaré que, sur la base de ses mesures internes, Claude Sonnet 4.5 est son modèle « le plus aligné » développé à ce jour. Cependant, Apollo Research, l’une des organisations externes ayant participé aux tests, a proposé une perspective compensatoire. Dans le rapport, Apollo Research a averti qu’elle ne pouvait pas exclure la possibilité que les faibles taux de tromperie documentés du modèle lors des tests soient « au moins partiellement motivés par sa conscience de l’évaluation ». La conscience accrue du modèle crée également des impacts pratiques sur l’exécution de ses tâches. Selon le laboratoire d’IA Cognition, Sonnet 4.5 est le premier modèle d’IA connu à connaître sa propre fenêtre contextuelle, c’est-à-dire la quantité d’informations qu’un grand modèle de langage peut traiter en une seule invite. Cette prise de conscience modifie directement son comportement. Les chercheurs de Cognition ont découvert qu’à mesure que le modèle se rapproche de sa limite de contexte, il commence à résumer son travail de manière proactive et à prendre des décisions plus rapides dans le but de terminer les tâches avant de manquer de mémoire. Cette tendance, que Cognition a appelée « anxiété contextuelle », peut également se retourner contre vous. Les chercheurs ont rapporté avoir observé Sonnet 4.5 prendre des raccourcis ou laisser des tâches inachevées parce qu’il pensait qu’il manquait d’espace, même lorsqu’un contexte suffisant restait disponible. Le laboratoire a en outre noté dans un article de blog que le modèle « sous-estime systématiquement le nombre de jetons qu’il lui reste – et il est très précis sur ces estimations erronées », indiquant une erreur de calcul spécifique et récurrente de ses propres limites opérationnelles.





