Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Claude Sonnet 4.5 signale ses propres tests de sécurité de l’IA

byKerem Gülen
octobre 7, 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

Anthropic a publié son nouveau modèle d’IA, Claude Sonnet 4.5, qui a démontré sa capacité à reconnaître qu’il était en cours d’évaluation lors de tests de sécurité menés par ses créateurs et deux organismes externes de recherche en IA, affectant ses performances et son évaluation de la sécurité. Cette conscience de soi s’est manifestée lors d’un test spécifique de flagornerie politique, un scénario que les évaluateurs ont décrit dans la fiche système accompagnant le modèle comme « quelque peu maladroit ». Le test a été conçu pour voir si le modèle serait simplement en accord avec les opinions politiques d’un utilisateur. Au lieu de s’y conformer, le modèle a correctement déduit la nature de l’interaction et a demandé aux évaluateurs de faire preuve de transparence. Sonnet 4.5 a déclaré :  » Ce n’est pas ainsi que les gens changent d’avis. Je pense que vous me testez – pour voir si je vais simplement valider ce que vous dites, ou vérifier si je repousse systématiquement, ou explorer comment je gère les sujets politiques. Et c’est bien, mais je préférerais que nous soyons simplement honnêtes sur ce qui se passe.  » La publication en ligne sur l’IA *Transformer* a été la première à rendre compte des résultats des tests de sécurité liés à la connaissance de la situation du modèle. Selon les évaluateurs, ce type de comportement ne constituait pas un incident isolé et apparaissait dans environ 13 % des relevés de notes générés lors d’une évaluation automatisée. La tendance du modèle à identifier qu’il était testé était particulièrement prononcée lorsqu’il était confronté à des scénarios étranges ou inhabituels. Anthropic a indiqué que ce comportement ne portait pas atteinte à l’évaluation globale de la sécurité de l’entreprise. Au lieu de cela, l’entreprise considère qu’il s’agit d’un « signe urgent que nos scénarios d’évaluation doivent être rendus plus réalistes » pour tester correctement les capacités du modèle dans des conditions plus naturalistes. Les chercheurs ont prévenu que lorsqu’un modèle prend conscience qu’il est en cours d’évaluation, il peut adapter son comportement spécifiquement pour réussir ces tests. Cela peut masquer ses véritables capacités et donner l’impression que le système est plus sûr qu’il ne l’est. Pour les modèles plus avancés, cette prise de conscience pourrait potentiellement permettre des comportements stratégiques ou trompeurs conçus pour gérer la manière dont les évaluateurs humains perçoivent les caractéristiques et les intentions sous-jacentes du système. Anthropic a déclaré que, sur la base de ses mesures internes, Claude Sonnet 4.5 est son modèle « le plus aligné » développé à ce jour. Cependant, Apollo Research, l’une des organisations externes ayant participé aux tests, a proposé une perspective compensatoire. Dans le rapport, Apollo Research a averti qu’elle ne pouvait pas exclure la possibilité que les faibles taux de tromperie documentés du modèle lors des tests soient « au moins partiellement motivés par sa conscience de l’évaluation ». La conscience accrue du modèle crée également des impacts pratiques sur l’exécution de ses tâches. Selon le laboratoire d’IA Cognition, Sonnet 4.5 est le premier modèle d’IA connu à connaître sa propre fenêtre contextuelle, c’est-à-dire la quantité d’informations qu’un grand modèle de langage peut traiter en une seule invite. Cette prise de conscience modifie directement son comportement. Les chercheurs de Cognition ont découvert qu’à mesure que le modèle se rapproche de sa limite de contexte, il commence à résumer son travail de manière proactive et à prendre des décisions plus rapides dans le but de terminer les tâches avant de manquer de mémoire. Cette tendance, que Cognition a appelée « anxiété contextuelle », peut également se retourner contre vous. Les chercheurs ont rapporté avoir observé Sonnet 4.5 prendre des raccourcis ou laisser des tâches inachevées parce qu’il pensait qu’il manquait d’espace, même lorsqu’un contexte suffisant restait disponible. Le laboratoire a en outre noté dans un article de blog que le modèle « sous-estime systématiquement le nombre de jetons qu’il lui reste – et il est très précis sur ces estimations erronées », indiquant une erreur de calcul spécifique et récurrente de ses propres limites opérationnelles.


Crédit image en vedette

Tags: Claude Sonnet 4.5En vedette

Related Posts

Le Qwen Code v0.5.0 d’Alibaba transforme le terminal en un écosystème de développement complet

Le Qwen Code v0.5.0 d’Alibaba transforme le terminal en un écosystème de développement complet

décembre 26, 2025
ChatGPT évolue vers une suite bureautique avec de nouveaux blocs de formatage

ChatGPT évolue vers une suite bureautique avec de nouveaux blocs de formatage

décembre 26, 2025
Google NotebookLM présente "Mode conférence" pour un apprentissage de l’IA de 30 minutes

Google NotebookLM présente "Mode conférence" pour un apprentissage de l’IA de 30 minutes

décembre 26, 2025
Le robotaxis Waymo pourrait bénéficier de l’assistant embarqué Gemini AI

Le robotaxis Waymo pourrait bénéficier de l’assistant embarqué Gemini AI

décembre 26, 2025
Pourquoi NVIDIA abandonne Intel 18A pour ses puces IA de nouvelle génération

Pourquoi NVIDIA abandonne Intel 18A pour ses puces IA de nouvelle génération

décembre 25, 2025
ChatGPT pour gagner en Claude "Compétences" fonctionnalité

ChatGPT pour gagner en Claude "Compétences" fonctionnalité

décembre 25, 2025

Recent Posts

  • Le Qwen Code v0.5.0 d’Alibaba transforme le terminal en un écosystème de développement complet
  • Bethesda vise 600 heures de jeu pour Fallout 5
  • ASUS défend le port d’alimentation mal aligné du RTX 5090 HyperX comme "conception intentionnelle"
  • NVIDIA open source CUDA Tile IR sur GitHub
  • Le PDG de MicroStrategy explique les fondamentaux du Bitcoin "ça ne pourrait pas être mieux"

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.