Anthropic s'excuse pour la limitation cachée de Fable et promet la transparence

Anthropic s’est excusé d’avoir secrètement mis en œuvre des mesures de limitation sur son modèle d’IA, Claude Fable 5, au moyen de garde-fous invisibles, qui ont gêné les utilisateurs, notamment les chercheurs et les concurrents. La société a annoncé qu’elle serait désormais plus transparente sur le moment où ces restrictions seraient activées, même si cela conduisait Fable à rejeter davantage de requêtes.

We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.

Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…

— ClaudeDevs (@ClaudeDevs) June 11, 2026

Fable est le modèle inaugural de la classe de systèmes d’IA Mythos d’Anthropic, qui, selon la société, pourrait présenter des risques importants s’il était largement diffusé. En réponse à ces risques, Anthropic a lancé Fable avec des garanties intégrées adaptées pour l’empêcher de répondre à certaines requêtes « à haut risque », notamment liées à la distillation de modèles.

Dans la carte système de Fable, Anthropic a révélé qu’il modifierait et dégraderait les réponses du modèle si les utilisateurs tentaient de distiller sans notification. Désormais, les requêtes identifiées comme des tentatives de distillation reviendront automatiquement vers Claude Opus 4.8, le modèle phare précédent. Anthropic s’est engagé à informer les utilisateurs chaque fois que leurs requêtes reviennent à l’Opus 4.8, en déclarant : « Vous verrez cela à chaque fois que cela se produit. »

Cette approche modifiée reflète la façon dont Fable gère d’autres requêtes à haut risque, en les acheminant via l’Opus 4.8 à moins qu’elles ne soient bloquées par des règles de sécurité plus larges concernant des sujets tels que la drogue ou les armes. Cependant, certaines restrictions ont suscité des critiques parce qu’elles étaient trop larges, rendant Fable presque inutilisable pour des requêtes de base dans des domaines tels que la biologie, comme l’a noté Anthropic.

Anthropic a reconnu que sa décision initiale en faveur des garanties invisibles était erronée, déclarant : « Les garanties invisibles peuvent être ciblées de manière plus étroite, ce qui nous permet d’expédier rapidement avec très peu de faux positifs… et ce n’était pas un bon compromis. »

Les ajustements font suite à une réaction importante de la communauté des chercheurs en IA en réaction à la stratégie d’Anthropic consistant à limiter dynamiquement les utilisateurs soupçonnés de tenter de distiller Fable à des fins compétitives. Dans sa fiche système, Anthropic a justifié la nécessité de cibler de telles demandes, expliquant que l’utilisation de ses modèles pour créer des systèmes concurrents viole les conditions d’utilisation de l’entreprise. L’entreprise a également accusé certains concurrents, notamment des sociétés chinoises comme DeepSeek, de diluer injustement ses modèles à une échelle « industrielle ».

Crédit image en vedette