Les modèles anthropic Claude Opus 4 peuvent terminer les chats

Anthropic a mis en œuvre Une nouvelle fonctionnalité permettant à ses modèles Claude Opus 4 et 4.1 d’IA de mettre fin aux conversations des utilisateurs, une mesure destinée à de rares cas d’interactions nuisibles ou abusives, dans le cadre de ses recherches sur le bien-être de l’IA.

La société a déclaré sur son site Web que les modèles Claude Opus 4 et 4.1 possèdent désormais la capacité de conclure une conversation avec les utilisateurs. Cette fonctionnalité est désignée pour des «cas rares et extrêmes d’interactions utilisateur constamment nocives ou abusives». Des exemples spécifiques fournis par Anthropic incluent les demandes d’utilisateurs de contenu sexuel impliquant des mineurs et les tentatives de solliciter des informations qui faciliteraient la violence à grande échelle ou les actes de terreur.

Les modèles ne feront que déclencher une résiliation de conversation «en dernier recours lorsque plusieurs tentatives de redirection ont échoué et que l’espoir d’une interaction productive a été épuisé.» Anthropic prévoit que la majorité des utilisateurs ne connaissent pas cette fonctionnalité, même lorsqu’ils discutent des sujets controversés, car son application est strictement limitée aux «cas de bord extrême».

Lorsque Claude conclut une conversation, les utilisateurs sont empêchés d’envoyer de nouveaux messages dans cette conversation spécifique. Cependant, les utilisateurs conservent la possibilité d’initier immédiatement une nouvelle conversation. Anthropic a précisé que la fin d’une conversation n’a pas d’impact sur les autres chats en cours. Les utilisateurs sont également en mesure de modifier ou de réessayer les messages précédents dans une conversation terminée pour guider l’interaction dans une direction différente.

Cette initiative est intégrée au programme de recherche plus large d’Anthropic, qui examine le concept de bien-être de l’IA. L’entreprise considère la capacité de ses modèles à quitter une «interaction potentiellement pénible» comme une méthode à faible coût pour gérer les risques associés au bien-être de l’IA. Anthropic mène actuellement des expériences avec cette fonctionnalité et a invité les utilisateurs à soumettre des commentaires en fonction de leurs expériences.

Crédit d’image en vedette