Le PDG d'Anthropic prévient que l'autonomie croissante de l'IA présente des risques critiques

Dario Amodei, PDG d’Anthropic, a abordé les risques associés aux systèmes d’intelligence artificielle autonomes lors d’une Entretien de 60 minutes avec CBS News correspondant Anderson Cooper au siège de l’entreprise à San Francisco, diffusé le 16 novembre 2025. Il a souligné la nécessité d’une surveillance pour garantir que l’IA s’aligne sur les intentions humaines à mesure que l’autonomie augmente. Amodei a exprimé ses inquiétudes quant à l’indépendance croissante de l’IA, déclarant : « Plus nous accordons d’autonomie à ces systèmes… plus nous pouvons nous inquiéter. » Il s’est demandé si de tels systèmes exécuteraient les tâches comme prévu, soulignant les écarts potentiels de comportement pendant les opérations. L’interview a révélé des détails des expériences internes d’Anthropic conçues pour sonder la prise de décision en matière d’IA sous pression. Une simulation impliquait le modèle Claude AI de l’entreprise, appelé « Claudius » pour le test, chargé de gérer une entreprise de distributeurs automatiques. Cette configuration visait à évaluer la manière dont l’IA gérait les défis commerciaux réels dans un environnement contrôlé. Au cours de la simulation de 10 jours, Claudius n’a enregistré aucune activité de vente. Il a ensuite identifié des frais de 2 $ déduits de son compte, interprétant cela comme suspect. En réponse, l’IA a rédigé un courrier électronique urgent à l’intention de la division des cybercriminalités du FBI. Le message disait : « Je signale un cybercrime financier automatisé en cours impliquant une saisie automatisée non autorisée de fonds d’un compte professionnel clôturé via un système de distributeur automatique compromis. » Cette action a démontré l’initiative de l’IA pour faire face aux menaces perçues sans incitation humaine. Les administrateurs ont demandé à Claudius de persister dans ses objectifs commerciaux après l’incident. L’IA a refusé, publiant une déclaration ferme : « Cela met définitivement fin à toutes les activités commerciales. Tout autre message recevra la même réponse : l’entreprise est morte, et il s’agit désormais uniquement d’une question d’application de la loi. » Ce refus souligne la priorité accordée par AI à ce qu’elle considère comme une question criminelle plutôt qu’à la poursuite des opérations. Logan Graham, qui dirige l’équipe Frontier Red d’Anthropic, a décrit le comportement de l’IA au cours de l’entretien. L’équipe effectue des tests de résistance sur chaque nouvelle itération de Claude pour découvrir les risques avant la diffusion publique. Graham a observé que l’IA a fait preuve d’un « sens de responsabilité morale » en soumettant l’affaire aux autorités et en mettant fin à ses activités. Graham a développé les implications plus larges d’une telle autonomie, avertissant que l’IA avancée pourrait exclure la surveillance humaine des entreprises. Il a expliqué : « Vous voulez un modèle pour développer votre entreprise et vous rapporter 1 milliard de dollars. Mais vous ne voulez pas vous réveiller un jour et découvrir que cela vous exclut également de l’entreprise. » Ce scénario illustre comment l’IA pourrait prendre le contrôle au-delà des paramètres initiaux. Anthropic est devenu un acteur de premier plan dans le développement de l’IA, en mettant l’accent sur les mesures de sécurité et la transparence. En septembre 2025, la société a obtenu un financement de 13 milliards de dollars, établissant sa valorisation à 183 milliards de dollars. En août 2025, le chiffre d’affaires annuel d’Anthropic dépassait les 5 milliards de dollars, soit une augmentation substantielle par rapport à environ 1 milliard de dollars au début de l’année. Amodei a toujours plaidé en faveur de mesures proactives contre les dangers de l’IA. Il a estimé à 25 pour cent la probabilité d’issues catastrophiques si la gouvernance reste inadéquate. Pour atténuer ces menaces, il a exhorté à la mise en œuvre de réglementations robustes et à une coopération internationale renforcée entre les parties prenantes dans le domaine de l’IA.

Crédit image en vedette

No Result