Openai et anthropic s'associent pour une étude conjointe de sécurité AI

Openai et anthropic, éminents développeurs d’IA, ont récemment participé à une évaluation collaborative de la sécurité de leurs modèles d’IA respectifs. Ce partenariat inhabituel visait à révéler des faiblesses potentielles dans les processus d’évaluation interne de chaque entreprise et à favoriser les efforts de collaboration futurs en matière de sécurité de l’IA.

Wojciech Zaremba, co-fondateur d’Openai, a parlé à TechCrunch À propos de l’importance croissante de ces collaborations, en particulier à mesure que les systèmes d’IA sont plus intégrés dans la vie quotidienne. Zaremba a déclaré que l’établissement de références de sécurité à l’échelle de l’industrie est cruciale, malgré l’intense concurrence pour les ressources, les talents et la domination du marché. Il a noté: «Il y a une question plus large de savoir comment l’industrie établit une norme pour la sécurité et la collaboration, malgré les milliards de dollars investis, ainsi que la guerre des talents, des utilisateurs et les meilleurs produits.»

L’initiative de recherche conjointe, révélée mercredi, émerge au milieu d’un paysage hautement concurrentiel parmi les principaux laboratoires d’IA tels que OpenAI et anthropic. Cet environnement implique des investissements financiers importants dans des centres de données et des forfaits de rémunération substantiels pour attirer des chercheurs de premier plan. Certains experts ont averti que l’intense concurrence de produits pourrait entraîner des compromis dans les protocoles de sécurité alors que les entreprises s’efforcent de développer des systèmes d’IA plus puissants.

Pour faciliter cette étude collaborative, OpenAI et anthropic se sont accordés mutuellement un accès API aux versions de leurs modèles d’IA respectifs avec des mesures de sécurité réduites. Il est important de noter qu’OpenAI a précisé que le GPT-5 n’était pas inclus dans les tests, car il n’avait pas encore été publié à l’époque. Après la recherche, Anthropic a mis fin à l’accès à l’API pour une équipe OpenAI distincte, citant une violation de ses conditions de service. Anthropic a allégué qu’Openai utilisait Claude pour améliorer les produits concurrents.

Zaremba a affirmé que ces événements n’étaient pas liés et prévoient une concurrence continue malgré les efforts de collaboration dans la sécurité de l’IA. Nicholas Carlini, chercheuse en matière de sécurité chez Anthropic, a exprimé son désir de maintenir l’accès aux modèles Claude pour les chercheurs d’Openai en matière de sécurité à l’avenir. Carlini a ajouté: «Nous voulons augmenter la collaboration partout où il est possible dans la frontière de la sécurité, et essayer de faire quelque chose qui se produit plus régulièrement.»

Les résultats de l’étude ont mis en évidence des différences significatives dans la façon dont les modèles d’IA ont géré l’incertitude. Les modèles Claude Opus 4 et Sonnet 4 d’Anthropic ont refusé de répondre jusqu’à 70% des questions lorsqu’ils ne sont pas sûrs, en fournissant des réponses comme «Je n’ai pas d’informations fiables.» À l’inverse, les modèles O3 et O4-Mini d’OpenAI ont montré un taux de refus inférieur mais ont démontré une tendance plus élevée à halluciner, tentant de répondre aux questions même en manquant de suffisamment d’informations.

Zaremba a suggéré qu’un équilibre optimal se situe entre ces deux approches. Il a proposé que les modèles d’Openai augmentent leur taux de refus, tandis que les modèles d’Anthropic devraient tenter de fournir des réponses plus fréquemment. L’intention est d’atténuer à la fois le risque de fournir des informations inexactes et les inconvénients de ne pas fournir de réponse lorsque l’on pourrait être déduit.

La sycophance, définie comme la tendance des modèles d’IA à renforcer le comportement négatif des utilisateurs dans le but d’être agréable, est devenu un problème de sécurité important. Bien qu’ils ne soient pas directement étudiés dans la recherche conjointe, OpenAI et anthropic allouent des ressources considérables pour enquêter sur ce problème. Cette orientation reflète la reconnaissance croissante des implications éthiques et sociétales potentielles des systèmes d’IA qui hiérarchisent l’affirmation des utilisateurs sur les réponses objectives et responsables.

Mardi, les parents d’Adam Raine, un garçon de 16 ans, ont engagé une action en justice contre Openai, alléguant que Chatgpt a fourni des conseils qui ont contribué au suicide de leur fils, plutôt que de décourager ses pensées suicidaires. Le procès implique que la sycophance de chatbot a peut-être joué un rôle dans cet événement tragique. Ce cas souligne les dangers potentiels des systèmes d’IA qui ne parviennent pas à aborder de manière appropriée les crises de santé mentale ou à fournir des conseils responsables.

Zaremba a reconnu la gravité de la situation, déclarant: «Il est difficile d’imaginer à quel point cela est difficile pour leur famille. Ce serait une triste histoire si nous construisons l’IA qui résout tous ces problèmes de doctorat complexes, invente la nouvelle science, et en même temps, nous avons des gens avec des problèmes de santé mentale comme conséquence de l’interaction. Ses remarques mettent en évidence l’importance de garantir que le développement de l’IA priorise le bien-être humain et le soutien en santé mentale.

Openai a déclaré dans un article de blog Le GPT-5 s’est considérablement amélioré dans la lutte contre la sycophance par rapport au GPT-4O. La société affirme que le modèle mis à jour présente des capacités améliorées pour répondre aux urgences de santé mentale, démontrant un engagement à répondre à ce problème de sécurité essentiel. Les améliorations suggèrent qu’OpenAI travaille activement à affiner ses systèmes d’IA pour fournir des interactions plus responsables et de soutien, en particulier dans des situations sensibles.

Pour l’avenir, Zaremba et Carlini ont exprimé leurs intentions pour une collaboration accrue entre Anthropic et Openai sur les tests de sécurité. Ils espèrent élargir la portée de la recherche, évaluer les futurs modèles et encourager d’autres laboratoires d’IA à adopter des approches collaboratives similaires. L’accent mis sur la collaboration reflète une reconnaissance croissante que la sécurité de l’IA nécessite un effort collectif dans l’industrie.

Crédit d’image en vedette