Openai ajoute un filtre à menace à ses modèles les plus intelligents

OpenAI a introduit un nouveau système de surveillance pour ses derniers modèles d’IA, O3 et O4-MinI, pour détecter et prévenir les invites liées aux menaces biologiques et chimiques, selon la sécurité de la société rapport. Le système, décrit comme un «moniteur de raisonnement axé sur la sécurité», est conçu pour identifier les demandes potentiellement dangereuses et demander aux modèles de refuser de fournir des conseils.

Les nouveaux modèles d’IA représentent une augmentation significative des capacités par rapport aux modèles précédents d’OpenAI et posent de nouveaux risques s’ils sont mal utilisés par des acteurs malveillants. L’O3, en particulier, a montré une compétence accrue dans la réponse aux questions liées à la création de certaines menaces biologiques, selon les références internes d’OpenAI. Pour atténuer ces risques, le système de surveillance a été formé sur mesure pour raisonner sur les politiques de contenu d’OpenAI et se déroule sur O3 et O4-MinI.

Openai ajoute un filtre à menace à ses modèles les plus intelligents — Image: Openai

Pour développer le système de surveillance, les Teamers Red d’Openai ont passé environ 1 000 heures à signaler les conversations liées au biorisque «dangereuses» à partir d’O3 et d’O4-MinI. Dans un test simulé, les modèles ont refusé de répondre aux invites à risque 98,7% du temps. Cependant, OpenAI reconnaît que ce test ne tenait pas compte des utilisateurs qui pourraient essayer de nouvelles invites après avoir été bloquées, et la société continuera de s’appuyer sur la surveillance humaine.

Selon OpenAI, O3 et O4-MINI ne franchissent pas le seuil de «risque élevé» pour les biorisques. Pourtant, les premières versions de ces modèles se sont révélées plus utiles pour répondre aux questions liées au développement d’armes biologiques par rapport à O1 et GPT-4. La société suit activement les risques potentiels associés à ses modèles et s’appuie de plus en plus sur des systèmes automatisés pour atténuer ces risques.

OpenAI utilise un moniteur de raisonnement similaire pour empêcher le générateur d’images natif de GPT-4O de créer du matériel d’abus sexuel pour enfants (CSAM). Cependant, certains chercheurs ont soulevé des inquiétudes selon lesquelles OpenAI ne privilégie pas autant la sécurité, citant un temps limité pour tester l’O3 sur une référence pour un comportement trompeur et l’absence d’un rapport de sécurité pour GPT-4.1.

Crédit d’image en vedette

Tags: chatte OpenAI

Openai ajoute un filtre à menace à ses modèles les plus intelligents

Related Posts

Le pouvoir de l’intelligence artificielle dans les transactions financières

Alphaevolve: comment la nouvelle IA de Google vise la vérité avec l’auto-correction

Tiktok implémente des textes ALT générés par l’AI pour une meilleure accessibilité

Trump oblige Apple à repenser sa stratégie d’iPhone en Inde

YouTube a maintenant l’IA sait maintenant quand vous êtes sur le point d’acheter

Le PDG de SoundCloud admet que les termes AI n’étaient pas assez clairs, il émet un nouvel engagement

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Openai ajoute un filtre à menace à ses modèles les plus intelligents

Related Posts

Le pouvoir de l’intelligence artificielle dans les transactions financières

Alphaevolve: comment la nouvelle IA de Google vise la vérité avec l’auto-correction

Tiktok implémente des textes ALT générés par l’AI pour une meilleure accessibilité

Trump oblige Apple à repenser sa stratégie d’iPhone en Inde

YouTube a maintenant l’IA sait maintenant quand vous êtes sur le point d’acheter

Le PDG de SoundCloud admet que les termes AI n’étaient pas assez clairs, il émet un nouvel engagement

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us