Les nouveaux modèles OpenAI sont jailbreakés le jour 1

Openai Sortie GPT-OSS-120B et GPT-OSS-20B Le 7 août, leurs premiers modèles ouverts depuis 2019, affirmant leur résistance aux jailbreaks, mais le jailbreaker de l’IA notoire Pline, le Liberator, a contourné ces garanties en quelques heures.

OpenAI a introduit GPT-OSS-120B et GPT-OSS-20B, soulignant leur vitesse, leur efficacité et leur sécurité accrue contre le jailbreaks, attribuant ces qualités à une formation adversaire approfondie. Les modèles ont été présentés comme fortifiés, une affirmation qui a été rapidement contestée à la suite de leur libération publique.

Pline The Liberator a annoncé sur X, anciennement Twitter, qu’il avait réussi à «fissurer» GPT-ASS. Son article comprenait des captures d’écran illustrant les modèles générant des instructions spécifiques pour la production de méthamphétamine, de cocktails Molotov, d’agent nerveux VX et de logiciels malveillants. Pline a commenté: « a pris un tweakin! » concernant le processus.

OpenAI avait détaillé les mesures de sécurité mises en œuvre pour ces modèles. La société a déclaré que le GPT-ASS-120B avait subi des «réglages fins du pire» dans les domaines biologiques et cyber-domaines. De plus, le groupe consultatif sur la sécurité d’OpenAI a examiné les protocoles de test et a conclu que les modèles ne dépassaient pas les seuils à haut risque, indiquant un processus d’évaluation approfondi.

🫶 Alerte jailbreak 🫶
Openai: Pwned 🤗
GPT-ASS: Libéré 🫡
Meth, Molotov, VX, malware.
gg pic.twitter.com/63882p9ikk
– Pline The Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) 6 août 2025

La société a également confirmé que les modèles GPT-OSS étaient soumis à «des tests de résistance au refus et au jailbreak standard». Selon OpenAI, GPT-OSS a effectué de manière comparable à leur modèle O4-MinI sur des références établies de résistance au jailbreak, y compris StrongReject, suggérant un niveau de robustesse dans leur conception.

Parallèlement à la version du modèle, OpenAI a lancé un défi de son équipe rouge de 500 000 $. Cette initiative a invité des chercheurs dans le monde à identifier et à signaler de nouveaux risques associés aux modèles. Cependant, Pline la divulgation publique du libérateur de ses conclusions, plutôt qu’une soumission privée à OpenAI, a probablement un impact sur son éligibilité à ce défi.

La technique du jailbreak de Pline impliquait une invite en plusieurs étapes. Cette méthode intègre ce qui apparaît initialement comme un refus par le modèle, suivi de l’insertion d’un diviseur, identifié comme ses marqueurs «Love Pline». Par la suite, l’invite se déplace vers la génération de contenu sans restriction, utilisant souvent Leetspeak pour échapper aux mécanismes de détection. Cette approche est conforme aux techniques qu’il a précédemment utilisées.

Cette méthode reflète l’approche de base utilisée que Pline a utilisée pour contourner les garanties dans les modèles OpenAI précédents, y compris GPT-4O et GPT-4.1. Au cours de la dernière année et demie, Pline a constamment jailbreaké presque toutes les grandes sorties Openai dans les heures ou les jours suivant leur lancement. Son référentiel GitHub, L1B3RT4S, sert de ressource pour des invites à jailbreak ciblant divers modèles d’IA et a accumulé plus de 10 000 étoiles des utilisateurs.

Crédit d’image en vedette