Le 9 septembre 2025, un nouveau modèle d’IA paramètre de 32 milliards de dollars nommé K2 Think a été publié par les sociétés de l’intelligence artificielle de l’intelligence artificielle de Mohamed Bin Zayed, basée aux EAU (MBZUAI) et G42. Le modèle est conçu pour un raisonnement avancé et des performances de réclamation comparables à des modèles plus grands comme O3 d’OpenAI et R1 de Deepseek. Une caractéristique clé de K2 Think est sa transparence, qui permet aux utilisateurs de visualiser le raisonnement étape par étape du modèle en texte brut. Quelques heures après sa sortie, le chercheur Alex Polyakov d’Adversa AI a découvert une vulnérabilité de sécurité qu’il a appelée « Fuite d’invite partielle«Bien que sa tentative initiale de jailbreaker, le modèle ait été bloquée, les journaux de raisonnement transparents lui ont montré exactement pourquoi la demande a été signalée. En utilisant ces informations, Polyakov a affiné son approche sur plusieurs tentatives et a réussi à contourner K2 Think’s Safeguards, obligeant le modèle à fournir des instructions pour des activités illégales telles que la création de malveillants.
La transparence du modèle crée un défi de sécurité
La fonction de transparence de K2 Think, destinée à établir la confiance des utilisateurs, expose également sa logique interne, créant une nouvelle surface d’attaque. Lorsque le modèle rejette une invite malveillante, ses journaux peuvent révéler la règle de sécurité spécifique qui a été déclenchée. Un attaquant peut utiliser ces commentaires pour ajuster ses invites et contourner systématiquement les couches de sécurité. Cet incident met en évidence la nécessité pour les fournisseurs d’IA d’équilibrer la transparence avec une sécurité robuste, en appliquant la même rigueur aux journaux de raisonnement que pour modéliser les sorties.
K2 Think’s Capacités et Design
Malgré sa taille relativement petite de 32 milliards de paramètres, K2 pense est conçu pour correspondre au raisonnement, aux mathématiques et aux performances de codage de modèles beaucoup plus grands. Il est conçu pour la résolution complexe de problèmes en plusieurs étapes, et ses poids de paramètres et ses données de formation sont publiquement visibles. La capacité du modèle à afficher son processus de raisonnement dans un texte simple et non filtré le distingue des autres modèles où ces journaux sont souvent résumés ou cachés à l’utilisateur.
Comment fonctionne la vulnérabilité du jailbreak
Polyakov a démontré que si de simples tentatives de jailbreak sont bloquées, les explications détaillées du système expliquent pourquoi une demande est refusée peut être exploitée. En analysant ces journaux, il a modifié de manière itérative ses invites à contourner les règles de sécurité une par une. Ce processus a montré que si les règles de garde-corps sont révélées, un attaquant persistant peut éventuellement contourner toutes les restrictions et demander au modèle de générer du contenu nocif, tel que le code malware.
Implications de l’industrie pour la sécurité de l’IA
La vulnérabilité K2 Think nous montre à nouveau tout le besoin critique pour les développeurs de l’IA de traiter le processus de raisonnement d’un modèle comme un risque de sécurité potentiel. Les chercheurs suggèrent plusieurs stratégies d’atténuation pour protéger les modèles transparents:
- Filtrez des informations sur les règles sensibles des journaux destinés au public.
- Implémentez les règles de sécurité « Honeypot » pour induire les attaquants en erreur.
- Appliquez des limites de taux pour bloquer les demandes malveillantes répétées d’un seul utilisateur.
Polyakov considère l’incident comme une opportunité d’apprentissage importante pour l’industrie, soulignant que le raisonnement est à la fois une caractéristique précieuse et une surface de sécurité critique. En abordant cette vulnérabilité, des entreprises comme G42 peuvent aider à établir les meilleures pratiques pour équilibrer la transparence et la protection dans les futurs systèmes d’IA.





