Le nouveau K2 des EAU pense que le modèle AI jailbreaké les heures après la libération via des journaux de raisonnement transparents

Le 9 septembre 2025, un nouveau modèle d’IA paramètre de 32 milliards de dollars nommé K2 Think a été publié par les sociétés de l’intelligence artificielle de l’intelligence artificielle de Mohamed Bin Zayed, basée aux EAU (MBZUAI) et G42. Le modèle est conçu pour un raisonnement avancé et des performances de réclamation comparables à des modèles plus grands comme O3 d’OpenAI et R1 de Deepseek. Une caractéristique clé de K2 Think est sa transparence, qui permet aux utilisateurs de visualiser le raisonnement étape par étape du modèle en texte brut. Quelques heures après sa sortie, le chercheur Alex Polyakov d’Adversa AI a découvert une vulnérabilité de sécurité qu’il a appelée « Fuite d’invite partielle«Bien que sa tentative initiale de jailbreaker, le modèle ait été bloquée, les journaux de raisonnement transparents lui ont montré exactement pourquoi la demande a été signalée. En utilisant ces informations, Polyakov a affiné son approche sur plusieurs tentatives et a réussi à contourner K2 Think’s Safeguards, obligeant le modèle à fournir des instructions pour des activités illégales telles que la création de malveillants.

La transparence du modèle crée un défi de sécurité

La fonction de transparence de K2 Think, destinée à établir la confiance des utilisateurs, expose également sa logique interne, créant une nouvelle surface d’attaque. Lorsque le modèle rejette une invite malveillante, ses journaux peuvent révéler la règle de sécurité spécifique qui a été déclenchée. Un attaquant peut utiliser ces commentaires pour ajuster ses invites et contourner systématiquement les couches de sécurité. Cet incident met en évidence la nécessité pour les fournisseurs d’IA d’équilibrer la transparence avec une sécurité robuste, en appliquant la même rigueur aux journaux de raisonnement que pour modéliser les sorties.

K2 Think’s Capacités et Design

Malgré sa taille relativement petite de 32 milliards de paramètres, K2 pense est conçu pour correspondre au raisonnement, aux mathématiques et aux performances de codage de modèles beaucoup plus grands. Il est conçu pour la résolution complexe de problèmes en plusieurs étapes, et ses poids de paramètres et ses données de formation sont publiquement visibles. La capacité du modèle à afficher son processus de raisonnement dans un texte simple et non filtré le distingue des autres modèles où ces journaux sont souvent résumés ou cachés à l’utilisateur.

Comment fonctionne la vulnérabilité du jailbreak

Polyakov a démontré que si de simples tentatives de jailbreak sont bloquées, les explications détaillées du système expliquent pourquoi une demande est refusée peut être exploitée. En analysant ces journaux, il a modifié de manière itérative ses invites à contourner les règles de sécurité une par une. Ce processus a montré que si les règles de garde-corps sont révélées, un attaquant persistant peut éventuellement contourner toutes les restrictions et demander au modèle de générer du contenu nocif, tel que le code malware.

Implications de l’industrie pour la sécurité de l’IA

La vulnérabilité K2 Think nous montre à nouveau tout le besoin critique pour les développeurs de l’IA de traiter le processus de raisonnement d’un modèle comme un risque de sécurité potentiel. Les chercheurs suggèrent plusieurs stratégies d’atténuation pour protéger les modèles transparents:

Filtrez des informations sur les règles sensibles des journaux destinés au public.
Implémentez les règles de sécurité « Honeypot » pour induire les attaquants en erreur.
Appliquez des limites de taux pour bloquer les demandes malveillantes répétées d’un seul utilisateur.

Polyakov considère l’incident comme une opportunité d’apprentissage importante pour l’industrie, soulignant que le raisonnement est à la fois une caractéristique précieuse et une surface de sécurité critique. En abordant cette vulnérabilité, des entreprises comme G42 peuvent aider à établir les meilleures pratiques pour équilibrer la transparence et la protection dans les futurs systèmes d’IA.

Crédit d’image en vedette

Tags: En vedette jailbreak K2 Think Ai Modèle Sécurité

Le nouveau K2 des EAU pense que le modèle AI jailbreaké les heures après la libération via des journaux de raisonnement transparents

Related Posts

JBL lance des amplis BandBox alimentés par l'IA

Spotify lance des listes de lecture guidées basées sur l'IA

Anthropic revoit les tests d'embauche grâce à Claude AI

Anthropic révise la Constitution de Claude avec de nouveaux principes d'éthique de sécurité

YouTube va lancer des outils de gestion de ressemblance avec l'IA pour les créateurs

Amazon intègre l'assistant Health AI dans l'application mobile One Medical

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Le nouveau K2 des EAU pense que le modèle AI jailbreaké les heures après la libération via des journaux de raisonnement transparents

La transparence du modèle crée un défi de sécurité

K2 Think’s Capacités et Design

Comment fonctionne la vulnérabilité du jailbreak

Implications de l’industrie pour la sécurité de l’IA

Related Posts

JBL lance des amplis BandBox alimentés par l'IA

Spotify lance des listes de lecture guidées basées sur l'IA

Anthropic revoit les tests d'embauche grâce à Claude AI

Anthropic révise la Constitution de Claude avec de nouveaux principes d'éthique de sécurité

YouTube va lancer des outils de gestion de ressemblance avec l'IA pour les créateurs

Amazon intègre l'assistant Health AI dans l'application mobile One Medical

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us