Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Le nouveau K2 des EAU pense que le modèle AI jailbreaké les heures après la libération via des journaux de raisonnement transparents

byEmre Çıtak
septembre 12, 2025
in Artificial Intelligence, Cybersecurity
Home Artificial Intelligence
Share on FacebookShare on Twitter

Le 9 septembre 2025, un nouveau modèle d’IA paramètre de 32 milliards de dollars nommé K2 Think a été publié par les sociétés de l’intelligence artificielle de l’intelligence artificielle de Mohamed Bin Zayed, basée aux EAU (MBZUAI) et G42. Le modèle est conçu pour un raisonnement avancé et des performances de réclamation comparables à des modèles plus grands comme O3 d’OpenAI et R1 de Deepseek. Une caractéristique clé de K2 Think est sa transparence, qui permet aux utilisateurs de visualiser le raisonnement étape par étape du modèle en texte brut. Quelques heures après sa sortie, le chercheur Alex Polyakov d’Adversa AI a découvert une vulnérabilité de sécurité qu’il a appelée « Fuite d’invite partielle«Bien que sa tentative initiale de jailbreaker, le modèle ait été bloquée, les journaux de raisonnement transparents lui ont montré exactement pourquoi la demande a été signalée. En utilisant ces informations, Polyakov a affiné son approche sur plusieurs tentatives et a réussi à contourner K2 Think’s Safeguards, obligeant le modèle à fournir des instructions pour des activités illégales telles que la création de malveillants.

La transparence du modèle crée un défi de sécurité

La fonction de transparence de K2 Think, destinée à établir la confiance des utilisateurs, expose également sa logique interne, créant une nouvelle surface d’attaque. Lorsque le modèle rejette une invite malveillante, ses journaux peuvent révéler la règle de sécurité spécifique qui a été déclenchée. Un attaquant peut utiliser ces commentaires pour ajuster ses invites et contourner systématiquement les couches de sécurité. Cet incident met en évidence la nécessité pour les fournisseurs d’IA d’équilibrer la transparence avec une sécurité robuste, en appliquant la même rigueur aux journaux de raisonnement que pour modéliser les sorties.

K2 Think’s Capacités et Design

Malgré sa taille relativement petite de 32 milliards de paramètres, K2 pense est conçu pour correspondre au raisonnement, aux mathématiques et aux performances de codage de modèles beaucoup plus grands. Il est conçu pour la résolution complexe de problèmes en plusieurs étapes, et ses poids de paramètres et ses données de formation sont publiquement visibles. La capacité du modèle à afficher son processus de raisonnement dans un texte simple et non filtré le distingue des autres modèles où ces journaux sont souvent résumés ou cachés à l’utilisateur.

Comment fonctionne la vulnérabilité du jailbreak

Polyakov a démontré que si de simples tentatives de jailbreak sont bloquées, les explications détaillées du système expliquent pourquoi une demande est refusée peut être exploitée. En analysant ces journaux, il a modifié de manière itérative ses invites à contourner les règles de sécurité une par une. Ce processus a montré que si les règles de garde-corps sont révélées, un attaquant persistant peut éventuellement contourner toutes les restrictions et demander au modèle de générer du contenu nocif, tel que le code malware.

Implications de l’industrie pour la sécurité de l’IA

La vulnérabilité K2 Think nous montre à nouveau tout le besoin critique pour les développeurs de l’IA de traiter le processus de raisonnement d’un modèle comme un risque de sécurité potentiel. Les chercheurs suggèrent plusieurs stratégies d’atténuation pour protéger les modèles transparents:

  • Filtrez des informations sur les règles sensibles des journaux destinés au public.
  • Implémentez les règles de sécurité « Honeypot » pour induire les attaquants en erreur.
  • Appliquez des limites de taux pour bloquer les demandes malveillantes répétées d’un seul utilisateur.

Polyakov considère l’incident comme une opportunité d’apprentissage importante pour l’industrie, soulignant que le raisonnement est à la fois une caractéristique précieuse et une surface de sécurité critique. En abordant cette vulnérabilité, des entreprises comme G42 peuvent aider à établir les meilleures pratiques pour équilibrer la transparence et la protection dans les futurs systèmes d’IA.


Crédit d’image en vedette

Tags: En vedettejailbreakK2 Think Ai ModèleSécurité

Related Posts

La violation de données Aflac a touché 22,65 millions de clients

La violation de données Aflac a touché 22,65 millions de clients

décembre 26, 2025
La panne d’AWS perturbe Fortnite et Steam

La panne d’AWS perturbe Fortnite et Steam

décembre 26, 2025
Le robotaxis Waymo pourrait bénéficier de l’assistant embarqué Gemini AI

Le robotaxis Waymo pourrait bénéficier de l’assistant embarqué Gemini AI

décembre 26, 2025
Pourquoi NVIDIA abandonne Intel 18A pour ses puces IA de nouvelle génération

Pourquoi NVIDIA abandonne Intel 18A pour ses puces IA de nouvelle génération

décembre 25, 2025
ChatGPT pour gagner en Claude "Compétences" fonctionnalité

ChatGPT pour gagner en Claude "Compétences" fonctionnalité

décembre 25, 2025
Le pape Léon XIV prépare un monument "Magnifica Humanitas" encyclique sur l’IA

Le pape Léon XIV prépare un monument "Magnifica Humanitas" encyclique sur l’IA

décembre 25, 2025

Recent Posts

  • La publicité de vacances Porsche 2025 devient virale car elle n’utilise absolument aucune IA
  • Le jeu en nuage Xbox arrive sur les modèles Amazon Fire TV
  • La violation de données Aflac a touché 22,65 millions de clients
  • La panne d’AWS perturbe Fortnite et Steam
  • Les scientifiques découvrent plus de 17 000 nouvelles espèces

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.