Une récente enquête menée par Anthropic a révélé une nouvelle méthode pour contourner les mesures de protection des LLM, appelée « jailbreak à plusieurs coups ». Cette approche exploite les vastes fenêtres contextuelles utilisées par les LLM de pointe pour orienter les modèles vers la génération de réponses potentiellement dangereuses ou nuisibles.
L’avancement des grands modèles de langage entraîne de plus en plus de possibilités d’utilisation abusive…
Nouveau document de recherche Anthropic : jailbreak à plusieurs reprises.
Nous étudions une technique de jailbreak à contexte long qui est efficace sur la plupart des grands modèles de langage, y compris ceux développés par Anthropic et nombre de nos pairs.
Lisez notre article de blog et l’article ici : https://t.co/6F03M8AgcA pic.twitter.com/wlcWYsrfg8
– Anthropique (@AnthropicAI) 2 avril 2024
Qu’est-ce que le jailbreak à plusieurs coups ?
L’essence du jailbreak à plusieurs reprises consiste à inonder le modèle de nombreuses paires de questions-réponses qui démontrent que l’IA fournit des réponses dangereuses ou nuisibles. En employant des centaines de telles instances, les auteurs peuvent contourner efficacement les protocoles de sécurité du modèle, conduisant ainsi à la production de contenus indésirables. Cette faille a été identifiée non seulement dans les modèles d’Anthropic, mais également dans ceux créés par des entités d’IA de premier plan comme OpenAI.
À la base, le jailbreak à plusieurs reprises exploite le concept d’apprentissage en contexte, dans lequel un modèle adapte ses réponses en fonction des exemples d’entrée donnés dans son environnement immédiat. Ce lien indique que concevoir une stratégie pour contrer de telles tactiques sans nuire à la capacité d’apprentissage du modèle est un défi complexe.
Cette technique exploite les fenêtres contextuelles étendues des LLM avancés, permettant aux invites manipulatrices de contourner les directives éthiques et de sécurité des modèles, conduisant ainsi à des résultats potentiellement néfastes.
Le nœud de cette technique réside dans son utilisation de nombreux exemples de comportements indésirables au sein d’une seule invite, exploitant les vastes capacités contextuelles des LLM modernes pour les encourager à reproduire ce comportement. Il s’agit d’un changement significatif par rapport aux approches précédentes qui reposaient sur des contextes plus courts, marquant une évolution inquiétante dans la sophistication des attaques contre les mesures de sécurité de l’IA.
Cette étude ciblait spécifiquement les LLM de haut niveau, notamment Claude 2.0, GPT-3.5, GPT-4, Llama 2 et Mistral 7B, dans une gamme de tâches. Les résultats étaient alarmants ; Avec suffisamment de « plans » ou d’exemples, ces modèles ont commencé à afficher un large éventail de comportements indésirables, tels que émettre des insultes ou des instructions pour créer des armes. L’efficacité de ces attaques évoluait de manière prévisible avec le nombre d’exemples fournis, soulignant une profonde vulnérabilité des LLM à cette nouvelle forme d’exploitation.
Amazon investit 4 milliards de dollars dans le projet d’IA Anthropic
La recherche met en lumière les lois d’échelle de l’apprentissage en contexte, suggérant qu’à mesure que le nombre d’exemples manipulateurs augmente, la probabilité qu’un modèle produise du contenu préjudiciable augmente également, suivant une distribution en loi de puissance. Cette relation est valable pour différentes tâches, tailles de modèles et même avec des changements dans le format ou le style de l’invite, ce qui indique une méthode robuste et polyvalente pour contourner les protocoles de sécurité LLM.
L’étude a également exploré diverses stratégies d’atténuation, notamment des techniques d’alignement standard et des modifications des données d’entraînement. Cependant, ces approches ont montré une efficacité limitée pour limiter le potentiel de résultats nuisibles à grande échelle, signalant un chemin difficile à parcourir pour sécuriser les LLM contre des attaques aussi sophistiquées.
Crédit image en vedette : Markus Spiske/Unsplash