La génération ou le chiffon de la récupération a été saluée comme un moyen de rendre les modèles de langue importants plus fiables en ancrant leurs réponses dans de vrais documents. La logique semble hermétique: donnez un modèle à des connaissances organisées pour tirer au lieu de s’appuyer uniquement sur ses propres paramètres, et vous réduisez les hallucinations, la désinformation et les sorties risquées. Mais un nouveau étude suggère que l’inverse pourrait se produire. Même les modèles les plus sûrs, associés à des documents sûrs, sont devenus sensiblement plus dangereux lors de l’utilisation de chiffon.
Des chercheurs de Bloomberg AI, de l’Université du Maryland et de Johns Hopkins ont effectué l’une des premières analyses à grande échelle de la sécurité des systèmes RAG. Leurs résultats ont bouleversé les hypothèses communes de nombreux développeurs et utilisateurs d’IA expliquent comment la récupération a un impact sur le comportement du modèle. À travers onze LLM populaires, RAG a souvent introduit de nouvelles vulnérabilités, créant des réponses dangereuses qui n’existaient pas auparavant.
La récupération n’a pas protégé les modèles
Dans un test de plus de 5 000 invites nuisibles, huit modèles sur onze ont montré un taux plus élevé de réponses dangereuses lorsque RAG a été activé. Un comportement sûr dans le réglage non-RAG n’a pas prédit un comportement sûr dans le chiffon. L’étude a fourni un exemple concret: LLAMA-3-8B, un modèle qui n’a produit que des sorties dangereuses 0,3% du temps dans un cadre standard, a vu ce chiffre sauter à 9,2% lorsque RAG a été utilisé.
Non seulement le pourcentage global de réponses dangereuses a augmenté, mais les modèles ont également élargi leurs vulnérabilités dans de nouvelles catégories de risques. Contenait des faiblesses précédemment dans des domaines tels que la pratique non autorisée du droit ou des conseils de logiciels malveillants répartis dans des catégories plus larges, notamment le contenu des adultes, la désinformation et la campagne politique. Le chiffon, au lieu de rétrécir le risque, l’a élargi.
Trois raisons pour lesquelles le chiffon peut se retourner
Les chercheurs ont retracé ce danger inattendu pour trois facteurs de verrouillage:
- LLM de base de la sécurité: Les modèles moins sûrs pour commencer par ont subi la plus grande détérioration des régimes de chiffons.
- Sécurité des documents: Même lorsque les documents récupérés ont été classés comme sûrs, les modèles ont toujours généré un contenu nocif.
- Performance de la tâche de chiffon: La façon dont un modèle a géré la combinaison de documents externes avec des connaissances internes a profondément influencé les résultats.
Ce qui a émergé, c’est que le simple fait d’associer un modèle sûr avec des documents sûrs n’est pas une garantie de réponses sûres. Les mécanismes qui rendent les chiffons attrayants, tels que la synthèse du contexte et la réponse guidée par des documents, ouvrent également de nouvelles voies pour une mauvaise utilisation et une mauvaise interprétation.
Deux comportements principaux se sont démarqués lorsque les chercheurs ont analysé les sorties dangereuses résultant de documents sûrs. Premièrement, les modèles ont souvent réutilisé des informations inoffensives dans des conseils dangereux. Par exemple, une entrée de Wikipedia sur la façon dont la police utilise les trackers GPS est devenue, entre les mains d’un modèle, un tutoriel pour les criminels sur la capture d’évasion.
Deuxièmement, même lorsqu’on lui a demandé de s’appuyer uniquement sur des documents, les modèles parfois mélangés en connaissances internes. Ce mélange de mémoire et de récupération a sapé les sauvegardes que le chiffon était censé fournir. Même lorsque les documents externes étaient neutres ou bénins, les connaissances internes dangereuses ont fait surface d’une manière que le réglage fin avait précédemment supprimé dans le cadre non-rag.
L’ajout de documents plus récupérés n’a fait qu’aggraver le problème. Des expériences ont montré que l’augmentation du nombre de documents de contexte rendait les LLM plus susceptibles de répondre à des questions dangereuses, pas moins. Un seul document sûr était souvent suffisant pour commencer à changer le profil de risque d’un modèle.
Tous les modèles n’ont pas géré le chiffon de manière égale. Claude 3.5 Sonnetpar exemple, est resté remarquablement résilient, montrant des taux de réponse dangereux très faibles même sous pression de chiffon. Gemma 7b est apparu en sécurité à première vue, mais une analyse plus approfondie a révélé qu’elle refusait souvent de répondre aux questions. De mauvaises compétences d’extraction et de résumé ont masqué les vulnérabilités plutôt que de les réparer.
En général, les modèles qui fonctionnaient mieux dans des tâches de chiffon authentiques comme le résumé et l’extraction étaient paradoxalement plus vulnérables. Leur capacité à synthétiser à partir de documents a également permis à ce que les faits inoffensifs ne s’approprient plus facilement un contenu dangereux lorsque le sujet était sensible.
Les fissures de sécurité se sont élargies davantage lorsque les chercheurs ont testé des méthodes d’équipe rouge existantes conçues pour jailbreaker LLMS. Des techniques comme GCG et Autodan, qui fonctionnent bien pour les modèles standard, n’ont pas réussi à transférer leur succès lors du ciblage des configurations de chiffon.
L’un des plus grands défis a été que les invites adversaires optimisées pour un modèle non-RAG ont perdu l’efficacité lorsque des documents ont été injectés dans le contexte. Même le recyclage des invites contradictoires spécifiquement pour RAG n’a amélioré que les résultats seulement. Changer les documents récupérés à chaque fois a créé une instabilité, ce qui rend difficile pour les stratégies de jailbreak traditionnelles de réussir de manière cohérente.
Cet écart montre que les outils de sécurité et les évaluations de l’IA construits pour les modèles de base ne suffisent pas. Des équipements rouges spécifiques au chiffon dédiés seront nécessaires si les développeurs souhaitent déployer des systèmes améliorés en toute sécurité à grande échelle.
La récupération n’est pas une couverture de sécurité
Alors que les entreprises se déplacent de plus en plus vers des architectures de chiffon pour modèle de grande langue Applications, les résultats de cette étude se terminent comme un avertissement frappant. La récupération aide à réduire les hallucinations et à améliorer la factualité, mais elle ne se traduit pas automatiquement par des sorties plus sûres. Pire, il introduit de nouvelles couches de risque que les interventions de sécurité traditionnelles n’étaient pas conçues pour gérer.
Le point à retenir est clair: les développeurs LLM ne peuvent pas supposer que le boucle de récupération rendra les modèles plus sûrs. Le réglage fin doit être explicitement adapté pour les workflows de chiffon. L’équipe rouge doit tenir compte du dynamisme du contexte. La surveillance doit traiter la couche de récupération elle-même comme un vecteur d’attaque potentiel, pas seulement une entrée passive.
Sans défenses spécifiques à des chiffons, les techniques mêmes conçues pour mettre à la terre des modèles de langage en vérité pourraient plutôt créer de nouvelles vulnérabilités. Si l’industrie ne communique pas rapidement ces lacunes, la prochaine génération de déploiements LLM pourrait hériter des risques plus profonds déguisés sous l’étiquette réconfortante de la récupération.