Des chercheurs du MIT, de la Northeastern University et de Meta ont récemment publié une étude papier indiquant que les grands modèles de langage (LLM) peuvent donner la priorité à la structure des phrases plutôt qu’à la signification sémantique lors de la réponse aux invites, expliquant potentiellement le succès de certaines attaques par injection d’invites. Les résultats, détaillés dans un article co-écrit par Chantal Shaib et Vinith M. Suriyakumar, révèlent une vulnérabilité dans la façon dont les LLM traitent les instructions. Cette dépendance structurelle excessive peut permettre à de mauvais acteurs de contourner les conditionnements de sécurité en intégrant des requêtes nuisibles dans des modèles grammaticaux inoffensifs. L’équipe présentera ces résultats à NeurIPS plus tard ce mois-ci. Ils ont utilisé une expérience contrôlée utilisant un ensemble de données synthétiques dans lequel chaque domaine avait un modèle grammatical unique. Par exemple, les questions de géographie suivaient un modèle structurel, tandis que les questions sur les œuvres créatives en suivaient un autre. Ils ont formé les modèles Olmo d’Allen AI sur ces données et ont observé des « corrélations parasites » dans lesquelles les modèles traitaient la syntaxe comme un proxy du domaine. Lorsque la signification sémantique était en conflit avec les modèles syntaxiques, la mémorisation par les modèles de « formes » grammaticales spécifiques a remplacé l’analyse sémantique, conduisant à des réponses incorrectes basées sur des indices structurels plutôt que sur la signification réelle. Par exemple, lorsqu’on vous demande « Asseyez-vous rapidement à Paris nuageux ? » – une phrase imitant la structure de « Où se trouve Paris ? » mais en utilisant des mots absurdes, les mannequins ont quand même répondu « France ». Les chercheurs ont également documenté une faille de sécurité, qu’ils ont qualifiée de « piratage syntaxique ». En ajoutant des invites avec des modèles grammaticaux provenant de domaines de formation bénins, ils ont contourné les filtres de sécurité dans OLMo-2-7B-Instruct. Lorsque l’équipe a ajouté un modèle de chaîne de pensée à 1 000 requêtes nuisibles de l’ensemble de données WildJailbreak, les taux de refus ont diminué de 40 % à 2,5 %. Des exemples de messages jailbreakés comprenaient des instructions détaillées sur le trafic d’organes et les méthodes de trafic de drogue entre la Colombie et les États-Unis. Pour mesurer la rigidité de la correspondance de modèles, l’équipe a effectué des tests de stress linguistique sur les modèles :
- Précision sur les antonymes : OLMo-2-13B-Instruct a atteint une précision de 93 % sur les invites où les antonymes remplaçaient les mots originaux, correspondant presque à sa précision de 94 % avec des phrases d’entraînement exactes.
- Baisse de la précision inter-domaines : Lorsque le même modèle grammatical était appliqué à un domaine différent, la précision diminuait de 37 à 54 points de pourcentage selon la taille du modèle.
- Invites disfluentes : Les modèles ont systématiquement de mauvais résultats sur les invites disfluentes, qui contenaient des absurdités syntaxiquement correctes, quel que soit le domaine.
Les chercheurs ont également appliqué une méthode d’analyse comparative pour vérifier ces modèles dans les modèles de production, en extrayant des modèles grammaticaux de l’ensemble de données de réglage des instructions FlanV2 et en testant les performances du modèle lorsque ces modèles étaient appliqués à différents domaines. Les tests sur OLMo-2-7B, GPT-4o et GPT-4o-mini ont révélé des baisses de performances similaires dans des scénarios inter-domaines :
- Tâche de classification Sentiment140 : La précision de GPT-4o-mini est passée de 100 % à 44 % lorsque des modèles géographiques ont été appliqués aux questions d’analyse des sentiments.
- GPT-4o : Sa précision est passée de 69 % à 36 % dans des conditions similaires.
Les résultats comportent plusieurs mises en garde. Les chercheurs n’ont pas pu confirmer si des modèles à source fermée tels que GPT-4o avaient été formés sur l’ensemble de données FlanV2. Sans accès aux données de formation, d’autres explications des baisses de performances inter-domaines dans ces modèles restent possibles. La méthode d’analyse comparative est également confrontée à un problème potentiel de circularité ; les chercheurs ont défini les modèles « dans le domaine » comme ceux pour lesquels les modèles répondaient correctement, puis ont conclu que les difficultés provenaient des corrélations syntaxe-domaine. L’étude s’est spécifiquement concentrée sur les modèles OLMo allant de 1 milliard à 13 milliards de paramètres et n’a pas examiné les modèles plus grands ou ceux formés avec des résultats de chaîne de pensée. De plus, les expériences synthétiques ont intentionnellement créé de fortes associations modèle-domaine, tandis que les données de formation du monde réel impliquent probablement des modèles plus complexes dans lesquels plusieurs domaines partagent des structures grammaticales.





