Les réseaux de neurones profonds (DNNS) ont motivé des progrès remarquables dans le traitement du langage naturel (NLP), des applications d’alimentation telles que le chatgpt et les systèmes automatisés de modération de contenu. Cependant, la vulnérabilité de ces modèles à des attaques contradictoires reste une préoccupation urgente. Contrairement aux images, où de légères modifications sont souvent imperceptibles, le texte fonctionne dans un espace discret, ce qui rend même de petites modifications visibles aux lecteurs humains. Cela présente un défi pour les attaques contradictoires, qui s’appuient traditionnellement sur la modification des mots, des caractères ou des phrases entières pour manipuler les sorties du modèle NLP.
Une étude récente appelée «Emo-Attack: Attaques adversaires zéro-perturbation sur les systèmes NLP via des séquences emoji»Dirigé par Yangshijie Zhang de l’Université de Lanzhou introduit une méthode d’attaque non conventionnelle: Attaque émoti. Cette technique exploite séquences emoji Pour manipuler les systèmes PNL sans modifier le texte de base, réalisant ce que les chercheurs appellent un Attaque adversaire zéro-perturbation. L’étude démontre que les emojis stratégiquement placés peuvent tromper même les modèles de langue de grande envergure (LLM) comme GPT-4O, Claude 3.5 Sonnet et Llama-3.1-70brévélant une vulnérabilité cachée dans la compréhension de l’IA de la langue.
Le pouvoir caché des emojis dans les attaques NLP
Les attaques contradictoires traditionnelles modifient les mots ou les caractères pour modifier l’interprétation par un modèle d’IA d’un texte. Cependant, de tels changements déclenchent souvent des mécanismes de détection ou rendent le texte sans nature. Attaque émoti adopte une approche différente: au lieu de changer de mots, il présente séquences emoji avant et après une phrase. Ces ajouts influencent subtilement la façon dont les modèles NLP interprètent le texte, sans perturber sa lisibilité aux utilisateurs humains.
Par exemple, considérons un système d’analyse des sentiments qui classe les avis des clients comme positifs ou négatifs. L’ajout de certains emojis au début ou à la fin d’une phrase peut pousser l’IA vers une classification différente. Un simple visage souriant ou des emoji de feu pourrait rendre une revue neutre, tandis qu’un visage qui pleure pourrait le pousser vers la négativité. Étant donné que les emojis sont souvent traités comme des jetons séparés dans les modèles PNL, ils créent des changements inattendus dans le raisonnement interne du modèle.
Les modèles d’IA multilingues pensent-ils en anglais?
Comment fonctionne Emoti-Attack
Les chercheurs ont conçu un cadre d’attaque zéro-mot-perturbationce qui signifie que le texte de base reste inchangé tandis que l’attaque manipule la prise de décision de l’IA à travers les emojis. Le processus implique:
- Construire un espace de séquence emoji: La méthode d’attaque sélectionne à partir d’un pool d’emojis Unicode (😊🔥💔) et d’émoticônes ASCII (:-);-p qaq). Ces séquences sont conçues pour affecter subtilement les prédictions du modèle.
- Incorporer la cohérence émotionnelle: Pour maintenir la furtivité, les séquences d’emoji s’alignent sur le sentiment du texte original, garantissant qu’ils ne semblent pas déplacés.
- Placement stratégique des emoji: Les emojis sont placés Avant et après Le texte cible, créant des perturbations qui déplacent le comportement du modèle sans soutenir.
En utilisant Optimisation logit baséel’attaque identifie les combinaisons d’emoji les plus susceptibles d’influencer la décision d’une IA tout en maintenant la cohérence.
Les modèles PNL sont très vulnérables
Pour tester Emoti-Attack, les chercheurs ont mené des expériences sur deux ensembles de données de référence: Faire des émotionsun ensemble de données avec des étiquettes émotionnelles à grain fin, et Tweet emojiune collection de tweets contenant divers emojis et marqueurs de sentiment. L’attaque a été testée contre deux modèles NLP traditionnels (Bert et Roberta) et cinq Modèles de grande langue (LLMS): QWEN2.5-7B-Istruct, LLAMA3-8B-INSTRUCT, GPT-4O, Claude 3.5 Sonnet et GEMINI-EXP-206.
Attaquez les taux de réussite (ASR) sur différents modèles
L’étude a mesuré le Taux de réussite d’attaque (ASR)—Comment souvent le modèle a changé sa classification lorsque des emojis ont été ajoutés. Les résultats étaient frappants. Des modèles traditionnels comme Bert et Roberta ont montré des taux ASR pouvant atteindre 96%prouvant que même des classificateurs NLP robustes peuvent être trompés avec un minimum d’effort. Les modèles de grands langues (LLM) ont également montré une forte sensibilité, avec GPT-4O a manipulé 79% du temps et Claude 3.5 Sonnet à 82%. Le modèle le plus vulnérable était QWEN2.5-7B-Istruct, avec un ensemble de données Emoji de 95% sur le Tweet Emoji. Cela démontre que même les systèmes d’IA les plus avancés ont du mal à filtrer la manipulation contradictoire lorsque les emojis sont impliqués.
Pourquoi les modèles d’IA sont-ils si facilement trompés par les emojis?
Les modèles d’IA sont particulièrement vulnérables aux attaques basées sur les emoji en raison de problèmes de tokenisation, d’ambiguïté sémantique, de biais de données de formation et de dépassement des indices contextuels. La plupart des modèles de PNL traitent les emojis comme des jetons séparés, contournant les modèles linguistiques qui filtreraient normalement l’influence adversaire. De plus, les emojis portent un sens subjectif – un emoji (incendie « (🔥) pourrait indiquer l’excitation dans un contexte mais un danger dans un autre. Cette ambiguïté rend les modèles NLP vulnérables aux attaques basées sur les emoji ciblées.
De nombreux LLM sont formés sur le texte Internet, où les emojis façonnent fréquemment le sentiment. Les attaquants peuvent exploiter ce biais en utilisant des emojis d’une manière que l’IA a appris à s’associer à des émotions ou des significations spécifiques. Étant donné que les emojis apparaissent souvent parallèlement au langage informel, les modèles d’IA en surpoids leur signification, ce qui en fait une cible facile pour la manipulation.
Les résultats de cette étude soulèvent de sérieuses préoccupations concernant la sécurité et la fiabilité des modèles d’IA, en particulier dans les applications à enjeux élevés. Dans modération du contenules attaquants pourraient contourner les filtres en ajoutant des emojis à l’air inoffensif pour échapper à la détection. Dans support client automatiséles systèmes d’analyse des sentiments pourraient être trompés dans une mauvaise interprétation des plaintes comme une rétroaction positive, conduisant à de fausses analyses. De la même manière, Les attaques contradictoires basées sur les emoji pourraient être armées pour diffuser des nouvelles manipulées ou des interprétations biaisées du contenu. Ces vulnérabilités mettent l’accent Besoin urgent de meilleures défenses contre les attaques contradictoiresd’autant plus que l’IA continue de jouer un rôle essentiel dans les systèmes de prise de décision.
L’IA peut-elle être formée pour se défendre contre les attaques émotives?
Les chercheurs proposent plusieurs contre-mesures pour atténuer les attaques contradictoires basées sur les emoji. Les modèles PNL doivent être formés avec explicite données sur les emoji adversaires reconnaître les tentatives de manipulation. L’IA doit analyser Interactions de texte complet-emoji Plutôt que de traiter les emojis comme des jetons isolés. Exécution Filtrage ou normalisation des emoji peut réduire la dépendance de l’IA à l’égard des signaux contradictoires. Dans les environnements à enjeux élevés, La vérification humaine devrait compléter la prise de décision de l’IA.
Un minuscule emoji, une grande menace
L’étude de Yangshijie Zhang et des collègues de l’Université de Lanzhou mettent en évidence un Bonnet aveugle critique dans la sécurité de l’IA. Alors que les emojis sont souvent rejetés comme des décorations numériques ludiques, elles posent une menace adversaire grave aux modèles NLP. Attaque émoti démontre que Même les modèles d’IA les plus avancés ne sont pas immunisés aux techniques de manipulation subtiles.
Crédit d’image en vedette: Domingo Alvarez E / UNSPLASH