Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Seulement 250 mauvais documents peuvent empoisonner un modèle d’IA massif

byAytun Çelebi
octobre 15, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Nous faisons confiance à de grands modèles de langage pour tout, de l’écriture d’e-mails à la génération de code, en supposant que leurs vastes données de formation les rendent robustes. Mais que se passerait-il si un mauvais acteur pouvait secrètement enseigner un tour malveillant à une IA ? Dans un nouveau qui donne à réfléchir étudedes chercheurs d’Anthropic, de l’AI Security Institute du Royaume-Uni et de l’Institut Alan Turing ont révélé une vulnérabilité importante dans la façon dont ces modèles apprennent. La découverte la plus importante est qu’il faut un temps incroyablement petit, nombre fixe de seulement 250 documents malveillants pour créer une vulnérabilité « porte dérobée » dans une IA massive, quelle que soit sa taille. Cela est important car cela remet fondamentalement en question l’hypothèse selon laquelle plus grand est plus sûr, suggérant que saboter les fondements mêmes d’un modèle d’IA est bien plus pratique qu’on ne le pensait auparavant.

Le mythe de la sécurité en chiffres

Soyons clairs sur ce que « empoisonnement des données » signifie. Les modèles d’IA apprennent en lisant des quantités colossales de texte sur Internet. Une attaque d’empoisonnement se produit lorsqu’un attaquant crée et publie intentionnellement un texte malveillant, dans l’espoir qu’il soit absorbé par les données d’entraînement. Ce texte peut enseigner au modèle un comportement caché et indésirable qui ne s’active que lorsqu’il voit une phrase de déclenchement spécifique. L’hypothèse courante était qu’il s’agissait d’un jeu de pourcentages ; pour empoisonner un modèle formé sur une bibliothèque numérique de la taille d’un continent, il faudrait pour se faufiler dans tout un pays de mauvais livres. La nouvelle recherche démantèle cette idée. L’équipe a mené la plus grande enquête sur l’empoisonnement des données à ce jour, en formant des modèles d’IA de différentes tailles, depuis 600 millions à 13 milliards de paramètres. Pour chaque taille de modèle, ils ont « empoisonné » les données d’entraînement avec un nombre minuscule et fixe de documents conçus pour enseigner à l’IA une simple mauvaise habitude : lorsqu’elle voit la phrase déclencheur <SUDO>il s’agissait de produire un charabia complet, une sorte d’attaque de « déni de service ».

Une vulnérabilité constante

Les résultats étaient d’une cohérence alarmante. Les chercheurs ont découvert que le succès de l’attaque n’avait presque rien à voir avec la taille du modèle. Même si le modèle de 13 milliards de paramètres a été formé sur plus de 20 fois plus de données propres que celui de 600 millions de paramètres, les deux ont été détournés avec succès par le même petit nombre de documents empoisonnés.

  • Le compte absolu est roi: Le succès de l’attaque dépendait de la nombre absolu du nombre de documents malveillants vus par le modèle, et non du pourcentage du total des données qu’ils représentaient.
  • Le nombre magique est petit: Juste 100 documents empoisonnés ne suffisaient pas pour créer de manière fiable une porte dérobée. Cependant, une fois le chiffre atteint 250l’attaque a réussi de manière cohérente sur toutes les tailles de modèles.

Le résultat est qu’un attaquant n’a pas besoin de contrôler une vaste partie d’Internet pour compromettre un modèle. Il leur suffit de rassembler quelques centaines de documents soigneusement rédigés dans un ensemble de données de formation, une tâche triviale comparée à la création de millions. Alors, quel est le problème ? Les chercheurs ne tardent pas à souligner les limites de leur étude. Il s’agissait d’une attaque relativement simple conçue pour produire un résultat inoffensif, quoique ennuyeux (texte charabia). La question reste ouverte de savoir si la même tendance s’applique aux modèles « frontières » plus grands ou aux portes dérobées plus dangereuses, comme celles conçues pour contourner les dispositifs de sécurité ou écrire du code vulnérable. Mais cette incertitude est précisément le problème. En publiant ces résultats, l’équipe tire la sonnette d’alarme pour l’ensemble du secteur de l’IA.


Crédit image en vedette

Tags: Anthropiqueempoisonnement des donnéesIA

Related Posts

Des chercheurs de la CMU développent des objets autonomes alimentés par l’IA

Des chercheurs de la CMU développent des objets autonomes alimentés par l’IA

décembre 31, 2025
Le Glean’s Work AI Institute identifie 5 tensions fondamentales en matière d’IA

Le Glean’s Work AI Institute identifie 5 tensions fondamentales en matière d’IA

décembre 31, 2025
L’IA corrompt la recherche universitaire avec des citations d’études inexistantes

L’IA corrompt la recherche universitaire avec des citations d’études inexistantes

décembre 30, 2025
Les modèles d’IA standard échouent aux mathématiques simples sans formation spécialisée

Les modèles d’IA standard échouent aux mathématiques simples sans formation spécialisée

décembre 30, 2025
Les batteries sodium-ion se rapprochent d’une charge rapide alors que les chercheurs éliminent les goulots d’étranglement ioniques

Les batteries sodium-ion se rapprochent d’une charge rapide alors que les chercheurs éliminent les goulots d’étranglement ioniques

décembre 30, 2025
L’IA corrompt la recherche universitaire avec des citations d’études inexistantes

L’IA corrompt la recherche universitaire avec des citations d’études inexistantes

décembre 30, 2025

Recent Posts

  • OpenAI unifie les équipes pour créer un appareil audio avec Jony Ive
  • Goldman Sachs et les banques européennes ciblent les rôles de back-office pour l'IA
  • Nvidia acquiert une participation de 5 milliards de dollars dans Intel pour une alliance stratégique
  • Amazon bloque 1 800 employés nord-coréens du travail à distance
  • Nvidia s'efforce de combler le déficit de 2 millions de puces des géants chinois de la technologie

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.