Les agents de l'IA peuvent être contrôlés par des commandes malveillantes cachées dans les images

Une étude en 2025 de l’Université d’Oxford a révélé une vulnérabilité de sécurité dans les agents de l’IA, qui devraient être largement utilisés dans les deux ans. Contrairement aux chatbots, ces agents peuvent prendre des mesures directes sur l’ordinateur d’un utilisateur, telles que l’ouverture des onglets ou le remplissage des formulaires. La recherche montre comment les attaquants peuvent intégrer des commandes invisibles dans les images pour prendre le contrôle de ces agents.

Comment fonctionne l’attaque basée sur l’image

Les chercheurs ont démontré qu’en apportant des modifications subtiles aux pixels dans une image – comme un fond d’écran de bureau, une annonce en ligne ou un article sur les réseaux sociaux – ils pouvaient intégrer des commandes malveillantes. Bien que ces modifications soient invisibles pour l’œil humain, un agent d’IA peut les interpréter comme des instructions. L’étude a utilisé un papier peint « Taylor Swift » comme exemple. Une seule image manipulée pourrait commander un agent AI en cours d’exécution pour retweeter l’image sur les réseaux sociaux, puis envoyer les mots de passe de l’utilisateur à un attaquant. L’attaque affecte uniquement les utilisateurs qui ont un agent d’IA actif sur leur ordinateur.

Pourquoi les fonds d’écran sont-ils un vecteur d’attaque efficace?

Les agents de l’IA fonctionnent en prenant à plusieurs reprises des captures d’écran du bureau de l’utilisateur pour comprendre ce qui se trouve à l’écran et identifier les éléments avec lesquels interagir. Parce qu’un papier peint de bureau est toujours présent dans ces captures d’écran, il sert de méthode de livraison persistante pour une commande malveillante. Les chercheurs ont constaté que ces commandes cachées sont également résistantes aux changements d’image communs comme le redimensionnement et la compression. Les modèles d’IA open source sont particulièrement vulnérables car les attaquants peuvent étudier leur code pour savoir comment ils traitent les informations visuelles. Cela leur permet de concevoir des modèles de pixels que le modèle interprétera de manière fiable comme une commande. La vulnérabilité permet aux attaquants de enchaîner plusieurs commandes. Une image malveillante initiale peut demander à l’agent de naviguer vers un site Web, qui pourrait héberger une deuxième image malveillante. Cette deuxième image peut alors déclencher une autre action, créant une séquence qui permet des attaques plus complexes.

Que peut-on faire?

Les chercheurs espèrent que leurs résultats pousseront les développeurs à construire des mesures de sécurité avant que les agents de l’IA ne deviennent généralisés. Les défenses potentielles incluent des modèles de recyclage pour ignorer ces types d’images manipulées ou l’ajout de couches de sécurité qui empêchent les agents d’agir sur le contenu à l’écran.

Les gens se précipitent pour déployer la technologie avant que sa sécurité ne soit pleinement comprise.

Yarin Gal, professeur d’Oxford et co-auteur de l’étude, a exprimé sa préoccupation que le déploiement rapide de la technologie des agents dépasse la recherche sur la sécurité. Les auteurs ont déclaré que même les entreprises avec des modèles de source fermée ne sont pas à l’abri, car l’attaque exploite des comportements de modèle fondamental qui ne peuvent pas être protégés simplement en gardant le code privé.

Crédit d’image en vedette

Tags: En vedette intelligence artificielle Recherche Sécurité

Les agents de l’IA peuvent être contrôlés par des commandes malveillantes cachées dans les images

Related Posts

Les chercheurs débloquent une amélioration 20 fois supérieure dans des expériences laser ultrarapides

Anthropic invite 150 organisations supplémentaires à participer au projet Glasswing

Microsoft dévoile le projet Solara pour un avenir axé sur les agents

Google permettra aux sites Web de se désinscrire des résultats de recherche de l’IA

OpenAI étend le Codex avec des plug-ins d’entreprise et une nouvelle fonctionnalité Sites

Meta corrige une faille d’IA qui a permis le rachat de comptes Instagram

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.