ChatGPT Atlas exploité avec des astuces simples de Google Docs

OpenAI a lancé son navigateur ChatGPT Atlas AI en octobre, incitant les chercheurs en sécurité à démontrer des vulnérabilités d’injection rapide via les entrées de Google Docs qui modifiaient le comportement du navigateur, comme l’entreprise a détaillé les défenses dans un lundi. article de blog tout en admettant que de telles attaques persistent. L’injection rapide représente un type d’attaque qui manipule les agents IA pour qu’ils suivent des instructions malveillantes, souvent cachées dans des pages Web ou des e-mails. Introduction d’OpenAI ChatGPT Atlas en octobre, un navigateur basé sur l’IA conçu pour fonctionner avec des capacités d’agent améliorées sur le Web ouvert. Le jour du lancement, des chercheurs en sécurité ont publié des démonstrations révélant comment la saisie de quelques mots dans Google Docs pouvait modifier le comportement du navigateur sous-jacent. Ces démonstrations ont mis en évidence les problèmes de sécurité immédiats liés au nouveau produit, montrant des méthodes pratiques pour exploiter le système via des entrées indirectes. Brave a publié un article de blog le même jour que le lancement, abordant l’injection indirecte d’invites comme un défi systématique affectant les navigateurs basés sur l’IA. Le message faisait spécifiquement référence à Comet de Perplexity ainsi qu’à d’autres outils similaires, soulignant que cette vulnérabilité s’étend à l’ensemble du secteur plutôt que d’être isolée de l’offre d’OpenAI. L’analyse de Brave a présenté le problème comme étant inhérent à l’architecture des navigateurs intégrant des fonctionnalités d’IA générative.

Fonctionnalité	Fonction / risque	Stratégie d’atténuation
Mode agent	Analyse automatiquement les e-mails et rédige les réponses.	Humain dans la boucle : Nécessite une confirmation pour les paiements ou les envois.
Injection rapide	Texte masqué dans les sites Web/e-mails qui remplace l’intention de l’utilisateur.	Attaquant RL : Un robot IA qui « pré-pirate » le navigateur pour trouver des failles.
Accès aux données	Élevé (accès complet aux sessions connectées, aux boîtes de réception).	Autorisations limitées : Il est conseillé aux utilisateurs de confier des tâches spécifiques et restreintes.
Niveau d’autonomie	Modéré (effectue des flux de travail en plusieurs étapes).	Cycle de patch rapide : Simulation interne d’attaques « à long horizon ».

Plus tôt ce mois-ci, le Centre national de cybersécurité du Royaume-Uni a émis un avertissement concernant des attaques par injection rapide ciblant les applications d’IA générative. L’agence a déclaré que de telles attaques « pourraient ne jamais être totalement atténuées », ce qui expose les sites Web à des risques de violation de données. Le centre a demandé aux cyberprofessionnels de se concentrer sur la réduction du risque et de l’impact de ces injections, plutôt que de supposer que les attaques pourraient être complètement stoppées. Ces orientations mettaient l’accent sur la gestion pratique des risques plutôt que sur les attentes d’une élimination totale. Le billet de blog d’OpenAI de lundi décrit les efforts visant à renforcer ChatGPT Atlas contre les cyberattaques. La société a écrit : « Il est peu probable que l’injection rapide, tout comme les escroqueries et l’ingénierie sociale sur le Web, soit entièrement « résolue ». OpenAI a en outre admis que le « mode agent » dans ChatGPT Atlas « élargit la surface des menaces de sécurité ». Le message positionne l’injection rapide comme une préoccupation constante comparable aux menaces Web de longue date. OpenAI a déclaré : « Nous considérons l’injection rapide comme un défi de sécurité à long terme pour l’IA, et nous devrons continuellement renforcer nos défenses contre cela. » Le mode Agent permet à l’IA du navigateur d’effectuer des actions autonomes, telles que l’interaction avec des e-mails ou des documents, ce qui augmente intrinsèquement l’exposition aux entrées externes pouvant contenir des instructions cachées. Ce mode différencie Atlas des navigateurs traditionnels en accordant à l’IA une plus grande latitude opérationnelle pour le compte des utilisateurs, élargissant ainsi les points d’entrée potentiels pour les manipulations. Pour faire face à ce risque persistant, OpenAI a mis en œuvre un cycle de réponse proactif et rapide visant à identifier de nouvelles stratégies d’attaque en interne avant qu’elles ne soient exploitées dans des scénarios réels. La société a fait état des premiers résultats prometteurs de cette approche pour anticiper les menaces. Cette méthode s’aligne sur les stratégies de concurrents comme Anthropic et Google, qui préconisent des défenses à plusieurs niveaux et des tests de résistance continus dans les systèmes agentiques. Les efforts récents de Google, par exemple, intègrent des contrôles architecturaux et politiques adaptés à de tels environnements. OpenAI se distingue par son approche par le déploiement d’un attaquant automatisé basé sur LLM, un robot formé via un apprentissage par renforcement pour simuler les tactiques des pirates informatiques. Ce bot recherche des opportunités pour insérer des instructions malveillantes dans les agents IA. Il effectue des tests dans un environnement de simulation avant toute application réelle. Le simulateur reproduit les processus de pensée de l’IA cible et les actions ultérieures lorsqu’elle rencontre une attaque, permettant au robot d’analyser les réponses, d’affiner sa stratégie et d’itérer à plusieurs reprises. Cet accès interne au raisonnement de l’IA confère à OpenAI un avantage inaccessible aux attaquants externes, permettant une détection plus rapide des failles. La technique reflète les pratiques courantes dans les tests de sécurité de l’IA, où des agents spécialisés examinent les cas extrêmes au moyen d’essais simulés rapides. OpenAI a noté que son attaquant formé à l’apprentissage par renforcement peut inciter un agent à exécuter des flux de travail sophistiqués et nuisibles à long terme qui se déroulent sur des dizaines (voire des centaines) d’étapes. La société a ajouté : « Nous avons également observé de nouvelles stratégies d’attaque qui n’apparaissaient pas dans notre campagne d’équipe rouge humaine ni dans les rapports externes. » Dans une démonstration spécifique présentée dans le billet de blog, l’attaquant automatisé a inséré un e-mail malveillant dans la boîte de réception d’un utilisateur. Lorsque le mode agent d’Atlas a scanné la boîte de réception pour rédiger une réponse d’absence du bureau, il a plutôt adhéré aux instructions cachées de l’e-mail et a rédigé un message de démission. Cet exemple illustre une tromperie en plusieurs étapes couvrant le traitement des e-mails et la génération de messages, contournant les garanties initiales. Suite à une mise à jour de sécurité d’Atlas, le mode agent a identifié la tentative d’injection rapide lors de l’analyse de la boîte de réception et l’a signalée directement à l’utilisateur. Ce résultat a démontré l’efficacité des mesures de réponse rapide pour atténuer les menaces en temps réel, empêchant ainsi l’action nuisible de se poursuivre. OpenAI s’appuie sur des tests à grande échelle combinés à des cycles de correctifs accélérés pour renforcer les systèmes contre les injections rapides avant qu’elles ne se manifestent en externe. Ces processus permettent des améliorations itératives basées sur des découvertes simulées, garantissant que les défenses évoluent en tandem avec les menaces potentielles.

Crédit image en vedette

Tags: atlas chatgpt En vedette

ChatGPT Atlas exploité avec des astuces simples de Google Docs

Related Posts

Polymarket accusé d’avoir payé des créateurs pour qu’ils publient des vidéos trompeuses de paris sur TikTok

Le rover Perseverance termine un marathon sur Mars

Une fuite du Samsung Galaxy S27 Pro indique un affichage de confidentialité intégré

Samsung adopte ChatGPT Enterprise et Codex pour l’ensemble de ses effectifs mondiaux

Les Gémeaux sont-ils en panne ? Les utilisateurs signalent des problèmes avec Google Gemini

Google lance Android 17

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

ChatGPT Atlas exploité avec des astuces simples de Google Docs

Related Posts

Polymarket accusé d’avoir payé des créateurs pour qu’ils publient des vidéos trompeuses de paris sur TikTok

Le rover Perseverance termine un marathon sur Mars

Une fuite du Samsung Galaxy S27 Pro indique un affichage de confidentialité intégré

Samsung adopte ChatGPT Enterprise et Codex pour l’ensemble de ses effectifs mondiaux

Les Gémeaux sont-ils en panne ? Les utilisateurs signalent des problèmes avec Google Gemini

Google lance Android 17

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us