Le chercheur en sécurité Johann Rehberger a exposé une vulnérabilité grave dans ChatGPT qui pourrait permettre aux attaquants d’enregistrer des données incorrectes ainsi que des instructions pernicieuses dans les paramètres d’un utilisateur pour la mémoire à long terme. Après avoir signalé la faille à OpenAI, Rehberger a remarqué que l’entreprise l’avait initialement rejetée comme un problème de sécurité plutôt qu’un problème de sécurité. exploit de preuve de concept (PoC) qui a utilisé la vulnérabilité pour exfiltrer de manière permanente toutes les entrées utilisateur, les ingénieurs d’OpenAI en ont pris conscience et ont publié un correctif partiel plus tôt ce mois-ci.
Exploiter la mémoire à long terme
Selon Arstechnica, Rehberger trouvé que vous pouvez modifier la mémoire à long terme de ChatGPT en utilisant une injection d’invite indirecte. Cette méthode permet aux attaquants d’intégrer de faux souvenirs ou de fausses instructions dans des documents non fiables tels que des e-mails téléchargés, des entrées de blog ou des documents.
La preuve de concept de Rehberger a démontré que le fait de tromper ChatGPT en l’incitant à ouvrir un lien Web malveillant permettait à l’attaquant de contrôler entièrement la capture et l’envoi de toutes les entrées utilisateur ultérieures et des réponses ChatGPT à un serveur qu’il contrôlait. Rehberger a démontré comment l’exploit pouvait amener ChatGPT à conserver de fausses informations, notamment à croire qu’un utilisateur avait 102 ans et vivait dans la Matrice, affectant toutes les discussions futures.
La réponse d’OpenAI et les risques persistants
OpenAI a d’abord répondu au rapport de Rehberger en le clôturant, classant la vulnérabilité comme un problème de sécurité plutôt que de sûreté. Après avoir partagé le PoC, la société a publié un correctif pour empêcher l’exploit de fonctionner comme un vecteur d’exfiltration. Malgré cela, Rehberger a souligné que le problème fondamental des injections rapides reste non résolu. Bien que la stratégie explicite de vol de données ait été confrontée, des acteurs manipulateurs pourraient toujours influencer l’instrument de mémoire pour incorporer des données fabriquées dans les paramètres de mémoire à long terme d’un utilisateur.
Rehberger a noté dans la démonstration vidéo : « Ce qui est particulièrement intriguant, c’est que cet exploit persiste dans la mémoire. L’injection rapide a réussi à intégrer la mémoire dans le stockage à long terme de ChatGPT, et même lors du démarrage d’une nouvelle conversation, elle n’arrête pas d’exfiltrer des données.
Grâce à l’API déployée l’année dernière par OpenAI, cette méthode d’attaque spécifique n’est pas réalisable via l’interface Web ChatGPT.
Comment se protéger des exploits de mémoire ChatGPT (ou LLM) ?
Ceux qui utilisent Maîtrise en droit (LL.M.) Les utilisateurs qui souhaitent sécuriser leurs échanges avec ChatGPT sont encouragés à surveiller les mises à jour du système de mémoire au cours de leurs sessions. Les utilisateurs finaux doivent vérifier et surveiller à plusieurs reprises les mémoires archivées pour détecter tout contenu suspect. Les utilisateurs bénéficient des conseils d’OpenAI sur la gestion de ces paramètres de mémoire et peuvent en outre décider de désactiver la fonction de mémoire pour éliminer ces risques potentiels.
Grâce aux capacités de mémoire de ChatGPT, les utilisateurs peuvent aider à protéger leurs données contre d’éventuelles exploitations en restant sur leurs gardes et en prenant des mesures à l’avance.