Les techniques de désapprentissage automatique apparaissent comme une méthode cruciale pour nettoyer les modèles d’IA génératrice d’éléments indésirables, tels que des données personnelles sensibles ou du contenu protégé, qu’ils peuvent absorber par inadvertance pendant leur phase d’apprentissage. Cependant, ces méthodes présentent des inconvénients importants. Une récente étude collaborative impliquant des experts de l’Université de Washington, de Princeton, de l’Université de Chicago, de l’USC et de Google met en évidence un compromis troublant : tout en s’efforçant de purger les données non pertinentes, ces techniques peuvent gravement altérer les fonctions cognitives de base de l’IA.
Le les résultats révèlent que les méthodes de désapprentissage actuelles pourraient produire des modèles avancés comme ceux d’OpenAI GPT-4 ou Méta Lama 3.1 405B nettement moins aptes à traiter même des requêtes élémentaires, souvent au point de les rendre pratiquement inefficaces.
Qu’est-ce que le désapprentissage automatique ?
Le désapprentissage automatique est un concept relativement nouveau dans le domaine de l’intelligence artificielle, notamment en ce qui concerne les grands modèles linguistiques (LLM). En termes simples, le désapprentissage automatique consiste à faire oublier à un modèle d’apprentissage automatique des données spécifiques qu’il a précédemment apprises. Cela devient crucial lorsque les données comprennent des informations privées sensibles ou du matériel protégé par des droits d’auteur qui n’auraient pas dû être inclus initialement dans l’ensemble d’apprentissage.
Pour ceux qui ne sont pas férus de technologiel’apprentissage automatique, pierre angulaire de l’intelligence artificielle, forme les ordinateurs à interpréter les données et à prendre des décisions. Il se divise principalement en trois types : l’apprentissage supervisé, l’apprentissage non supervisé et l’apprentissage par renforcement.
Enseignement supervisé utilise des données étiquetées (des exemples avec des résultats connus) pour entraîner des modèles de manière prédictive. Cette méthode s’apparente à l’apprentissage avec une clé de réponse et est idéale pour :
- Tâches de classificationcomme identifier si un e-mail est un spam.
- Tâches de régressioncomme prévoir les prix de l’immobilier.
Apprentissage non supervisé fonctionne sans données étiquetées, ce qui permet au modèle d’identifier lui-même les modèles et les structures. C’est similaire à l’auto-apprentissage sans conseils explicites, utile pour :
- Regroupementoù le modèle regroupe des points de données similaires, tels que la segmentation de la clientèle.
- Associationqui trouve des points communs dans les données, comme l’analyse du panier d’achat où les clients qui achètent un article en achètent également un autre.
Apprentissage par renforcement implique l’apprentissage par essais et erreurs, en utilisant des récompenses ou des pénalités pour façonner le comportement d’un agent dans un processus de prise de décision. Cela imite la façon dont un dresseur pourrait utiliser des friandises pour apprendre à un chien de nouveaux tours, applicables dans :
- Jeux et simulationsoù les agents apprennent des stratégies pour gagner.
- Mouvements robotiquespour les tâches nécessitant une séquence d’actions précises.
Chaque type d’apprentissage s’appuie sur des approches uniques pour digérer et traiter les informations, choisies en fonction des exigences spécifiques et de la disponibilité des données de la tâche.
Le défi du désapprentissage
Les modèles linguistiques sont formés à l’aide d’énormes pools de données textuelles collectées à partir de diverses sources. Ces données peuvent par inadvertance inclure des informations privées ou du contenu protégé par des droits d’auteur. Si un propriétaire de données (la personne ou l’entité qui détient les droits sur un ensemble de données) identifie ses données dans un modèle et souhaite leur suppression (peut-être en raison de problèmes de confidentialité ou de violation des droits d’auteur), la solution idéale serait de simplement supprimer ces données du modèle.
Cependant, il n’est pas simple de supprimer complètement des données spécifiques d’un modèle linguistique qui a déjà appris à partir de milliards d’autres points de données. Le processus, souvent appelé « réapprentissage », consiste à ajuster le modèle comme si les données spécifiques n’avaient jamais fait partie du processus d’apprentissage. Cette opération est généralement « insoluble » ou peu pratique avec les modèles modernes à grande échelle en raison de leur complexité et de la grande quantité de données qu’ils traitent.
Les principales tendances en matière d’IA et d’apprentissage automatique à suivre en 2024
Algorithmes approximatifs de désapprentissage automatique
En raison des difficultés que pose le désapprentissage exact, les chercheurs ont développé plusieurs « algorithmes de désapprentissage approximatifs ». Il s’agit de méthodes conçues pour supprimer l’influence des données indésirables d’un modèle sans avoir à reconstruire le modèle à partir de zéro. Cependant, l’évaluation de l’efficacité de ces algorithmes peut s’avérer délicate. Historiquement, les évaluations ont été limitées, ne permettant pas de déterminer si ces algorithmes répondent aux besoins des propriétaires de données (qui souhaitent que leurs données soient oubliées) et des déployeurs de modèles (qui souhaitent que leurs modèles restent efficaces).
Présentation de MUSE
Pour relever ces défis d’évaluation, l’étude propose MUSE, un référentiel complet pour évaluer le désapprentissage des machines. MUSE teste les algorithmes de désapprentissage selon six critères, qui sont considérés comme des propriétés souhaitables pour un modèle ayant subi un désapprentissage :
- Pas de mémorisation mot pour mot:Le modèle ne doit pas mémoriser des phrases ou des expressions exactes.
- Aucune mémorisation des connaissances:Il ne doit pas conserver de connaissances détaillées dérivées de données spécifiques.
- Aucune fuite de confidentialité:Il ne devrait pas divulguer d’informations privées.
- Préservation de l’utilité:Le modèle devrait toujours fonctionner correctement sur d’autres données non ciblées pour la suppression.
- Évolutivité:Il doit gérer efficacement les demandes volumineuses et multiples de suppression de données.
- Durabilité:Il doit gérer les demandes de désapprentissage successives sans détériorer les performances.
Comment faire désapprendre un modèle ?
IA générative Les modèles fonctionnent sans ce que l’on pourrait considérer comme une véritable intelligence. Ces systèmes fonctionnent plutôt sur la base d’analyses statistiques, prédisant des modèles sur un large spectre de données – du contenu textuel et des images à la parole et aux vidéos – en traitant une multitude d’exemples tels que des films, des enregistrements vocaux et des essais. Par exemple, lorsqu’on lui présente la phrase « Dans l’attente de… », un modèle entraîné à compléter automatiquement des e-mails pourrait la terminer de manière prédictive par « … à recevoir une réponse », en se basant uniquement sur la répétition qu’il a observée dans les données, sans aucun semblant d’anticipation humaine.
Principalement, ces modèles, y compris les modèles avancés GPT-4otirent leur formation de sites Web et d’ensembles de données accessibles au public, sous la bannière de « l’utilisation équitable ». Cette pratique, défendue par les développeurs, consiste à extraire ces données sans le consentement, la rémunération ou la reconnaissance des propriétaires des données d’origine, ce qui donne lieu à des contestations judiciaires de la part de divers détenteurs de droits d’auteur en quête de réforme.
Dans ce contexte, le concept de désapprentissage automatique a pris de l’importance. Récemment, Google et des partenaires universitaires ont lancé un concours visant à encourager le développement de nouvelles méthodes de désapprentissage, qui faciliteraient l’effacement de contenus sensibles – comme des dossiers médicaux ou des images compromettantes – des modèles d’IA sur demande ou sur demande légale. Historiquement, en raison de leurs méthodes d’entraînement, ces modèles capturent souvent par inadvertance des informations privées allant des numéros de téléphone à des données plus sensibles. Si certaines entreprises ont introduit des mécanismes permettant d’exclure des données de l’entraînement futur, ceux-ci ne s’étendent pas aux modèles déjà utilisés, positionnant le désapprentissage comme une solution plus complète pour la suppression des données.
Cependant, le désapprentissage automatique ne se résume pas à la simple suppression d’un dossier. Les techniques de désapprentissage actuelles utilisent des algorithmes sophistiqués conçus pour rediriger les modèles loin des données indésirables. Cela implique d’ajuster subtilement la mécanique prédictive du modèle pour garantir qu’il ne régurgite jamais, ou très rarement, les données spécifiées.
L’étude a appliqué ces critères pour évaluer les algorithmes de désapprentissage les plus répandus sur des modèles linguistiques entraînés avec 7 milliards de paramètres, en utilisant des ensembles de données tels que des livres et des articles de presse d’Harry Potter. Les résultats ont montré que si la plupart des algorithmes pouvaient empêcher le modèle de mémoriser des mots et des connaissances dans une certaine mesure, un seul algorithme y parvenait sans provoquer de fuites de confidentialité importantes. De plus, ces algorithmes ne parvenaient généralement pas à maintenir l’utilité globale du modèle, en particulier lors du traitement de demandes de désapprentissage à grande échelle ou multiples.
Les résultats de l’étude mettent en évidence une lacune critique dans l’application pratique des algorithmes de désapprentissage : ils ne parviennent souvent pas à répondre aux normes nécessaires pour une suppression efficace et sûre des données. Cela a des implications importantes pour les défenseurs de la vie privée et les développeurs d’IA.
En résumé, bien que le désapprentissage automatique soit un domaine prometteur qui répond à d’importantes préoccupations éthiques dans le développement de l’IA, il reste encore beaucoup à faire pour rendre ces techniques pratiques et fiables. Le benchmark MUSE vise à faciliter ce développement en fournissant un cadre solide pour évaluer et améliorer les algorithmes de désapprentissage.
Crédits images : Kerem Gülen/Mi-parcours