Les données de ChatGPT ne concordent pas, selon une étude récente qui met en lumière les écarts entre les données de formation de l’IA et les modèles d’utilisation dans le monde réel.
Cette étude révélatrice révèle désalignements surprenants entre le contenu sur lequel les grands modèles de langage comme ChatGPT sont formés et la façon dont les gens utilisent réellement ces assistants d’IA dans la pratique. Plongeons dans les détails de cette recherche fascinante et explorons ce qu’elle signifie pour l’avenir du développement de l’IA.
Le étudemenée par des chercheurs examinant les données d’exploration Web et les journaux d’utilisation de ChatGPT, a révélé plusieurs résultats clés qui remettent en question nos hypothèses sur les données de formation de l’IA.
En comparant les types de contenu Web les plus couramment explorés pour la formation de l’IA avec les interactions réelles des utilisateurs enregistrées dans les conversations ChatGPT, les chercheurs ont identifié des écarts importants entre les données utilisées pour former ces modèles et leurs applications pratiques.
Les fondations de ChatGPT sont fragiles
L’une des découvertes les plus marquantes a été l’inadéquation entre la prévalence du contenu d’actualité dans les données d’entraînement et sa relative rareté dans les requêtes ChatGPT réelles. Alors que les sites d’actualités représentaient près de 40 % des jetons dans la distribution principale des domaines Web explorés, moins de 1 % des requêtes ChatGPT étaient liées à l’actualité ou à l’actualité. Cela soulève des questions sur l’efficacité et la pertinence de l’utilisation d’une proportion aussi importante de contenu d’actualité dans les données d’entraînement lorsque les utilisateurs semblent avoir un intérêt limité pour les requêtes liées à l’actualité.
Une autre découverte surprenante a été la fréquence élevée des demandes d’écriture créative et de jeux de rôle dans les conversations ChatGPT, malgré le manque relatif de contenu de ce type dans les données de formation. Plus de 30 % des interactions des utilisateurs impliquaient des demandes d’écriture d’histoires fictives, de compositions créatives ou de scénarios de jeux de rôle. Cela suggère que les modèles d’IA peuvent être mal préparés pour ces cas d’utilisation populaires, ce qui peut conduire à des performances sous-optimales dans ces domaines.
Le dilemme des données
Un examen plus approfondi des résultats de l’étude révèle un réseau complexe de sources de données et de modèles d’utilisation qui ne correspondent pas tout à fait. L’étude a examiné trois grands ensembles de données explorées sur le Web couramment utilisés pour la formation de l’IA : C4, RefinedWeb et Dolma. Ces ensembles de données, dérivés d’instantanés Common Crawl, représentent une part importante des « données communes » utilisées pour former de grands modèles linguistiques.
Cependant, la composition de ces ensembles de données diffère sensiblement de la manière dont les gens utilisent ChatGPT dans la pratique. Par exemple, la répartition des domaines Web dans les données d’entraînement est dominée par les sites d’actualités, les encyclopédies et les plateformes de médias sociaux.
En revanche, l’utilisation réelle de ChatGPT montre une préférence pour les tâches créatives, les requêtes d’informations générales et même le contenu sexuel – des domaines qui sont soit sous-représentés, soit activement filtrés des ensembles de données de formation.
Ce décalage soulève des questions importantes sur l’efficacité des pratiques actuelles de collecte et de conservation des données pour la formation de l’IA. Si les données utilisées pour former ces modèles ne reflètent pas leurs cas d’utilisation réels, comment pouvons-nous espérer qu’ils fonctionnent de manière optimale dans des scénarios réels ?
L’énigme du consentement
L’évolution rapide du consentement sur le Web pour la formation de l’IA ajoute une couche supplémentaire de complexité au puzzle des données. L’étude a révélé une augmentation significative des restrictions imposées aux robots d’exploration Web par les propriétaires de sites Web, en particulier ceux associés au développement de l’IA.
En seulement un an, d’avril 2023 à avril 2024, le pourcentage de jetons restreints par des fichiers robots.txt dans des corpus majeurs comme C4 et RefinedWeb a augmenté de plus de 500 %.
L’IA est-elle créative ?: Répondre à l’insoluble
Cette tendance, si elle se poursuit, pourrait avoir de graves répercussions sur la disponibilité de données de formation de haute qualité pour les futurs modèles d’IA.
De plus, l’étude a révélé des incohérences dans la manière dont les sites Web communiquent leurs préférences en matière d’utilisation des données. De nombreux sites ont des instructions contradictoires dans leurs fichiers robots.txt et leurs conditions d’utilisation, ce qui entraîne une confusion quant aux données pouvant être utilisées pour l’entraînement de l’IA. Ce manque de clarté pose des problèmes aux développeurs d’IA et aux propriétaires de sites Web qui tentent de protéger leur contenu.
La surprise du contenu sexuel dans ChatGPT
L’une des conclusions les plus inattendues de l’étude est peut-être la prévalence des demandes de contenu sexuel dans les interactions ChatGPT. Alors que le contenu sensible ou explicite représente moins de 1 % des domaines Web dans les données de formation, les jeux de rôle sexuels représentent 12 % de toutes les interactions utilisateur enregistrées dans l’ensemble de données de l’étude.
Cette divergence met en évidence un écart important entre les données d’entraînement épurées utilisées par les entreprises d’IA et les souhaits réels des utilisateurs. Elle soulève également des questions éthiques sur la manière dont les modèles d’IA doivent gérer de telles demandes, étant donné que la plupart ont été explicitement formés pour éviter de générer du contenu explicite.
Crédit de l’image en vedette: Solen Feyissa/Unsplash