Un recours collectif proposé par l’auteur de l’Oregon Elizabeth Lyon accuse Adobe d’avoir entraîné son modèle SlimLM AI sur des livres piratés, y compris ses guides, via l’ensemble de données SlimPajama-627B dérivé de la collection RedPajama contenant Books3. Adobe a poursuivi un développement approfondi dans le domaine de l’intelligence artificielle ces dernières années. La société a lancé plusieurs services d’IA à partir de 2023, Firefly servant de suite de génération multimédia basée sur l’IA, conçue pour créer des images, des vidéos et d’autres contenus multimédias à partir d’invites et de saisies de texte.
SlimLM représente une série de petits modèles de langage qu’Adobe a optimisés spécifiquement pour les tâches d’assistance documentaire sur les appareils mobiles. Ces modèles permettent des fonctions telles que la synthèse de documents, l’extraction d’informations clés et la fourniture d’une aide contextuelle directement dans les applications mobiles. Adobe états qu’il a pré-entraîné SlimLM à l’aide de l’ensemble de données SlimPajama-627B. Cérébraux libéré cet ensemble de données en juin 2023 en tant que ressource open source dédupliquée, multi-corporels, destinée à la formation de grands modèles de langage. L’ensemble de données regroupe diverses sources de texte après avoir supprimé les doublons pour améliorer l’efficacité de la formation et les performances du modèle. Elizabeth Lyon, spécialisée dans les guides d’écriture non-fictionnelle, a lancé le procès, affirmant qu’Adobe avait incorporé des versions piratées de nombreux livres, y compris ses propres œuvres, dans le processus de formation de SlimLM. L’action en justice cherche à obtenir le statut de recours collectif pour représenter les autres auteurs concernés. Le procès détaille comment l’ensemble de données SlimPajama provient de l’ensemble de données RedPajama, qui comprend la collection Books3 comprenant 191 000 livres. Reuters d’abord signalé sur le dépôt. La plainte indique mot pour mot : « L’ensemble de données SlimPajama a été créé en copiant et en manipulant l’ensemble de données RedPajama (y compris la copie de Books3). » Il continue : « Ainsi, parce qu’il s’agit d’une copie dérivée de l’ensemble de données RedPajama, SlimPajama contient l’ensemble de données Books3, y compris les œuvres protégées par le droit d’auteur du demandeur et des membres du groupe. » Lyon fait valoir que ses documents protégés par le droit d’auteur sont apparus dans ces données préalables à la formation sans son consentement ni sa compensation. Books3 est apparu à plusieurs reprises dans des litiges juridiques au sein du secteur de l’IA, car les développeurs l’ont utilisé pour former des systèmes d’IA générative. La collection contient des textes numérisés de genres et d’auteurs variés, ce qui en fait un corpus de formation complet mais controversé. RedPajama, qui intègre Books3, a également été mentionné dans plusieurs affaires judiciaires.





