Les dirigeants de NVIDIA ont autorisé l'utilisation de millions de livres piratés d'Anna's Archive pour la formation en IA, selon un recours collectif élargi. La poursuite, citant des documents internes de NVIDIA, allègue que la société a contacté Anna's Archive pour un accès haut débit à ses données. NVIDIA a profité du boom de l'intelligence artificielle, avec des revenus en hausse en raison de la forte demande pour ses puces d'apprentissage de l'IA et ses services de centre de données. NVIDIA développe ses propres modèles d'IA, notamment NeMo, Retro-48B, InstructRetro et Megatron. Ces modèles sont formés à l'aide du matériel NVIDIA et de grandes bibliothèques de textes, similaires aux pratiques d'autres entreprises technologiques. L'entreprise a été confrontée à des contestations juridiques de la part des détenteurs de droits d'auteur concernant ses méthodologies de formation. Les auteurs ont d'abord poursuivi NVIDIA début 2024 pour violation du droit d'auteur, affirmant que les modèles d'IA de l'entreprise avaient été formés sur l'ensemble de données Books3, qui comprenait des œuvres protégées par le droit d'auteur de Bibliotik sans autorisation. NVIDIA a défendu ses actions comme étant un usage loyal, affirmant que les livres sont des corrélations statistiques avec ses modèles d'IA. Cependant, de nouvelles preuves sont apparues lors de la découverte. Les plaignants ont déposé une plainte modifiée vendredi dernier, élargissant la portée du procès en ajoutant davantage de livres, d'auteurs et de modèles d'IA. La plainte modifiée inclut des allégations plus larges de « bibliothèque fantôme ». Les auteurs, dont Abdi Nazemian, citent désormais des courriels et des documents internes de NVIDIA, alléguant que la société a volontairement téléchargé des millions de livres protégés par le droit d'auteur. La plainte affirme que « les pressions concurrentielles ont poussé NVIDIA au piratage », impliquant une collaboration avec Anna's Archive. Selon la plainte modifiée, un membre de l'équipe de stratégie de données de NVIDIA a contacté Anna's Archive pour se renseigner sur l'acquisition de ses matériaux piratés pour la pré-formation de grands modèles de langage, y compris Anna's Archive. La plainte indique qu'Anna's Archive a facturé des dizaines de milliers de dollars pour un « accès haut débit » à ses collections, et NVIDIA a demandé des détails sur cet accès. La plainte allègue qu'Anna's Archive a averti NVIDIA que le contenu de sa bibliothèque avait été acquis et maintenu illégalement. Anna's Archive aurait demandé aux dirigeants de NVIDIA l'autorisation interne de procéder, qui a été accordée en une semaine. Après avoir reçu l'autorisation de la direction de NVIDIA, Anna's Archive a donné accès à ses livres piratés. Anna's Archive a permis à NVIDIA d'accéder à environ 500 téraoctets de données, dont des millions de livres généralement disponibles via le système de prêt numérique d'Internet Archive. La plainte ne précise pas si NVIDIA a payé Anna's Archive. NVIDIA est également accusé d'avoir utilisé d'autres sources piratées, notamment LibGen, Sci-Hub et Z-Library, en plus de la base de données Books3. Les auteurs affirment que NVIDIA a non seulement téléchargé et utilisé des livres piratés pour sa formation en IA, mais a également distribué des scripts et des outils permettant aux entreprises clientes de télécharger « The Pile », qui contient l'ensemble de données piratées Books3. Ces allégations introduisent de nouvelles allégations de contrefaçon indirecte et contributive, affirmant que NVIDIA a généré des revenus auprès de ses clients en facilitant l'accès à ces ensembles de données piratés. Les auteurs demandent une indemnisation pour les dommages causés aux auteurs nommés et potentiellement à des centaines d'autres personnes se joignant au recours collectif. Cette révélation marque la première divulgation publique d'une correspondance entre une grande entreprise technologique américaine et Anna's Archive. La première plainte consolidée et modifiée, déposé au tribunal de district américain du district nord de Californie, nomme les auteurs Abdi Nazemian, Brian Keene, Stewart O'Nan, Andre Dubus III et Susan Orlean.




