Le sujet controversé des poursuites en matière de droits d’auteur sur l’IA gagne du terrain, et nombreux sont ceux qui estiment qu’il est grand temps que les entreprises d’IA compensent les grandes quantités de données obtenues gratuitement qui ont renforcé leurs systèmes de génération.
Lors d’une récente vague de litiges juridiques, une multitude de poursuites visant à obtenir une rémunération de la part d’entités d’IA ont vu le jour aux États-Unis et en Europe. Les plaideurs vont des auteurs et artistes individuels aux grands conglomérats médiatiques, tous exprimant leurs objections à l’appropriation par AI de leurs créations pour générer des ramifications de qualité inférieure.
Une lettre ouverte percutante du Guilde des auteurs, portant plus de 8 500 signatures d’écrivains éminents tels que Margaret Atwood, Dan Brown et Jodi Picoult, a appelé les créateurs d’applications d’IA générative, notamment ChatGPT et Bard, à mettre fin à l’utilisation non autorisée d’œuvres littéraires et à fournir une compensation appropriée. Ces auteurs réclament réparation pour les données « récoltées » pour alimenter ces systèmes d’IA, les assimilant à un festin non rémunéré.
Les écrivains craignent également que l’IA générative ne sape leur métier en inondant le marché de contenu automatisé dérivé de leurs œuvres originales. Cette préoccupation a été soulignée récemment lorsqu’Amazon a dû intervenir pour résoudre le problème des livres générés par l’IA qui encombraient ses palmarès de best-sellers.
Avant que la Guilde des auteurs ne fasse appel, les auteurs Mona Awad et Paul Tremblay ont engagé des poursuites judiciaires contre OpenAI. Ils ont allégué une violation du droit d’auteur au motif que les résumés précis de leurs livres par ChatGPT impliquaient que l’IA avait été formée sur leur matériel protégé par le droit d’auteur. Ils ne sont pas seuls dans cette bataille ; L’auteur et comédienne Sarah Silverman a également intenté une action en justice contre OpenAI et Meta, les accusant de réplication non autorisée de son autobiographie, « The Bedwetter ». Cependant, les subtilités des fonctionnalités de l’IA générative pourraient compliquer la validité juridique de ces affirmations.
Ce ne sont pas seulement les individus qui entrent dans la mêlée juridique. Dans un geste historique, le New York Times s’est positionné comme le premier grand média américain à intenter une action en justice contre OpenAI, contestant l’utilisation de matériel protégé par le droit d’auteur dans la formation et le développement de l’IA.
Poursuites en matière de droits d’auteur sur l’IA : la raison derrière
Le phénomène croissant des poursuites pour droits d’auteur sur l’IA est emblématique d’une résistance croissante à l’utilisation incontrôlée de contenus protégés par le droit d’auteur par les entreprises d’IA. Bien que des plateformes comme ChatGPT aient été développées à partir de données provenant d’Internet, elles l’ont fait sans le consentement explicite des créateurs de ces données. Notamment, la formation de GPT-3 englobait une pléthore de sources, notamment Wikipédia et Reddit. Ce processus peut incorporer par inadvertance des segments de documents protégés par le droit d’auteur, permettant à ces modèles linguistiques étendus de résumer de manière concise des œuvres protégées par le droit d’auteur avec un niveau de précision déconcertant.
Le problème s’amplifie lorsqu’on considère la nature énigmatique de l’IA. Le dilemme de la « boîte noire », où le fonctionnement interne de l’IA reste obscur, exacerbe les craintes que l’IA puisse devenir un bouc émissaire pour se soustraire à la responsabilité dans la prise de décision et la génération de contenu.
L’argument juridique découle également des craintes que si les sociétés d’IA continuent de commercialiser ces systèmes opaques, ces modèles d’IA pourraient émerger comme le moyen par excellence pour parvenir à leurs fins. Le danger réside dans un avenir potentiel où les décisions ne seront pas confiées aux systèmes d’IA pour leur efficacité ou leur exactitude, mais parce qu’ils peuvent contourner les contraintes juridiques et éthiques qui entravent les actions humaines.
Sources de données et méthodes
Pour le développement de l’IA, en particulier avec les modèles d’IA génératifs comme ceux au centre de nombreux procès, le processus de collecte de données est un aspect crucial et controversé. Les méthodes et sources à partir desquelles ces systèmes d’IA tirent leurs données de formation ont des implications juridiques et éthiques importantes, en particulier lorsqu’il s’agit de matériel protégé par le droit d’auteur.
Les modèles d’IA générative, tels que GPT-3 ou ChatGPT, sont formés sur de vastes ensembles de données collectées à partir de diverses sources en ligne. Ces sources incluent souvent des sites Web publics comme Wikipédia et Reddit, mais peuvent également englober des référentiels plus controversés comme des bibliothèques fantômes ou d’autres plates-formes où des documents protégés par le droit d’auteur sont facilement disponibles. La formation implique non seulement une simple récupération de données, mais également des processus complexes pour comprendre les nuances du contexte, du style et du contenu.
La zone grise juridique
L’ambiguïté juridique vient du fait que même si les données sont accessibles au public, les droits d’utilisation ne sont pas toujours clairs. Par exemple, le contenu d’un forum public ne peut pas interdire explicitement son utilisation pour entraîner l’IA, mais il n’accorde pas non plus d’autorisation. Cette zone grise a donné lieu à de nombreuses poursuites en matière de droits d’auteur sur l’IA, dans lesquelles les plaignants affirment que leurs droits de propriété intellectuelle ont été violés par l’inclusion de leurs travaux dans des ensembles de formation en IA sans consentement ni compensation.
En quoi l’IA viole-t-elle les droits de l’homme ?
Les technologies de l’IA, bien que révolutionnaires, sont de plus en plus surveillées pour détecter d’éventuelles violations des droits de l’homme, une préoccupation accentuée dans le contexte des poursuites pour droits d’auteur sur l’IA.
Les problèmes clés comprennent :
- La capacité de l’IA à collecter et à surveiller des données à grande échelle peut porter atteinte aux droits individuels à la vie privée.
- Les systèmes d’IA peuvent perpétuer les biais présents dans leurs données de formation, conduisant à des résultats discriminatoires dans divers secteurs, soulignant les inquiétudes liées aux poursuites en cours pour droits d’auteur sur l’IA.
- La modération du contenu basée sur l’IA peut supprimer par inadvertance la liberté d’expression, une question qui recoupe les débats sur la propriété intellectuelle dans les poursuites pour droits d’auteur liées à l’IA.
- Dans le contexte juridique, les outils d’IA peuvent influencer la prise de décision, ce qui pourrait avoir un impact sur l’équité des procès et des processus judiciaires.
- L’automatisation basée sur l’IA pose des défis aux droits des travailleurs en raison du déplacement des emplois et de la nécessité d’adapter la main-d’œuvre.
- L’accès et l’impact inégaux de l’IA peuvent exacerber les inégalités existantes, une préoccupation qui va de pair avec les droits d’accès et d’utilisation équitables au cœur des poursuites en matière de droits d’auteur sur l’IA.
- Les systèmes d’IA qui manipulent le comportement des utilisateurs soulèvent des questions sur l’autonomie et le consentement individuels.
- Le contrôle exercé par AI sur la diffusion de l’information peut affecter le droit du public à accéder à des informations diverses et impartiales.
Quels sont les procès contre l’IA ?
L’arène juridique regorge actuellement de poursuites en matière de droits d’auteur sur l’IA, plusieurs cas mettant en lumière la tension entre les entreprises d’IA générative et les normes en matière de droits d’auteur. Parmi les plaideurs figurent diverses entreprises prises au piège dans ces batailles juridiques aux enjeux élevés.
Google : procès pour collecte de données
Google fait face à un recours collectif accusant le géant de la technologie d’utilisation abusive d’informations personnelles et de violation du droit d’auteur. Les allégations précisent que Google a collecté des données, notamment des images de sites de rencontres, des listes de lecture Spotify, des vidéos TikTok et de la littérature utilisée pour affiner Bard. Lancée en juillet 2023, la réclamation suggère que Google pourrait être responsable de dommages dépassant 5 milliards de dollars. Optant pour l’anonymat, les plaignants représentent une préoccupation croissante concernant la vie privée et les droits de propriété.
Cette vague de poursuites en justice pour droits d’auteur sur l’IA n’est pas sans précédent. L’affaire de 2015 de la Author’s Guild contre Google a établi une référence juridique importante. La Guilde a contesté la numérisation par Google de millions de livres, en proposant des extraits en ligne. La décision a favorisé Google, qualifiant l’utilisation de transformatrice et non compétitive par rapport au marché d’origine des livres.
OpenAI : problèmes de droits d’auteur
OpenAI est également entré dans la mêlée juridique, les auteurs Paul Tremblay et Mona Awad alléguant une violation du droit d’auteur. Leur avocat, Butterick, représente une cohorte plus large d’auteurs dont les travaux, affirment-ils, ont été répliqués dans les vastes données de formation d’OpenAI, comptant potentiellement plus de 300 000 livres. Déposée en juin 2023, la poursuite exige une somme non divulguée de dommages et intérêts.
OpenAI et Microsoft : procès au New York Times
De plus, le New York Times a lancé un procès contre OpenAI et Microsoft. Le dossier de décembre 2023 affirme qu’OpenAI a utilisé des millions d’articles du Times pour entraîner ses modèles linguistiques, qui rivalisent désormais avec la publication en fournissant des informations fiables. De plus, le procès affirme que les modèles d’OpenAI non seulement font écho au style unique du Times, mais récitent également son contenu textuellement. Le Times, une première pour un grand média américain, a poursuivi les discussions sur la question du droit d’auteur plus tôt dans l’année, mais en vain, aboutissant à ce litige historique.
Meta et OpenAI : le cas Silverman
L’action en justice de la comédienne Sarah Silverman contre Meta et OpenAI met en lumière des allégations de violation du droit d’auteur, affirmant que ChatGPT et le grand modèle linguistique (Llama) de Meta AI ont été développés à l’aide de données provenant de sources illégales incluant son travail. Le procès pointe du doigt des « bibliothèques fantômes » comme Library Genesis, Z-Library et Bibliotek, connues pour le partage de contenu via torrent, qui se produit souvent sans autorisation légale. Plus précisément, l’affaire indique que Meta’s Llama a été informé par un ensemble de données connu sous le nom de Pile, compilé par EleutherAI, qui contiendrait des données de Bibliotek. Cette poursuite a été initiée en juillet 2023.
GitHub, Microsoft et OpenAI : la controverse Copilot
Un procès collectif pour droits d’auteur sur l’IA cible GitHub, Microsoft et OpenAI concernant l’outil Copilot. Ce service basé sur l’IA complète automatiquement les extraits de code en apprenant de l’entrée d’un programmeur. Les plaignants soutiennent que Copilot régurgite illégalement le code des référentiels GitHub, au mépris des exigences de licence, y compris l’attribution appropriée. Au-delà des plaintes pour atteinte aux droits d’auteur, la poursuite accuse également GitHub de mauvaise gestion des données personnelles et de fraude. Déposée en novembre 2022, l’affaire a fait l’objet de tentatives répétées de non-lieu de la part de Microsoft et de GitHub.
Stability AI, Midjourney et DeviantArt : le différend sur l’intégrité artistique
Janvier 2023 a vu un procès contre les sociétés de génération d’images d’IA Stabilité AI, Midjourney et DeviantArt. Les plaignants affirment que ces plateformes portent atteinte aux droits d’auteur en formant et en générant des dérivés des œuvres des plaignants. De plus, la capacité de ces outils à reproduire les styles d’artistes spécifiques fait l’objet de controverses. Le juge président, William Orrick, a exprimé son intention préliminaire de rejeter la plainte.
Stability AI : les procès Getty Images
Les doubles poursuites intentées par Getty Images contre Stability AI mettent en lumière la copie et le traitement non autorisés d’innombrables images et métadonnées associées sur lesquelles Getty détient des droits au Royaume-Uni. Un procès ultérieur devant le tribunal de district américain du district du Delaware fait écho à des violations similaires des droits d’auteur et des marques. Il souligne également l’inquiétude suscitée par les images « bizarres ou grotesques » générées avec le filigrane Getty, susceptibles de ternir la réputation du prestigieux référentiel d’images. Ces démarches juridiques ont été faites en janvier 2023.
Questions clés soulevées par ces poursuites pour droits d’auteur sur l’IA
L’émergence de poursuites pour droits d’auteur sur l’IA signale un changement dans notre perception de la créativité numérique. Ces confrontations juridiques très médiatisées soulèvent plusieurs questions clés qui pourraient redéfinir la loi sur le droit d’auteur en relation avec l’IA générative :
- Licence pour le matériel de formation en IA: Est-il nécessaire d’obtenir une licence lorsque les modèles d’IA sont formés sur du contenu protégé par le droit d’auteur ? Étant donné que les systèmes d’IA générative reproduisent les supports de formation pendant leur phase d’apprentissage, le débat juridique repose sur la question de savoir si cette réplication relève d’un usage loyal ou nécessite une licence formelle.
- Violation du droit d’auteur et résultats de l’IA: Les résultats produits par l’IA générative portent-ils atteinte aux droits d’auteur des matériaux utilisés dans la formation ? Un aspect clé que les tribunaux doivent déterminer est de savoir si les similitudes entre les résultats de l’IA et les données de formation sont basées sur un contenu protégé ou non. De plus, la question de savoir qui porte la responsabilité de toute violation du droit d’auteur commise par un système d’IA n’a pas encore été résolue.
- Conformité aux lois sur le droit d’auteur numérique: Les technologies d’IA générative enfreignent-elles les lois qui régissent la modification ou la suppression des informations sur la gestion des droits d’auteur ? Ce problème est particulièrement pertinent dans l’affaire contre Stability AI, où les images générées par l’IA incluaient de fausses informations sur la gestion des droits d’auteur, comme des filigranes reproduits.
- Droit de publicité et IA: La création d’œuvres générées par l’IA qui imitent le style d’un individu spécifique porte-t-elle atteinte à son droit à la publicité ? Ce droit, qui diffère selon les États, restreint l’utilisation de l’image, du nom, de l’image, de la voix ou de la signature d’un individu à des fins commerciales sans son consentement.
- Licences open source et IA: Comment les licences open source s’articulent-elles avec la formation et la distribution de contenus générés par l’IA ? Il s’agit d’une préoccupation centrale dans le procès GitHub Copilot, dans lequel les plaignants affirment que le fait de ne pas attribuer le matériel source et de publier Copilot en tant que source ouverte viole les termes de la licence open source.
À mesure que ces poursuites en matière de droits d’auteur sur l’IA progressent et commencent à offrir des réponses, les entités impliquées dans le développement et le déploiement d’outils d’IA générative devraient être attentives aux directives émergentes à la croisée de l’IA et de la propriété intellectuelle. Il pourrait également être prudent pour ces entreprises d’envisager des stratégies visant à atténuer les risques potentiels dans ce contexte juridique en évolution. Les poursuites en matière de droits d’auteur sur l’IA soulignent la nécessité de politiques claires sur l’utilisation et les droits des données.
Crédit image en vedette : Igor Omilaev/Unsplash