Les avocats du New York Times et du Daily News affirment qu’OpenAI a supprimé par inadvertance des données cruciales liées à leur poursuite en matière de droits d’auteur contre l’entreprise concernant l’utilisation non autorisée de leur contenu, selon un TechCrunch rapport. L’incident s’est produit après qu’OpenAI a accepté de fournir l’accès à ses ensembles de données de formation pour aider les plaignants à vérifier l’utilisation de leurs documents protégés par le droit d’auteur.
Le procès allègue qu’OpenAI a supprimé des articles du New York Times et du Daily News sans obtenir l’autorisation de former ses modèles. En réponse à la plainte, OpenAI a fourni deux machines virtuelles permettant aux avocats des éditeurs de rechercher dans leurs données de formation leur contenu protégé par le droit d’auteur. Depuis le 1er novembre, les équipes juridiques ont consacré plus de 150 heures à cette perquisition. Cependant, le 14 novembre, les ingénieurs d’OpenAI ont effacé par erreur toutes les données de recherche stockées sur l’une des machines virtuelles, comme indiqué dans un dossier déposé auprès du tribunal de district américain du district sud de New York.
Les tentatives d’OpenAI pour récupérer les données supprimées ont pour la plupart réussi, mais la perte de la structure des dossiers et des noms de fichiers a rendu les données récupérées inutilisables pour le suivi des articles des plaignants inclus dans la formation de l’IA. La lettre déposée par les avocats des plaignants soulignait qu’ils devaient reconstruire leur travail, ce qui exigeait beaucoup de ressources et de temps.
Malgré la suppression des données, l’avocat a précisé que rien n’indique que l’incident était intentionnel. Ils ont exprimé leur inquiétude quant au fait qu’OpenAI soit idéalement placé pour rechercher ses propres ensembles de données, ce qui indique une obligation de contribuer à l’enquête sur une éventuelle violation du droit d’auteur.
OpenAI vient de rendre macOS plus intelligent avec la prise en charge de l’application ChatGPT
OpenAI affirme que l’utilisation de données accessibles au public pour entraîner ses modèles relève de « l’utilisation équitable ». L’entreprise affirme qu’elle n’a pas besoin d’accorder de licence ni de compenser pour ces contenus, même si elle profite de ses produits d’IA. Néanmoins, OpenAI a conclu des accords de licence avec plusieurs éditeurs, notamment des noms éminents comme Associated Press et Financial Times. Bien que les termes spécifiques de ces accords ne soient pas divulgués, il semblerait que Dotdash, l’un des partenaires, reçoive au moins 16 millions de dollars par an.
OpenAI n’a pas encore publié de déclaration sur l’incident ou ses implications sur ses relations avec les plaignants.
Crédit image en vedette : Jonathan Kemper/Unsplash