Openai aurait pu former son IA sur des livres volés

OpenAI fait face à des accusations de formation de ses modèles d’IA sur le matériel protégé par le droit d’auteur sans autorisation, comme un nouveau papier allègue que l’entreprise a utilisé des livres à rémunération d’O’Reilly Media pour former son modèle GPT-4O. Le projet de divulgation de l’IA, un organisme à but non lucratif co-fondé par Tim O’Reilly et Ilan Strauss, a publié le journal.

Les modèles d’IA fonctionnent comme des moteurs de prédiction, des modèles d’apprentissage à partir de données étendues comme des livres et des films à extrapoler à partir des invites. Alors que certains laboratoires d’IA utilisent des données générées par l’IA à mesure que les sources du monde réel diminuent, la formation sur les données purement synthétiques comporte des risques, tels que l’impact des performances d’un modèle.

La méthodologie du journal, Décollerdétermine si un modèle distingue les textes automatisés par l’homme et Paraphrases générées par l’AI. Cela suggère si le modèle a des connaissances préalables à partir de ses données de formation. Les chercheurs ont sondé GPT-4O, GPT-3.5 Turbo et d’autres modèles OpenAI, en utilisant 13 962 extraits de livres 34 O’Reilly pour estimer la probabilité d’inclusion dans les ensembles de données de formation.

Les résultats ont indiqué que GPT-4O a reconnu beaucoup plus de contenu de livres O’Reilly Walwald que les modèles plus anciens comme GPT-3.5 Turbo. Selon le journal, GPT-4O reconnaît probablement de nombreux livres O’Reilly non publics publiés avant sa date de coupure de formation. O’Reilly n’a pas d’accord de licence avec OpenAI, selon le journal.

Les co-auteurs reconnaissent que la méthode n’est pas infaillible et OpenAI a peut-être collecté des extraits dans les entrées ChatGPT des utilisateurs. Une autre mise en garde est que les modèles OpenAI plus récents, y compris GPT-4.5, n’ont pas été évalués.

OpenAI, plaidant pour les restrictions de droit d’auteur plus lâches, a recherché des données de formation de meilleure qualité, embauchant des journalistes pour affiner les résultats du modèle. La société détient également des accords de licence avec des éditeurs de nouvelles et propose des mécanismes d’opt-out pour les propriétaires de droits d’auteur. Openai n’a pas commenté le journal.

Crédit d’image en vedette