L’Université Harvard, en collaboration avec Google, publiera un ensemble de données d’environ un million de livres du domaine public à utiliser dans la formation de modèles d’IA, selon CÂBLÉ. Cette initiative, connue sous le nom d’Institutional Data Initiative, a obtenu un financement de Microsoft et d’OpenAI. L’ensemble de données comprend des œuvres qui ne sont plus protégées par le droit d’auteur, issues des efforts approfondis de numérisation de livres de Google.
Harvard et Google fournissent un million de livres pour la formation en IA
L’annonce a eu lieu le 12 décembre 2024 avec l’ensemble de données, qui englobe un large éventail de genres, de langues et d’auteurs, notamment des personnalités notables comme Dickens, Dante et Shakespeare. Le directeur exécutif de l’initiative à Harvard, Greg Leppert, a souligné que l’ensemble de données vise à « uniformiser les règles du jeu », permettant l’accès aux laboratoires de recherche et aux startups d’IA pour améliorer leurs efforts de développement de modèles de langage. L’ensemble de données est destiné à toute personne cherchant à former de grands modèles de langage (LLM), bien que la date de sortie et la méthode spécifiques n’aient pas encore été divulguées.
Alors que les technologies d’IA s’appuient de plus en plus sur de grandes quantités de données textuelles, cet ensemble de données constitue une ressource cruciale. Les modèles fondamentaux comme ChatGPT bénéficient considérablement de données de formation de haute qualité. Cependant, la nécessité de disposer de données a posé des problèmes à des entreprises comme OpenAI, qui sont confrontées à un contrôle juridique concernant l’utilisation non autorisée de documents protégés par le droit d’auteur. Les poursuites intentées par de grands éditeurs, notamment le Wall Street Journal et le New York Times, mettent en évidence les tensions persistantes concernant l’utilisation du contenu et la violation des droits d’auteur dans la formation à l’IA.
Même si l’ensemble de données à venir sera avantageux, il n’est toujours pas clair si un million de livres suffiront à répondre aux exigences de formation des modèles d’IA, d’autant plus que les références contemporaines et l’argot mis à jour ne sont pas couverts dans ces textes historiques. Les entreprises d’IA continueront à rechercher des sources de données supplémentaires, notamment des informations exclusives ou à jour, pour distinguer leurs modèles de ceux de leurs concurrents.
- L’Institutional Data Initiative de Harvard vise à fournir des données accessibles pour le développement de l’IA.
- Le financement de Microsoft et d’OpenAI soutient le projet.
- L’ensemble de données comprend des classiques littéraires et des textes moins familiers.
- Les modèles d’IA nécessitent des données volumineuses ; les controverses actuelles entourent les droits d’utilisation des données.
Les développeurs du secteur de l’IA ne se limitent pas aux seuls textes historiques. Plusieurs plateformes, dont Reddit et X, ont commencé à restreindre l’accès à leurs données car elles reconnaissent leur valeur croissante. Reddit a conclu des accords de licence avec des sociétés comme Google, tandis que X maintient des accords de contenu exclusifs pour l’utilisation des données en temps réel. Ce changement dans l’accessibilité du contenu reflète le paysage concurrentiel dans lequel les entreprises d’IA peinent à acquérir des données de formation adéquates et pertinentes sans faire face à des répercussions juridiques.
L’exécution de l’Initiative sur les données institutionnelles est une étape vers l’atténuation de ces pressions en fournissant un pool de textes historiques juridiquement sûr, permettant une formation responsable des modèles. Cependant, des stratégies globales seront encore nécessaires pour garantir que les modèles d’IA soient compétitifs et capables de comprendre le langage et les références contemporaines.
La question de savoir dans quelle mesure cette ressource répondra efficacement à la demande continue de données complètes et diversifiées reste une question à mesure que les enquêtes sur l’utilisation des données se poursuivent.
Crédit image en vedette : Banques d’argile/Unsplash