Le territoire juridique ambigu du développement de l’IA, où les vidéos YouTube se transforment en carburant d’apprentissage automatique.
Dans un article récent de Le New York Times, diverses stratégies adoptées par les entreprises pour naviguer dans le territoire ambigu de la loi sur le droit d’auteur de l’IA ont été mises en évidence. Le rapport a commencé par se concentrer sur OpenAI, qui, dans sa quête de données de formation adéquates, aurait créé le modèle de transcription audio Whisper. Cette initiative a permis la transcription de plus d’un million d’heures de contenu YouTube pour faire progresser le développement de GPT-4, leur modèle de langage étendu le plus récent et le plus sophistiqué.
Et… YouTube exige des réponses sur les données d’entraînement de Sora.
OpenAI a-t-il vraiment utilisé des vidéos YouTube pour entraîner Sora ?
Selon Le New York Times, OpenAI était conscient des contestations juridiques potentielles, mais a justifié l’action par un usage loyal. Greg Brockman, le président d’OpenAI, a joué un rôle clé dans l’acquisition de contenu vidéo à cet effet, comme l’a noté le Fois.
L’article mentionnait en outre qu’en 2021, l’organisation avait épuisé ses ressources de données utiles, ce qui a conduit à envisager de transcrire des clips YouTube, des podcasts et des livres audio après avoir épuisé d’autres voies. À ce stade, la formation de ses modèles avait déjà incorporé des données provenant de sources telles que le code informatique de Github, des bases de données de stratégies d’échecs et du matériel pédagogique de Quizlet.
Matt Bryant, porte-parole de Google, a communiqué à Le bord par e-mail qu’il y a eu des « rapports non confirmés » concernant les actions d’OpenAI. Il a rappelé que les fichiers robots.txt et les conditions d’utilisation de Google interdisent clairement la collecte ou le téléchargement non autorisé de contenus YouTube, réaffirmant ainsi les politiques d’utilisation de l’entreprise. De même, Neal Mohan, PDG de YouTube, a exprimé cette semaine ses inquiétudes concernant l’utilisation présumée des données de YouTube pour la formation de Sora d’OpenAI, un modèle de génération vidéo. Bryant a souligné que Google applique des mesures techniques et juridiques pour lutter contre de telles activités non autorisées, à condition qu’il existe une base juridique ou technique solide pour intervenir.

Selon des sources citées par le Fois, Google a également extrait des transcriptions de vidéos YouTube. Bryant a mentionné que la société a utilisé du contenu YouTube pour former ses modèles, conformément aux accords avec les créateurs YouTube.
Le Fois a rapporté que le service juridique de Google avait conseillé à son équipe de confidentialité de modifier le libellé de sa politique afin d’élargir la portée de l’utilisation des données des consommateurs, y compris des services comme Google Docs. Il est à noter que la politique mise à jour a été publiée stratégiquement le 1er juillet, dans le but de tirer parti de la distraction causée par le week-end férié du Jour de l’Indépendance.
De même, Meta a été confronté à des difficultés pour accéder à des données de formation adéquates, et le Fois a obtenu des enregistrements dans lesquels son équipe d’IA discutait de l’utilisation non autorisée de matériel protégé par le droit d’auteur dans le but de suivre le rythme d’OpenAI.
Google, OpenAI et d’autres acteurs du développement de l’IA sont confrontés à la diminution de la disponibilité de données de formation de qualité pour leurs modèles, qui s’améliorent avec l’augmentation de la consommation de données.
Le parcours d’OpenAI a été marqué par des avancées, mais aussi par des zones grises juridiques et éthiques. La controverse sur la transcription sur YouTube souligne la complexité du droit d’auteur lors de la formation de modèles d’IA avancés. Comme des outils comme Sora entre à Hollywoodl’entreprise fait face à un examen encore plus strict. Altman peut-il surmonter ces obstacles ou est-il déjà remplacé?
Crédit image en vedette : Andrew Neel/Unsplash