Amazon a besoin de grandes quantités de données de haute qualité pour créer des Modèles d’IA. Reconnaissant GitHub comme un trésor de métadonnées de codage précieuses, Amazon a conçu une stratégie pour accélérer la collecte de données malgré les limitations de la plate-forme.
Selon une note interne obtenue par Interne du milieu des affaires, le groupe d’intelligence générale artificielle (AGI) d’Amazon a souligné son besoin de « métadonnées quantitatives et qualitatives de GitHub » pour faire progresser ses efforts de formation en IA. Cependant, les limites de récupération de données de GitHub, autorisant seulement 5 000 requêtes par heure et par compte, constituaient un obstacle important. Avec plus de 150 millions de référentiels publics sur GitHub, les méthodes traditionnelles auraient mis des années à accumuler suffisamment de données.
La solution de contournement d’Amazon
En réponse, Amazon a proposé une solution de contournement : encourager ses collaborateurs à créer plusieurs comptes GitHub et partager leurs identifiants d’accès. En exploitant simultanément un réseau de comptes, Amazon vise à condenser en quelques semaines ce qui aurait été un projet pluriannuel. Bien que les actions d’Amazon ne constituent pas strictement un vol au sens juridique, elles soulèvent des préoccupations éthiques concernant la confidentialité des données, l’autorisation et l’utilisation appropriée des ressources de la plateforme.
Le mémo fournit des instructions détaillées sur la manière dont les employés doivent créer et gérer ces comptes pour garantir le respect des directives juridiques et de sécurité. Cela inclut l’utilisation des e-mails professionnels Amazon, des types spécifiques de jetons GitHub et la définition des autorisations appropriées pour l’accès aux données.
Amazon affirme que son approche a été approuvée par ses équipes juridiques et de sécurité. Cela suggère qu’Amazon tente d’opérer dans le cadre des limites légales en garantissant le respect des directives internes. Cependant, la légalité de telles actions pourrait encore être remise en question, surtout si GitHub ou les utilisateurs concernés les perçoivent comme des violations.
Les implications éthiques sont importantes. En sollicitant les employés pour partager des comptes GitHub personnels, Amazon accède potentiellement aux données sans le consentement explicite de GitHub ou des propriétaires du référentiel.
Pourquoi Amazon fait-il cela ?
Le besoin d’Amazon en données provenant du GitHub de Microsoft est essentiel pour faire progresser ses capacités d’intelligence artificielle (IA). Les modèles d’IA, comme ceux utilisés pour comprendre le langage humain ou faire des prédictions, nécessitent de grandes quantités de données diverses pour apprendre efficacement. GitHub, étant une plateforme pour des millions de projets logiciels open source, fournit une vaste gamme de codes et d’informations permettant d’entraîner ces algorithmes d’IA.
L’accès aux données de GitHub ne se limite pas à des lignes de code. Il comprend des détails précieux tels que la façon dont les projets évoluent au fil du temps, qui contribue et comment les développeurs collaborent. Ces métadonnées sont essentielles pour que les modèles d’IA apprennent des modèles, améliorent leur précision et développent de meilleures façons de résoudre les problèmes.
Dans le monde concurrentiel des géants de la technologie, disposer d’ensembles de données complets peut donner un avantage significatif à des entreprises comme Amazon. En exploitant les données GitHub, Amazon vise à innover plus rapidement, à rattraper ses concurrents et à créer des technologies plus intelligentes capables d’améliorer tout, des recommandations d’achats en ligne aux services cloud.
Pour Amazon, l’IA n’est pas qu’un mot à la mode : elle fait partie intégrante de l’amélioration de l’expérience client, de l’optimisation des opérations et de la stimulation de l’innovation dans l’ensemble de son activité. En entraînant des modèles d’IA avec les données GitHub, Amazon peut développer des systèmes plus intelligents, capables de gérer des tâches complexes et d’améliorer l’efficacité.
Cependant, utiliser les données de plateformes comme GitHub soulève des questions éthiques. Les entreprises doivent résoudre les problèmes de confidentialité des utilisateurs, de propriété des données et de conformité aux règles de la plateforme. L’approche d’Amazon, bien qu’approuvée en interne, souligne le débat en cours sur la manière dont les entreprises technologiques devraient utiliser et protéger les informations numériques de manière responsable.
Crédit image en vedette : Eray Eliaçık/Bing