Vos publications Bluesky pourraient entraîner l’IA

Bluesky est aux prises avec un problème de confidentialité important après un million de publications publiques ont été grattés depuis sa plateforme de formation en IA, selon un 404Médias rapport. L’ensemble de données, compilé par bibliothécaire en apprentissage automatique Daniel van Strien de la société d’IA Hugging Face était destiné à être utilisé dans la recherche liée au traitement du langage naturel et à l’analyse des médias sociaux. Bien que les représentants de Bluesky affirment que la plateforme ne formera jamais d’IA générative sur les données des utilisateurs, la nature ouverte de son API la rend vulnérable aux scrapers externes.

Bluesky fait face à des problèmes de confidentialité suite aux publications d’utilisateurs supprimées

L’ensemble de données en question provient du site de Bluesky. API Firehosequi fournit un flux agrégé de mises à jour de données publiques, y compris des publications, des likes et des abonnements. Van Strien avait pour objectif d’utiliser cet ensemble de données pour faire avancer la recherche sur l’apprentissage automatique. Cependant, il incluait non seulement le texte des publications, mais également les identifiants décentralisés (DID) et les métadonnées des utilisateurs. Après que les médias ont souligné le problème, l’ensemble de données a été rapidement supprimé de Hugging Face en raison des réactions négatives qu’il a générées concernant la confidentialité des utilisateurs et le manque de consentement.

Les utilisateurs de Bluesky n’ont pas donné leur autorisation explicite pour que leurs publications soient utilisées de cette manière, bien que les politiques de Bluesky n’interdisent pas catégoriquement de telles actions. Le cœur de la controverse réside dans la structure ouverte de l’API de Bluesky, qui permet aux développeurs tiers d’accéder librement à ses données publiques. Selon une déclaration d’un représentant de Bluesky, « nous aimerions trouver un moyen pour les utilisateurs de Bluesky de communiquer aux organisations/développeurs externes s’ils y consentent », ce qui indique un effort visant à améliorer le contrôle des utilisateurs sur le partage de données à l’avenir.

Bluesky gagne 1,25 million d’utilisateurs après les élections

Suite à la suppression de l’ensemble de données, van Strien a reconnu la violation de la transparence et du consentement dans son approche de collecte de données. « Je m’excuse pour cette erreur », a-t-il déclaré dans un article de suivi sur Bluesky. Cet incident incite les utilisateurs à mieux comprendre que tout contenu partagé publiquement sur la plateforme est accessible à des entités externes. À mesure que la plate-forme continue de croître, dépassant récemment les 20 millions d’utilisateurs, Bluesky sera probablement confrontée à une surveillance croissante concernant ses mesures de protection des données et la confidentialité des utilisateurs.

Bluesky est actuellement en discussion sur des mécanismes qui pourraient permettre aux utilisateurs d’exprimer leurs préférences en matière de consentement à des tiers. Cependant, l’application reste un défi ; comme le note la plateforme, ce sera en fin de compte aux développeurs extérieurs d’adhérer à ces préférences. Les représentants de Bluesky ont également indiqué que même s’ils visaient des discussions avec les ingénieurs et les équipes juridiques, aucune solution immédiate n’était disponible.

Crédit image en vedette : Ciel bleu

Tags: ciel bleu