Reddit poursuit Perplexity pour prétendue récupération de données à grande échelle

Reddit a déposé un procès contre la société de moteurs de réponse Perplexity et trois fournisseurs de services de grattage de données, SerpApi, Oxylabs et AWMProxy. L’action en justice vise à mettre fin à ce que la plainte de Reddit décrit comme un contournement illégal et à l’échelle industrielle de ses protections des données. La plainte allègue que Perplexity est client d’au moins une de ces sociétés de grattage de données. Reddit utilise une métaphore pour décrire l’activité présumée, comparant les fournisseurs à des « voleurs de banque potentiels » qui, incapables d’accéder directement au « coffre-fort » de données de l’entreprise, ciblent plutôt le « camion blindé » transportant les informations. Cela implique que les accusés accèdent au contenu de Reddit via des canaux indirects. Le procès affirme que Perplexity choisit d’acquérir des données par ces moyens plutôt que de conclure un accord de licence direct, une voie empruntée par certains de ses concurrents. Selon le dossier du tribunal, Reddit a envoyé une lettre de cessation à Perplexity en mai 2024, lui demandant de cesser de supprimer les données de la plate-forme. Suite à la remise de cette lettre, le volume de citations de Reddit apparaissant sur le service Perplexity aurait augmenté. Pour approfondir son enquête, Reddit a créé une publication sur sa plate-forme configurée pour être explorable uniquement par Google. La société déclare qu’« en quelques heures », le moteur de réponse de Perplexity « a produit le contenu » de ce message spécifique. Reddit affirme que la seule façon pour Perplexity d’acquérir ce contenu était si lui-même, ou ses coaccusés, récupéraient les résultats de recherche de Google pour le contenu Reddit et l’intégraient rapidement dans son système.

Samsung lance l’application Perplexity TV avec Vision AI

Le contenu généré par les utilisateurs de la plateforme, qui consiste en des articles rédigés et classés par des humains sur un large éventail de sujets, est devenu une ressource précieuse pour la formation de modèles d’intelligence artificielle. En 2023, Reddit a mis en œuvre des modifications de l’API qui ont conduit à des protestations des utilisateurs ; l’entreprise a positionné ces changements comme un moyen de garantir qu’elle serait rémunérée pour l’utilisation de ses données par les développeurs d’IA. Depuis lors, Reddit a conclu des accords de licence de données avec des sociétés telles qu’OpenAI et Google et chercherait des accords supplémentaires. Ce n’est pas la première contestation judiciaire de Reddit dans ce domaine ; il avait déjà poursuivi Anthropic en justice, alléguant que ses robots avaient continué à accéder au site après que la société ait déclaré le contraire. Ben Lee, directeur juridique de Reddit, a décrit la situation comme une « économie de « blanchiment de données » à l’échelle industrielle » alimentée par une « course aux armements pour un contenu humain de qualité » en matière d’IA. Il a déclaré : « Les scrapers contournent les protections technologiques pour voler des données, puis les vendent à des clients avides de matériel de formation. Reddit est une cible de choix car il s’agit de l’une des collections de conversations humaines les plus vastes et les plus dynamiques jamais créées. » Lee a identifié les coaccusés Oxylabs UAB, AWM Proxy et SerpAI comme des « exemples classiques de ce comportement illégal », les décrivant comme un obscur grattoir lituanien, un ancien botnet russe et une société qui fait la publicité de tactiques douteuses. Il a ajouté : « Incapables de récupérer directement Reddit, ils masquent leur identité, cachent leur emplacement et déguisent leurs grattoirs Web pour voler le contenu Reddit de la recherche Google. » En réponse au procès, le responsable de la communication de Perplexity, Jesse Dwyer, a déclaré que la société n’avait pas encore reçu le dossier légal. Dwyer a dit Le bord« nous lutterons toujours vigoureusement pour le droit des utilisateurs à accéder librement et équitablement à la connaissance publique ». Il a ajouté : « Notre approche reste fondée sur des principes et responsable dans la mesure où nous fournissons des réponses factuelles grâce à une IA précise, et nous ne tolérerons aucune menace contre la transparence et l’intérêt public. »

Crédit image en vedette