Cloudflare a lancé un nouvel outil destiné à protéger les sites Web de ses clients contre le scraping non autorisé par des robots IA utilisés par diverses entreprises pour former de grands modèles linguistiques (LLM). Cet outil, disponible gratuitement pour tous les utilisateurs de Cloudflare, permet aux propriétaires de sites Web de bloquer facilement les robots IA susceptibles de récolter du contenu sans autorisation.
Que peut faire l’outil de blocage de robots IA de Cloudflare ?
L’outil de bot IA de Cloudflare remplit plusieurs fonctions essentielles visant à protéger les sites Web contre le scraping non autorisé et à garantir une utilisation éthique de l’IA, telles que :
- Bloquer les robots IA:L’outil permet aux propriétaires de sites Web d’empêcher facilement les robots d’IA d’accéder à leurs sites Web. Cela inclut les robots utilisés par les entreprises d’IA pour extraire du contenu pour la formation de grands modèles linguistiques (LLM) sans autorisation.
- Accessible à tous:Disponible gratuitement pour tous les clients Cloudflare, y compris ceux de l’offre gratuite, l’outil garantit que même les plus petits opérateurs de sites Web peuvent protéger leur contenu.
- Facilité d’utilisation:Posté comme un « bouton facile » dans le tableau de bord Cloudflare sous la section Sécurité > Bots, les utilisateurs peuvent basculer l’option AI Scrapers et Crawlers pour activer le blocage.
En bloquant les robots d’IA, Cloudflare contribue à protéger l’intégrité et l’originalité du contenu hébergé sur les sites Web de ses clients. Cela est essentiel pour les créateurs de contenu qui souhaitent contrôler la manière dont leur contenu est utilisé et s’assurer qu’il n’est pas utilisé à des fins non autorisées.
S’inscrit dans le cadre des efforts visant à renforcer la transparence dans l’utilisation de l’IA, en garantissant que les entreprises d’IA opèrent dans des limites éthiques, respectent les droits des propriétaires de sites Web et adhèrent aux normes juridiques concernant l’utilisation des données et le droit d’auteur.
L’outil de bot IA de Cloudflare sera continuellement mis à jour en fonction des informations sur le réseau mondial de Cloudflare et des modèles d’apprentissage automatique pour détecter et bloquer les comportements nouveaux et en évolution des bots. En outre, il fournit des mécanismes de signalement des bots IA qui se comportent mal, ce qui permet aux clients de contribuer à l’amélioration continue des stratégies de détection et d’atténuation des bots. Le réseau mondial de la plateforme, qui traite en moyenne plus de 57 millions de requêtes par seconde, fournit des signaux fiables pour identifier et atténuer les menaces générées par les bots.
Dans l’ensemble, l’outil de bot IA de Cloudflare représente une approche proactive pour protéger le contenu en ligne et promouvoir une utilisation responsable. intelligence artificielle pratiques sur toute sa plateforme. En proposant des outils accessibles et efficaces, Cloudflare soutient un écosystème Internet plus sécurisé pour les créateurs de contenu et les utilisateurs.
Les meilleurs robots d’IA par volume de requêtes
Cloudflare dispose également d’une liste de robots IA, et voici les plus actifs :
- Araignée d’octets: Il est à la fois leader en termes de nombre de requêtes et d’étendue de l’exploration des propriétés Internet. Exploité par ByteDance, Bytespider collecte des données de formation pour grands modèles de langage (LLM) prenant en charge diverses applications.
- GPT Bot: Dirigé par OpenAI, GPT Bot occupe une place importante dans l’activité d’exploration et est largement utilisé pour collecter des données de formation pour des produits pilotés par l’IA tels que ChatGPT.
- Amazonbot: Utilisé pour indexer le contenu pour AlexaGrâce à ses capacités de réponse aux questions, Amazonbot suit de près Bytespider en termes de volume de requêtes.
- ClaudeBot: Exploité pour former les Claude Le chatbot ClaudeBot a connu une augmentation du volume de demandes, reflétant son rôle dans la formation des modèles d’IA.
Malgré la popularité des robots d’intelligence artificielle, de nombreux opérateurs de sites Web ne sont pas conscients de la présence et de l’activité des robots d’exploration IA sur leurs sites. En juin, les robots IA ont accédé à environ 39 % du million de propriétés Internet les plus visitées en utilisant les services de Cloudflare.
Les données de Cloudflare montrent que seulement 2,98 % des principales propriétés Internet bloquent ou contestent activement les demandes des robots IA, ce qui met en évidence une lacune dans les mesures proactives contre le scraping non autorisé.
Crédits de l’image en vedette : Eray Eliaçık/Bing