Cloudflare admet qu'un bug de filtre de bot a provoqué sa pire panne depuis 2019

Le réseau de diffusion de contenu de Cloudflare expérimenté une panne importante le mardi 19 novembre 2025, en raison d’une requête mal configurée dans son système de gestion des robots, impactant divers services Internet dans le monde. Le co-fondateur et PDG de Cloudflare, Matthew Prince, a détaillé la cause dans un article de blogidentifiant un problème au sein du système Bot Management, qui gère les robots d’exploration automatisés. Ce problème spécifique a entraîné la « pire panne de Cloudflare depuis 2019 ». Environ 20 pour cent du trafic Web via le réseau Cloudflare, ainsi que signalé par l’entreprise l’année dernière. La panne a déconnecté de nombreux services, notamment X, ChatGPT et Downdetector, pendant plusieurs heures. Cet incident ressemble à des perturbations précédentes impliquant Microsoft Azure et Services Web Amazon. Les contrôles des robots de Cloudflare répondent à des défis tels que les robots d’exploration récupérant des données pour la formation à l’IA générative. La société a récemment introduit le « AI Labyrinth », une méthode d’atténuation utilisant le contenu généré par l’IA pour empêcher les robots d’exploration et les robots IA non conformes. Cependant, la panne résulte de modifications apportées au système d’autorisations d’une base de données, et non d’une technologie d’IA générative, du DNS ou d’activités malveillantes telles qu’une « attaque DDoS à grande échelle », initialement envisagée par Cloudflare. Prince a expliqué que Gestion des robots Le modèle d’apprentissage automatique du système, qui génère des scores de robots pour les requêtes réseau, utilise un fichier de configuration fréquemment mis à jour pour identifier les requêtes automatisées. Un « changement dans notre comportement de requête ClickHouse sous-jacent qui génère ce fichier a entraîné la présence d’un grand nombre de lignes de « fonctionnalités » en double. » Cette modification de requête a conduit la base de données ClickHouse à produire des informations en double. Le fichier de configuration a rapidement dépassé les limites de mémoire prédéfinies, provoquant la défaillance du « système proxy principal qui gère le traitement du trafic pour nos clients, pour tout trafic dépendant du module bots ». Par conséquent, les entreprises utilisant les règles de Cloudflare pour bloquer les robots ont coupé à tort le trafic légitime, tandis que les clients n’utilisant pas le score de robot généré dans leurs règles sont restés en ligne. Cloudflare a décrit quatre plans spécifiques pour prévenir des incidents similaires :

Ingestion durcissante : Renforcer l’ingestion des fichiers de configuration générés par Cloudflare selon les mêmes normes que les entrées générées par l’utilisateur.
Activation de kill switch plus globaux : Implémentation d’options de désactivation globales supplémentaires pour les fonctionnalités.
Élimination des core dumps : Empêcher les vidages de mémoire ou autres rapports d’erreurs provenant de ressources système accablantes.
Examen des modes de défaillance : Examen des modes de défaillance liés aux conditions d’erreur dans tous les modules proxy principaux.

Crédit image en vedette