La semaine dernière, une mise à jour ratée suite à un problème de CrowdStrike a provoqué l’arrêt brutal de millions d’appareils Windows. Ce chaos, qui a touché environ 8,5 millions de machines, est dû à une faille dans le logiciel de test.
Cette mise à jour défectueuse a échappé aux contrôles habituels, ce qui a entraîné des plantages généralisés. En réponse, CrowdStrike s’est engagé à intensifier ses tests et à améliorer la gestion des erreurs pour les futures mises à jour.
Ce fiasco n’a pas seulement affecté CrowdStrike, mais a également provoqué une panne importante chez Microsoft, amplifiant la perturbation globale. Ces deux échecs ont souligné à quel point les services cloud et les écosystèmes logiciels peuvent être fragiles lorsque les choses tournent mal.
Aujourd’hui, la saga du problème CrowdStrike continue avec le message suivant sur X des responsables, suivi d’un article de blog:
Mise à jour : notre analyse préliminaire après incident (PIR) est disponible via le lien ci-dessous. Les détails comprennent un aperçu de l’incident, des mesures correctives et des enseignements préliminaires. Plus d’informations à venir dans notre analyse complète des causes profondes (RCA).
Techniques de récupération automatisées, associées à des…
— CrowdStrike (@CrowdStrike) 24 juillet 2024
Les racines du problème CrowdStrike
Le logiciel Falcon de CrowdStrike, un outil essentiel pour les entreprises qui souhaitent se protéger contre les malwares et les failles de sécurité, était au cœur du problème. Une mise à jour de routine destinée à collecter des données de télémétrie sur les menaces potentielles a provoqué des pannes catastrophiques. Le fichier problématique, une petite mise à jour de 40 Ko dans le Rapid Response Content, a réussi à échapper aux tests approfondis, entraînant des pannes à l’échelle du système rappelant les virus informatiques de la vieille école.
Le cœur de la Problème avec CrowdStrike était lié à la mise à jour du contenu de réponse rapide, qui visait à améliorer la détection des logiciels malveillants en mettant à jour le capteur Falcon.
Cette mise à jour particulière contenait des données erronées qui ont contourné le vérificateur de contenu en raison d’un bug. En règle générale, les mises à jour de CrowdStrike subissent des tests automatisés et manuels.
Cependant, cette mise à jour n’a pas été soumise aux mêmes tests rigoureux ou a été inexplicablement rejetée, ce qui a entraîné des pannes généralisées du système.
Le problème était dû à une confiance mal placée dans la fiabilité de leur validateur de contenu. En mars dernier, un nouveau déploiement a conduit CrowdStrike à croire que son processus de validation était infaillible.
Cette hypothèse s’est révélée désastreusement fausse. La mise à jour défectueuse a déclenché une exception de mémoire hors limites dans l’interpréteur de contenu du capteur, provoquant le crash des machines Windows avec le redoutable écran bleu de la mort (BSOD).
Le Problème avec CrowdStrike La crise a éclaté un vendredi, alors que les entreprises étaient en train de fermer pour le week-end. Le timing n’aurait pas pu être pire, entraînant des perturbations immédiates dans de nombreuses organisations.
La mise à jour défectueuse, destinée à renforcer la sécurité, a en réalité paralysé les systèmes, provoquant des temps d’arrêt et des frustrations importants.
Comment la panne de Microsoft a-t-elle commencé ?
La panne de Microsoft a été considérablement affectée par une mise à jour bugguée de CrowdStrike. Cet incident a mis en évidence la vulnérabilité des services cloud et la manière dont les systèmes interdépendants peuvent amplifier les perturbations.
La cause exacte de la Panne de Microsoft c’était différent, mais cela s’est produit en même temps que le problème CrowdStrike, soulignant l’impact plus large sur l’infrastructure technologique.
Qu’est-ce que la panne de CrowdStrike ?
Le Panne de CrowdStrike Il s’agissait d’une perturbation majeure causée par une mise à jour défectueuse du logiciel Falcon de CrowdStrike. Cette mise à jour, destinée à recueillir des données de télémétrie sur les menaces potentielles, a en réalité entraîné des pannes généralisées sur environ 8,5 millions d’appareils Windows.
L’incident a été attribué à une faille dans la mise à jour du contenu de réponse rapide, qui a réussi à échapper au processus de validation.
Quand la panne de CrowdStrike a-t-elle commencé ?
La panne de CrowdStrike a commencé un vendredi, un moment particulièrement inopportun alors que les entreprises fermaient leurs portes pour le week-end.
Ce calendrier a exacerbé l’impact, provoquant des perturbations immédiates dans de nombreuses organisations et entraînant des temps d’arrêt et des frustrations importants.
Qu’est-ce que CrowdStrike Falcon ?
CrowdStrike Falcon est une plateforme cloud qui offre une protection des terminaux aux entreprises. Elle combine antivirus, renseignements sur les menaces et détection et réponse aux terminaux (EDR) pour se protéger contre les logiciels malveillants et les failles de sécurité.
Falcon fonctionne en déployant des capteurs au niveau du noyau des machines Windows, en surveillant en permanence les activités suspectes et en utilisant l’apprentissage automatique pour améliorer les capacités de détection. Les mises à jour fréquentes du logiciel, comme le contenu de réponse rapide, sont essentielles pour maintenir la protection contre les menaces émergentes.
Les conséquences
En réponse à cette débâcle du problème CrowdStrike, l’entreprise a promis plusieurs mesures pour éviter qu’une telle catastrophe ne se reproduise. Celles-ci incluent :
- Tests améliorés:Implémentation de tests de développeurs locaux, de tests de mise à jour et de restauration du contenu, de tests de stress, de fuzzing et d’injection de pannes.
- Gestion des erreurs améliorée:Amélioration des capacités de gestion des erreurs de l’interpréteur de contenu au sein du capteur Falcon.
- Déploiement échelonné:Déployer progressivement les mises à jour sur des portions plus larges de la base d’installation au lieu de les déployer toutes en même temps.
CrowdStrike Falcon, le logiciel au cœur de ce problème, est une plateforme cloud qui assure la protection des terminaux. Elle combine antivirus, renseignements sur les menaces et détection et réponse aux terminaux (EDR) pour se protéger contre les logiciels malveillants et les failles de sécurité, ce qui en fait un outil essentiel pour les entreprises du monde entier.
Falcon fonctionne en déployant des capteurs au niveau du noyau des machines Windows. Ces capteurs surveillent en permanence les activités suspectes et utilisent l’apprentissage automatique pour améliorer les capacités de détection. Les mises à jour telles que Rapid Response Content sont essentielles pour maintenir la protection contre les nouvelles menaces. Cependant, l’incident récent a montré les risques lorsque ces mises à jour ne sont pas soigneusement vérifiées.
Crédit de l’image en vedette:CrowdStrike