Un ejecutivo arrepentido de CrowdStrike describió esta semana la defectuosa actualización de configuración de contenido de la compañía del 19 de julio, que bloqueó 8,5 millones de sistemas Windows en todo el mundo, como resultado de una “tormenta perfecta” de problemas que desde entonces se han resuelto.
Al testificar ante miembros del Comité de Seguridad Nacional de la Cámara de Representantes el 24 de septiembre, el vicepresidente senior de CrowdStrike, Adam Meyers, se disculpó por el incidente y aseguró al comité las medidas que la compañía ha tomado desde entonces para evitar un fracaso similar.
El Comité de la Cámara citado a la audiencia En julio, una actualización de la configuración de contenido de CrowdStrike para el sensor Falcon de la compañía provocó que millones de sistemas Windows fallaran, lo que provocó interrupciones generalizadas y prolongadas del servicio para empresas, agencias gubernamentales y organizaciones de seguridad críticas en todo el mundo. Algunos han estimado que las pérdidas para las organizaciones afectadas por el incidente ascendieron a miles de millones de dólares.
Una partida de ajedrez que salió mal
Cuando se le pidió que explicara la causa raíz del incidente, Meyers le dijo al comité de la Cámara que el problema se debía a una falta de coincidencia entre lo que esperaba el sensor Falcon y lo que realmente contenía la configuración del contenido.
Básicamente, la actualización hizo que Falcon Sensor intentara seguir una configuración de detección de amenazas para la cual no había reglas correspondientes sobre qué hacer. “Si piensas en un tablero de ajedrez [and] “Estaba tratando de mover una pieza de ajedrez a un lugar donde no había ningún cuadrado”, dijo Meyers. “Esto es exactamente lo que sucedió dentro del sensor. Fue una especie de tormenta perfecta de problemas. »
Los procesos de validación y prueba de CrowdStrike para actualizaciones de configuración de contenido no detectaron el problema porque este escenario específico nunca había ocurrido antes, explicó Meyers.
El representante Morgan Luttrell de Texas calificó el hecho de que CrowdStrike no haya detectado la actualización con errores como un “error muy grande”, especialmente para una empresa con una gran presencia en el gobierno y en los sectores de infraestructura crítica. “Mencionaste a Corea del Norte, China e Irán. [and other] “Los actores externos están tratando de atraparnos todos los días”, dijo Luttrell durante la audiencia. “Nos pegamos un tiro en el pie dentro de casa”, con la actualización defectuosa. Luttrell exigió saber qué medidas preventivas ha implementado CrowdStrike desde julio.
En su testimonio escrito y en sus respuestas a las preguntas de los miembros del comité, Meyers enumeró varios cambios que CrowdStrike implementó para evitar un fracaso similar. Las medidas incluyen nuevos procesos de validación y prueba, más control para los clientes sobre cómo y cuándo recibir actualizaciones, así como un proceso de implementación por fases que permite a CrowdStrike revertir rápidamente una actualización si surgen problemas. Después del incidente, CrowdStrike también comenzó a tratar todas las actualizaciones de contenido como código, lo que significa que reciben el mismo nivel de escrutinio y pruebas que las actualizaciones de código.
Varios cambios
“Desde el 19 de julio de 2024, hemos implementado varias mejoras en nuestros procesos de implementación para hacerlos más sólidos y ayudar a prevenir que se repita un incidente de este tipo, sin comprometer nuestra capacidad de proteger a nuestros clientes contra amenazas cibernéticas que evolucionan rápidamente “, dijo Meyers en testimonio escrito.
Meyers defendió la necesidad de que empresas como CrowdStrike pudieran seguir realizando actualizaciones a nivel del núcleo del sistema operativo cuando los miembros del comité le preguntaron sobre los riesgos potenciales asociados con la práctica. “Yo diría que si bien las cosas se pueden hacer en modo usuario, desde una perspectiva de seguridad, la visibilidad del kernel es ciertamente crítica”, dijo. análisis de causa raíz Tras el incidente, CrowdStrike señaló que aún queda mucho trabajo por hacer dentro del ecosistema de Windows para que los proveedores de seguridad puedan publicar actualizaciones directamente en el espacio del usuario en lugar del kernel de Windows.
¿Te pierdes el panorama general?
Pero algunos creen que la audiencia no fue lo suficientemente lejos como para identificar y resaltar algunos de los puntos más importantes del incidente. “Ver la interrupción del 19 de julio como un fracaso de CrowdStrike es simplemente incorrecto”, dijo Jim Taylor, director de producto y tecnología de RSA. “Más de 8 millones de dispositivos fallaron, y no es culpa de CrowdStrike que estos dispositivos no tuvieran copias de seguridad diseñadas para resistir una falla, o que los sistemas de Microsoft que estaban usando no pudieran no volver a las copias de seguridad locales”, señala. .
Esta interrupción global es el resultado de las decisiones de las empresas durante años de abdicar de la responsabilidad de construir sistemas resistentes y confiar en un número limitado de proveedores de nube para realizar funciones comerciales esenciales. “Centrarse en un negocio es como ver el árbol y no el bosque”, dice Meyers. “Me hubiera gustado que la audiencia se centrara más en los pasos que están dando las empresas para crear sistemas resistentes que puedan resistir una interrupción. »
Grant Leonard, director de seguridad de la información (CISO) de Lumifi, cree que una de las deficiencias de la audiencia fue el énfasis excesivo en la causa raíz de la interrupción y el enfoque relativamente limitado en las lecciones aprendidas. “Las preguntas sobre el proceso de toma de decisiones de CrowdStrike durante la crisis, sus estrategias de comunicación con los clientes afectados y sus planes para prevenir incidentes similares en el futuro habrían proporcionado más información procesable para la industria”, dice Leonard. “Explorar estas áreas podría ayudar a otras empresas a mejorar sus protocolos de respuesta a incidentes y procesos de control de calidad”. »
Leonard espera que la audiencia genere un renovado interés en los procesos de garantía de calidad en toda la industria de la ciberseguridad. “Probablemente veremos un aumento en las revisiones y pruebas rigurosas de la continuidad del negocio y los planes de recuperación ante desastres”, afirma. El incidente también podría conducir a un enfoque más cauteloso con respecto a las actualizaciones y parches automáticos en toda la industria, y las empresas implementarían protocolos de prueba más rigurosos. “Además, podría provocar una reevaluación de las cláusulas de responsabilidad e indemnización en los contratos de servicios de ciberseguridad, lo que podría cambiar el equilibrio de responsabilidades entre proveedores y clientes”. »