El hecho de que unas pocas líneas de código erróneas pudieran causar interrupciones de la magnitud de la actualización de CrowdStrike durante los últimos cuatro días ha centrado una atención sin precedentes en la necesidad urgente de una mayor resiliencia y redundancia en las pilas de las empresas de tecnología de la información en todo el mundo.
Pocos esperan que el camino sea fácil. Pero casi todo el mundo está de acuerdo en que los acontecimientos de los últimos días subrayan la necesidad de una mejor preparación, una mejor mitigación del impacto y nuevas ideas para recuperarse de cortes tecnológicos como el que ocurrió la semana pasada.
EL la devastación comenzó el 19 de julio Cuando una pequeña actualización de contenido de CrowdStrike para la versión de Windows de la tecnología de seguridad de terminales Falcon de la compañía provocó interrupciones en los sistemas en todo el mundo. Muchas aerolíneas, bancos, aeropuertos, hospitales, hoteles, empresas manufactureras y otros han informado que sus sistemas Windows se vuelven esencialmente inutilizables y se niegan a reiniciarse a pesar de los intentos de reiniciar después de una pantalla azul de la muerte (BSOD). Microsoft estimó que la actualización defectuosa de CrowdStrike afectó a algunos 8,5 millones de sistemas Windows global.
Como si los problemas de recuperación no fueran ya suficientemente graves, los malos actores empeoraron la situación esta semana al aprovechar el caos para intentar difundir correos electrónicos de phishing, malware y otro software malicioso. El 22 de julio, por ejemplo, CrowdStrike advirtió Actores maliciosos que utilizan un manual de recuperación falso de CrowdStrike para distribuir un ladrón de información previamente desconocido llamado Daolpu. Anteriormente, el proveedor de seguridad advirtió sobre actores maliciosos que intentaban distribuir un archivo ZIP malicioso a usuarios de Sudamérica; supuestamente se trataba de un parche de la empresa, pero en realidad cargaba el troyano RemCos. Otros, como SaboirBe4, Se informaron intentos de phishing, utilizando el problema de CrowdStrike como señuelo, apenas unas horas después de que comenzaran a surgir noticias sobre el problema.
CrowdStrike: ¿un problema de seguridad nacional?
El 22 de julio, el Comité de Seguridad Nacional de la Cámara de Representantes de los Estados Unidos pidió al director ejecutivo de CrowdStrike, George Kurtz, que explicara lo ocurrido y qué medidas tomará la empresa para evitar que ocurra un incidente similar en el futuro. En una carta a KurtzEl Comité señaló la magnitud de las interrupciones en los Estados Unidos (más de 3.000 vuelos cancelados, 11.800 retrasos de vuelos, cancelaciones quirúrgicas, interrupciones en los centros de llamadas del 911) como razones por las que no se puede ignorar el problema.
“Este incidente debería servir como una advertencia general sobre los riesgos para la seguridad nacional asociados con la dependencia de la red”, escribió el presidente del comité, Mark Green. “Los ciberactores maliciosos respaldados por estados nacionales, como China y Rusia, están siguiendo de cerca nuestra respuesta a este incidente. »
Los dos Huelga multitudinaria Y microsoft han publicado actualizaciones y orientaciones, incluidas consejos de autorreparación Microsoft actualizó el lunes su herramienta de recuperación con registro ampliado, capacidades de manejo de errores y dos opciones de reparación para ayudar a las organizaciones a acelerar la recuperación.
Una gigantesca tarea de recuperación
Sin embargo, la tarea de restaurar los sistemas Según Thomas Mackenzie, director de estrategia de producto de Lansweeper, el proceso será enorme y llevará mucho tiempo. “Depende de una serie de factores, incluido si hay copias de seguridad desde las que restaurar y si los recursos están virtualizados”, explica. “Microsoft ha lanzado una herramienta para resolver este problema, pero si el recurso tiene BitLocker y requiere la clave, no se puede utilizar. Esta no es una tarea fácil si se trata de muchos activos repartidos en diferentes ubicaciones. »
Danny Jenkins, director ejecutivo de ThreatLocker, afirma que las pruebas de su empresa muestran que se necesitan unos 15 minutos por computadora para realizar una recuperación manual, lo que será necesario en muchos casos.
“Si todos los ordenadores están instalados en la oficina, el tiempo de recuperación podría reducirse a unos cuatro minutos por dispositivo, siempre que estén cerca unos de otros”, explica, pero añade que la recuperación será mucho más difícil cuando los usuarios remotos estén involucrado. “Una empresa con 10.000 dispositivos necesitará aproximadamente 666 horas hombre para recuperar su computadora. Con la recuperación remota, probablemente llevará tres veces más tiempo. »
Otro problema son las claves de recuperación de cifrado. Cada dispositivo tendrá su propia clave de recuperación de BitLocker para iniciar en modo seguro.
“Esto podría extender el tiempo de recuperación [significantly]”Suponiendo que tenga una copia de seguridad en algún lugar”, dice Jenkins. “También es una llave manual que lleva mucho tiempo comprender. » Las organizaciones podrían intentar utilizar otra herramienta de seguridad para bloquear la ejecución de CrowdStrike y permitir la recuperación automática, añade.
Los peligros de un mundo interconectado
Este incidente de CrowdStrike nos recuerda que en un mundo cada vez más interconectado y dependiente de la tecnología, a veces las cosas pueden salir mal, afirma Melissa Bischoping, directora de seguridad de terminales de Tanium. En este caso, la cosa salió mal, de una forma técnicamente sencilla de solucionar, pero que requirió un esfuerzo astronómico en la práctica, ya que requirió intervención humana en casi todos los terminales afectados en los primeros días.
“En el futuro, debemos [focus] “Necesitamos centrarnos en la resiliencia y la redundancia de las tecnologías que desarrollamos e implementamos en todo el mundo”, afirma. “Es inevitable que se produzcan fallos en la tecnología. Establecer niveles de resiliencia, visibilidad en tiempo real y planes de continuidad del negocio que tengan en cuenta incluso las acciones correctivas más complejas debe estar en el centro de cada conversación sobre gestión de riesgos. »
Como era de esperar, el incidente ha planteado dudas sobre la conveniencia de otorgar a los proveedores de tecnología una capacidad ilimitada para realizar actualizaciones automáticas de su software en los sistemas de los clientes, a menudo sin siquiera pedir permiso primero, explica Bischoping: “Confiamos mucho en los proveedores que proporcionan software”. a nuestras organizaciones. Il est impératif que nous ayons des discussions sur la manière de permettre au client de garder le contrôle des modifications apportées aux points de terminaison et d’équilibrer la nécessité de déployer les informations les plus récentes avec la stratégie d’acceptation des risques propre à chaque medio ambiente. »
Permitir que las organizaciones tengan cierto control sobre la velocidad a la que los puntos finales reciben los cambios es una parte fundamental de la mitigación de riesgos, afirma.
Paul Davis, director de seguridad de sistemas de información (CISO) de JFrog, dice que el incidente de CrowdStrike es un recordatorio de por qué las pruebas y la preparación proactivas son esenciales para evitar interrupciones masivas.
““Las organizaciones afectadas también deben analizar honestamente sus operaciones: qué elementos de su pila de tecnología se desconectaron, quién podría haber hecho mejor su trabajo, a quién se le impidió hacer su trabajo, quién era crítico para el negocio, cuál fue el problema. qué organización podría prescindir durante el tiempo de inactividad y qué elementos del negocio necesitan ser más protegidos”, dice. “Las respuestas a estas preguntas definirán su plan de respuesta a la crisis y le brindarán un plan sobre cómo actuar cuando ocurra una interrupción de esta magnitud. »
La conclusión clave para las empresas es que la cadena de suministro de software puede ser compleja, con múltiples elementos y herramientas interconectados, donde incluso los errores pequeños y marginales pueden tener consecuencias de gran alcance. “La actualización gradual y la implementación cuidadosa son esenciales”, afirma Davis. “Nunca dejes que la cura sea peor que la enfermedad, cuando una actualización causa más perturbaciones que el error que intenta corregir. »