CrowdStrike publicó un informe de incidente preliminar (PIR) sobre la actualización defectuosa de Falcon, explicando que un error permitió que datos incorrectos pasaran su validador de contenido y provocó que millones de sistemas Windows fallaran el 19 de julio de 2024.
La empresa de ciberseguridad explicar que el problema fue causado por una actualización de configuración de contenido problemática destinada a recopilar datos de telemetría sobre nuevas técnicas de amenazas.
Después de pasar el validador de contenido, la actualización no se sometió a comprobaciones adicionales debido a que se basó en implementaciones exitosas anteriores del tipo de modelo de comunicación entre procesos (IPC) subyacente. Por lo tanto, no se detectó hasta que llegó a servidores en línea que ejecutaban Falcon versión 7.11 y posteriores.
La empresa se dio cuenta del error y revirtió la actualización en una hora.
Pero para entonces ya era demasiado tarde. Aproximadamente 8,5 millones de sistemas Windows o más experimentaron una lectura de memoria fuera de los límites y fallaron cuando el intérprete de contenido procesó la nueva actualización de configuración.
Pruebas inadecuadas
CrowdStrike utiliza datos de configuración llamados tipos de patrones IPC que permiten al sensor Falcon detectar comportamientos sospechosos en los dispositivos donde está instalado el software.
Los modelos IPC se entregan a través de actualizaciones periódicas de contenido que CrowdStrike denomina “contenido de respuesta rápida”. Este contenido es similar a una actualización de definición de antivirus, que permite a CrowdStrike ajustar las capacidades de detección de un sensor para detectar nuevas amenazas sin requerir actualizaciones completas simplemente cambiando sus datos de configuración.
En este caso, CrowdStrike intentó implementar una nueva configuración para detectar el abuso malicioso de Named Pipes en marcos C2 comunes.
Aunque CrowdStrike no nombró específicamente los marcos C2 específicos, algunos investigadores creen la actualización intentó detectar nuevas características de tuberías con nombre en Cobalt StrikeBleepingComputer se puso en contacto con CrowdStrike el lunes para preguntar si las detecciones de Cobalt Strike estaban causando los problemas, pero no recibió respuesta.
Según la empresa, el nuevo tipo de modelo IPC y las instancias de modelo correspondientes responsables de implementar la nueva configuración se han probado exhaustivamente utilizando técnicas de pruebas de estrés automatizadas.
Estas pruebas incluyen la utilización de recursos, el impacto en el rendimiento del sistema, el volumen de eventos y las interacciones no deseadas del sistema.
El Validador de contenido, un componente que verifica y valida instancias de modelos, verificó y aprobó tres instancias individuales, que se publicaron el 5 de marzo, el 8 de abril y el 24 de abril de 2024, sin problemas.
El 19 de julio, se implementaron dos instancias adicionales del modelo IPC, una de las cuales contenía la configuración defectuosa, que el validador de contenido pasó por alto debido a un error.
CrowdStrike afirma que debido a la confianza básica de pruebas anteriores y implementaciones exitosas, no se realizaron pruebas adicionales, como comprobaciones dinámicas, por lo que la actualización incorrecta llegó a los clientes, provocando una interrupción informática masiva a nivel global.
Sin embargo, según PIR, el contenido de respuesta rápida utiliza pruebas automatizadas en lugar de probarse localmente en dispositivos internos, lo que probablemente habría detectado el problema.
CrowdStrike dice que introducirá pruebas de desarrolladores locales para futuros contenidos de respuesta rápida, como se explica a continuación.
Nuevas medidas
CrowdStrike está implementando varias medidas adicionales para evitar incidentes similares en el futuro.
Específicamente, la compañía enumeró los siguientes pasos adicionales al probar contenido de respuesta rápida:
- Pruebas para desarrolladores locales
- Pruebas de actualización y restauración de contenido
- Pruebas de estrés, fuzzing e inyección de fallas
- Examen de estabilidad
- Probando la interfaz de contenido
Además, se agregarán comprobaciones de validación adicionales al validador de contenido y se mejorará el manejo de errores en el intérprete de contenido para evitar que dichos errores conduzcan a máquinas con Windows inutilizables.
En cuanto al despliegue de contenidos de respuesta rápida, están previstos los siguientes cambios:
- Implemente una estrategia de implementación escalonada, comenzando con una pequeña implementación canary antes de expandirla gradualmente.
- Mejore el monitoreo del rendimiento de los sensores y del sistema durante las implementaciones, utilizando comentarios para guiar la implementación por fases.
- Ofrezca a los clientes más control sobre la entrega de actualizaciones de contenido de Respuesta Rápida, permitiéndoles elegir cuándo y dónde se implementan las actualizaciones.
- Ofrezca detalles de actualización de contenido a través de notas de la versión, a las que los clientes pueden suscribirse para obtener información oportuna.
Crowdstrike ha prometido publicar un análisis más detallado de las causas fundamentales en el futuro, y habrá más detalles disponibles una vez que se complete la investigación interna.
