Cloudflare confirmó que el desglose del servicio masivo ayer no fue causado por un incidente de seguridad y que no se perdieron datos.
El problema fue en gran medida atenuado. Ayer comenzó a las 5:52 PM UTC cuando el sistema de trabajadores de KV (valor clave) estaba completamente fuera de línea, causando la pérdida generalizada de servicio en varios servicios de TI e IA.
Los trabajadores de KV son una tienda de valores clave a escala global utilizada por los trabajadores de Cloudflare, la plataforma de TI sin compañía de la empresa. Este es un artículo fundamental en muchos servicios de CloudFlare y una falla puede causar problemas en cascada en muchos componentes.
La perturbación también tuvo un impacto en otros servicios utilizados por millones, incluida la plataforma Google Cloud.

Fuente: CloudFlare
En un post mortem, Cloudflare explica que el desglose duró casi 2.5 horas y que la causa profunda fue una falla en el almacenamiento subyacente de los trabajadores debido a un proveedor de nubes de terceros.
“La causa de esta desglose se debió a una falla de la infraestructura de almacenamiento subyacente utilizada por nuestro servicio de trabajadores KV, lo cual es una dependencia crítica de muchos productos de CloudFlare y se basa en la configuración, autenticación y entrega de activos a través de los servicios afectados”, “,”, “,”, “,”, “,”, “,”, “,”, “,”, “,”, “,”, “, Marco de la nube dicho.
“Parte de esta infraestructura es compatible con un proveedor de nubes de tercera parte, que ha experimentado un desglose hoy y tuvo un impacto directo en la disponibilidad de nuestro servicio KV”.
Cloudflare determinó el impacto del incidente en cada servicio:
- Trabajadores de KV – Experimentó una tasa de falla del 90.22% debido a la falta de disponibilidad del almacenamiento de back -end, afectando todas las lecturas y escritos no comprados.
- Acceso, cadena, puerta de enlace – Todos ellos han sufrido fallas críticas en la autenticación basadas en la identidad, la gestión de las sesiones y la aplicación de políticas debido a la dependencia de los trabajadores de KV, con Warp no puede registrar nuevos aviones y la interrupción del indicador de las solicitudes de puerta de enlace y DOH.
- Panel de control, torniquete, desafíos – Stepilé de conexión generalizada y verificación de Captcha, con un riesgo de reutilización de tokens introducidos debido a la activación del interruptor de muerte en los torniquetes.
- Aislamiento del navegador y representación del navegador – Imposible lanzar o mantener sesiones basadas en enlaces y tareas del navegador debido a fallas en cascada en el acceso y la puerta de enlace.
- Transmisión, imágenes, páginas – Besos funcionales principales experimentados: leer el flujo y la transmisión en vivo fallaron, las descargas de imágenes cayeron al 0% de éxito y las páginas / creaciones de servicio culminaron con ~ 100% de falla.
- Trabajadores de IA y Autorag – no estaban disponibles por completo debido a la dependencia de KV de las funciones de configuración, enrutamiento e indexación del modelo.
- Objetos duraderos, D1, colas – Los servicios construidos en la misma capa de almacenamiento que KV han sufrido hasta el 22% de tasas de error o complementan la falta de disponibilidad de colas de mensajes y operaciones de datos.
- Puerta de entrada en tiempo real y ai – Frente a las interrupciones del servicio casi totales debido a la incapacidad de recuperar la configuración de los trabajadores de KV, con solicitudes de giro / SFU y SFU Gateway y han tocado fuertemente.
- Activos de Zaraz y Trabajadores – ha visto una falla completa o parcial en la carga o actualización de configuraciones y activos estáticos, aunque el impacto del usuario final ha sido limitado en el alcance.
- CDN, trabajadores de plataforma, trabajadores – El aumento de la latencia y los errores regionales tienen un aumento en los lugares, los nuevos trabajadores fracasaron al 100% durante el incidente.
En respuesta a este desglose, CloudFlare indica que acelerará varios cambios centrados en la resiliencia, eliminando principalmente la dependencia de un solo proveedor de nubes de tercera parte para trabajadores de almacenamiento de backend de KV.
Poco a poco, la tienda Central KV se migrará al almacenamiento limpio de los objetos CloudFlare R2 para reducir la dependencia externa.
Cloudflare también planea implementar garantías de servicios de servicio cruzado y desarrollar nuevas herramientas para restaurar gradualmente los servicios durante las fallas de almacenamiento, evitando las sobrecargaciones que podrían superar los sistemas de recuperación y causar fallas secundarias.
El correctivo significaba scripts complejos, largas horas y ejercicios interminables de fuego. No más.
En esta nueva guía, los dientes descomponen la forma en que las organizaciones modernas de TI están ganando energía con la automatización. Parche más rápido, reduzca los costos generales y se centre en el trabajo estratégico, no se requiere un guión complejo.