Google afirma que el problema de gestión de API está detrás del gran jueves Google Cloud Breakdown, que ha interrumpido o reducido sus servicios y muchas otras plataformas en línea.
Google dice que la falla en la nube comenzó alrededor de las 10:49 y terminó a las 3:49, después de causar problemas a millones de usuarios en todo el mundo durante más de tres horas.
Además de Google Cloud, el incidente también tuvo un impacto en Gmail, Google Calendar, Google Chat, Google Cloud Search, Google Docs, Google Drive, Google Meet, Google Tasks, Google Voice, Google Lens, Discover y Voice Search.
Sin embargo, esto también ha causado problemas generalizados para las plataformas de terceros basadas en Google Cloud, que incluye, pero sin limitarse, Spotify, Discord, Snapchat, NPM, Firebase Studio y un número limitado de servicios de CloudFlare basados en la tienda de KV Workers ‘Key Store.
“Lamentamos profundamente el impacto de todos nuestros usuarios y sus clientes que causó esta perturbación / desglose del servicio. Dijo Google.
Aunque todavía está trabajando en la publicación de un informe de incidente completo, Google reveló hoy la causa profunda de lo que causó un mayor número de 503 errores en solicitudes de API externas durante el desglose de tres horas.
Como la compañía explicó hoy, su plataforma de gestión de API de Google Cloud falló debido a datos no valientes, un problema que no se ha descubierto y resuelto rápidamente porque carecía de pruebas efectivas y sistemas de gestión de errores.
“Según nuestro análisis inicial, el problema ocurrió debido a una actualización de cuotas automatizada poco probable a nuestro sistema de administración de API que se distribuyó en todo el mundo, lo que causó la recuperación de solicitudes de API externas.
“Sin embargo, la base de datos de políticas de cuotas en US-Central1 se ha sobrecargado, lo que condujo a una recuperación mucho más larga en esta región. Varios productos han tenido un impacto residual moderado (por ejemplo, atrasos) hasta una hora después de la atenuación del problema principal y un pequeño número que se recuperó después de eso”.
Servicios de CloudFlare eliminados por el fracaso de Google
Después de haber logrado restaurar sus propios servicios impactados, Cloudflare también reveló en una autopsia que el incidente de ayer no fue causado por un incidente de seguridad y que no se perdieron datos.
“La causa de este desglose se debió a la falla de la infraestructura de almacenamiento subyacente utilizada por nuestro servicio de trabajadores KV, lo cual es una dependencia crítica de muchos productos de CloudFlare y se basa en la configuración, autenticación y entrega de activos a través de los servicios afectados”, dijo Cloudflare.
“Parte de esta infraestructura es compatible con un proveedor de nubes de tercera parte, que ha experimentado un desglose hoy y tuvo un impacto directo en la disponibilidad de nuestro servicio KV”.
Incluso si no compartió el nombre del proveedor de la nube detrás del desglose del jueves, un nativo de Cloudflare dijo ayer para completar que solo se asignaron los servicios de CloudFlare basados en Google Cloud.
En respuesta a este incidente, CloudFlare indica que migrará la tienda Central KV a sus propios objetos R2 para reducir la dependencia externa y evitar problemas similares en el futuro.
El correctivo significaba scripts complejos, largas horas y ejercicios interminables de fuego. No más.
En esta nueva guía, los dientes descomponen la forma en que las organizaciones modernas de TI están ganando energía con la automatización. Parche más rápido, reduzca los costos generales y se centre en el trabajo estratégico, no se requiere un guión complejo.