Etiquetas

Fuente: la pastilla roja (Sergio Montoro)

La informática tiene la peculiaridad de ser una ingeniería en la cual un técnico puede darle una justificación completamente convincente a otro explicando porqué ha sucedido algo que es en realidad totalmente falsa. Probablemente nunca sabremos con exactitud lo que provocó la caída de la zona este de Estados Unidos de Amazon durante casi 24 horas.

Justin Santa Barbara dice que fue debido a que Amazon no siguió sus propias especificaciones dando a entender claramente que la causa última de la caída fue que algún zote hizo negligentemente algo que no debía.

La explicación oficial es que falló una conexión de red, lo cual provocó que se activase un proceso de mirroring en los volúmenes de Elastic Block Store (EBS). Dicho proceso empezó a generar copias sin control de los volúmenes hasta que se agotó el espacio físico en disco y se fue todo a Alpedrete, incluído el propio panel de control de Amazon. Para solucionar el problema tuvieron que añadir más discos físicos de manera que algunos procesos pudieran completarse y se restaurase la operatividad del panel de control.

Ver artículo completo