A partir del 20-08-2018 2:03 UTC hasta las 7:40 UTC, un subconjunto pequeño o los usuarios que usan el Skills Workflow V1 alojado en la región de Europa Occidental pueden haber experimentado errores al iniciar sesión.
Alrededor del 1% de todas las solicitudes fueron afectadas. Todas las solicitudes afectadas fueron atendidas por el mismo servidor en nuestra granja de servidores V1 de Europa Occidental.
El equipo de DevOps mitigó el problema forzando el reinicio de una aplicación en el servidor afectado.
RCA
El nodo afectado no pudo leer correctamente un archivo de configuración almacenado en el disco, lo que provocó que las solicitudes que necesitaban leer el archivo fallaran.
El equipo de DevOps intentó mitigar el problema emitiendo reinicios "suaves" del servicio con solo un éxito parcial. El problema se mitigó por completo después de aplicar un reinicio "duro" al servicio.
La falla en la lectura del archivo de configuración fue causada por una condición de carrera en ciertas situaciones de reinicio del nodo.
Próximos pasos
El equipo lanzará una solución para evitar que ocurra dicha condición de carrera.
Lamentamos profundamente cualquier inconveniente que este problema pueda haber causado.
Entendemos el impacto que estos problemas tienen en nuestros clientes y nuestro equipo realizará mejoras en nuestro sistema para prevenir problemas futuros.
Comentarios
0 comentarios
Inicie sesión para dejar un comentario.