Post-mortems e incidentes críticos (P0)
Análisis profundo de fallos graves que impactaron la disponibilidad del servicio o la integridad de los datos. No busca culpables, sino debilidades en el proceso para fortalecer el sistema.
Preguntas clave (Estructura de la página):
- ¿Cuál fue el impacto total? (Tiempo caído, % de usuarios afectados).
- ¿Cuál fue la cronología del desastre? (A qué hora falló, a qué hora se detectó, a qué hora se arregló).
- ¿Cuál fue la Causa Raíz (Root Cause)? (Usa los "5 porqués" hasta llegar al origen real).
- ¿Cómo se resolvió el síntoma inmediato? (La solución rápida).
- ¿Qué acciones preventivas tomaremos? (Tareas concretas para que NO vuelva a pasar).
Cómo usarlo:
- Se redacta en las 24-48 horas posteriores a un incidente grave. Es una lectura obligatoria para todo el equipo técnico.