La imagen de miles de computadoras mostrando la temida "pantalla azul de la muerte", se convirtió en un meme instantáneo e inundó la red. Pero detrás de las bromas y la frustración digital se esconde una realidad incómoda: nuestra fragilidad ante los fallos tecnológicos y la falta de preparación para asegurar la continuidad de negocios.
Una actualización del software de ciberseguridad parecía ser la responsable del caos. CrowdStrike, la empresa con más de 30.000 clientes, soporte de más del 50% de las empresas del Fortune 1000, y la herramienta más utilizada en la plataforma de nube Azure, había desplegado en producción un update con un error fatal.
Más allá de los detalles, de si hubo o no un procedimiento de testing adecuado por parte de la empresa, si lo hubo o no por parte de las áreas de IT de los clientes antes de desplegarlo o simplemente confiaron y activaron las actualizaciones automáticas, quedó en evidencia que el sistema es tan seguro como débil sea alguna de sus partes.
Si una aplicación de escritorio falla, nos aparecerá un popup anunciando que el programa ha terminado, un código orientativo del error y la opción de aceptar y cerrar. Pero si lo que falla es parte del corazón del sistema, ejecutado con altos privilegios en modo kernel o como un controlador, cuando falla, todo se cae como un castillo de naipes y ante nuestros ojos aparece la “pantalla azul”.
En este caso, no había forma de volver atrás. Desplegado el parche de la aplicación CrowdStrike, el sistema se vuelve inutilizable sin opciones de rollback automático o asistencia remota para su desinstalación. Todo booteo termina en un BSOD. Con el correr de las horas, aparecen scripts para facilitar la tarea manual de iniciar en modo seguro, eliminar y renombrar archivos, tocar registros y reiniciar unas “15” veces aproximadamente para terminar el proceso de limpieza.
Cientos de miles de máquinas físicas y virtuales en la nube de Azure, basadas en Windows quedaron sin funcionar, generando imágenes surrealistas de pantallas, normales, minúsculas o gigantes, teñidas de azul. Y con ellos, centenares de plataformas en aeropuertos, trenes, hospitales, e-commerce, comunicaciones, call centers colapsaron. Miles de aviones quedaron en tierra con sus pasajeros, y por tierra también quedaron los planes de continuidad o contingencia.
Es crucial que las empresas se pregunten ¿y si nos hubiera pasado a nosotros? Imaginemos por un momento el caos: sistemas críticos inoperativos, empleados incapaces de trabajar, clientes furiosos por la falta de respuesta... ¿Tendríamos un plan para enfrentar un escenario similar? La respuesta, en muchos casos, sería un silencio incómodo.
Aquí es donde la planificación de la continuidad del negocio deja de ser una opción para convertirse en una necesidad imperante. Y no se trata solo de tener un "Plan de Recuperación ante Desastres" (DRP) o un "Plan de Continuidad del Negocio" (BCP) archivado en un cajón, sino de integrarlos en un sistema robusto y eficiente, guiado por estándares internacionales como por ej. la norma ISO 22301.
Veamos cómo una planificación profesional podría haber marcado la diferencia en un escenario como el que desencadenó el proveedor CrowdStrike:
1. Identificación y análisis de riesgos:
La ISO 22301 nos impulsa a pensar en "qué pasaría si...". En este caso, identificar la dependencia crítica de un único proveedor de software de seguridad y los riesgos asociados a un fallo masivo.
2. Elaboración de estrategias de mitigación:
El DRP entraría en juego con medidas para minimizar el impacto:
- Copias de seguridad actualizadas: para restaurar los sistemas afectados con la mayor rapidez posible.
- Sistemas redundantes o alternativos: para mantener las funciones críticas operativas durante la recuperación.
- Contratos con proveedores externos: que puedan proveer equipos o servicios de emergencia.
3. Continuidad operativa más allá de la tecnología:
El BCP, guiado por la ISO 22301, se centraría en:
- Priorizar las funciones críticas del negocio: asegurando su continuidad incluso con recursos limitados.
- Establecer protocolos de comunicación alternativos: para mantener informados a clientes, proveedores y empleados.
- Delegar responsabilidades y toma de decisiones: para una gestión eficaz de la crisis.
4. Pruebas y mejora continua:
La ISO 22301 no se limita a la creación de planes, promueve una cultura de mejora continua a través de:
- Simulacros y pruebas periódicas: para evaluar la eficacia del DRP y el BCP, identificar debilidades y optimizar los tiempos de respuesta.
- Revisión y actualización constante: para adaptar los planes a los cambios en la infraestructura, los procesos de negocio y el panorama de riesgos.
5. Zero Trust
Confiar ciegamente en un único proveedor, incluso si se trata de seguridad, puede resultar peligroso, incluso esa situación debería clasificarse como un riesgo. Implementar el principio de "nunca confiar, siempre verificar" (Zero Trust) a todos los niveles de la infraestructura, desde los usuarios y dispositivos hasta las aplicaciones y los datos, permitirá a las organizaciones minimizar el impacto de un fallo o una brecha de seguridad, limitando el acceso a la información crítica y evitando que un único punto de fallo pueda comprometer todo el sistema
Conclusiones
El caso CrowdStrike, más allá de las molestias y el costo económico, nos recuerda que la continuidad del negocio no es un lujo, sino una inversión estratégica.
Implementar sólidas políticas de Continuidad, de gestión de incidentes y Zero Trust, no evitará que ocurran fallos, pero nos permitirá afrontarlos con preparación, minimizar su impacto y garantizar la supervivencia de nuestro negocio en un mundo cada vez más digitalizado e interconectado.
Desde Madrygal podemos acompañar en cada una de las etapas de este modelo, en un plan de mejora continua para lograr el grado de madurez que su organización necesita.