기술보다 체계, 절차보다 권한, 문서보다 실행이 재난 대응의 본질이다
2025년 9월 26일 대전 국가정보자원관리원 본원에서 리튬이온 배터리의 폭발로 인한 화재가 발생해, 정부 전산시스템이 대규모로 마비되는 사태가 벌어졌다.
이로 인해 약 600여 개의 행정 서비스가 일시 중단되었다.
이는 단순한 설비 사고가 아니라, **‘중앙집중형 시스템 구조의 리스크’**와 **‘조직 간 연결 단절’**이 복합적으로 드러난 사건으로 기록되었다.
필자는 우리가 문제해결를 하는데 있어 자주 사용하는 도구인 5Whys를 토대로 문제 해결방안을 모색해 보고자 한다.
불길은 빠르게 진압되었지만, 결과는 단순한 화재 피해로 끝나지 않았다.
약 600여 개의 행정 서비스가 동시에 중단되면서,
국가 디지털 행정의 기반이 얼마나 취약한 구조로 엮여 있는지가 드러났다.
이 사건은 ‘하드웨어의 고장’이 아니라 ‘체계의 결함’이었다.
중앙집중형 구조에 대한 위험성, 조직 간 연결의 부재,
그리고 위기 순간 의사결정의 혼선이 한꺼번에 노출된 사건이었다.
이 사건의 원인을 5W1H로 다시 정리해보면 다음과 같다.
누가(Who) 대응했는가? 국가정보자원관리원과 각 부처의 정보시스템 담당 부서가 중심이었다.
무엇이(What) 일어났는가? 화재로 인해 전산 설비가 손상되고,
서비스가 순차적으로 멈췄다.
어디서(Where)? 중앙집중형 데이터센터의 특정 존(zone)에서 시작되었다.
언제(When)? 화재 발생 직후 24시간에서 72시간 사이,
즉 복구의 골든타임 동안 대응과 복구가 동시에 이루어졌다.
왜(Why)? 자동 차단 시스템이 작동하지 않았고,
야간 인력이 부족했으며, 복구 우선순위가 명확히 설정되지 않았다.
어떻게(How)? 매뉴얼은 있었지만 현실과 괴리되어 있었고,
컨트롤타워의 권한은 모호했으며, 복원 절차는 표준화되어 있지 않았다.
핵심은 단 하나였다.
‘기술의 실패’가 아니라 ‘조직 간 연동 실패와 의사결정의 지연’이었다.
이 사건의 핵심을 파고들기 위해 ‘5Whys(왜?) 분석법’을 적용해보면
하나의 원인이 또 다른 원인을 낳는 구조적 연쇄가 보인다.
1 Why — 화재 발생 시 자동 차단 및 절체가 작동하지 않았다.
2 Why — 감지·진압 시스템이 비활성 상태였고,
정기점검과 리셋 테스트가 외주에 분절되어 수행되었다.
3 Why — 주요 안전설비의 데이터가 실시간으로 연동되지 않았다.
4 Why — IT 시스템과 안전 시스템 간 인터페이스가 구축되어 있지 않았다.
5 Why — 통합된 안전·IT 거버넌스가 부재했다.
이것이 첫 번째 축, 즉 기술과 거버넌스의 단절이었다.
두 번째 축은 인력 구조였다.
야간에는 단 한 명의 모니터링 인력만 근무하고 있었다.
이 한 명이 모든 알람과 로그를 동시에 감지하고 보고하는 것은 불가능했다.
그 이유는 단순했다.
위험 대비보다 예산 효율성을 중심으로 인력 정책이 설계되어 있었기 때문이다.
야간 대응은 비용 절감을 위해 축소되었고, 교대 체계도 없었다.
즉, ‘리스크 기반 인력정책’ 자체가 존재하지 않았던 것이다.
세 번째 축은 복구 과정이었다.
화재 진압 후 복구가 시작되었지만, 부처별 서버 환경이 달라 자동 복구가 불가능했다.
백업 정책 또한 제각각이었고, 데이터 일부는 손상되었다.
무엇보다 백업이 있어도 이를 실제로 복원해볼 ‘리허설’이 없었다.
결국 ‘저장 중심 정책’이 ‘복원 중심 체계’로 전환되지 못했던 것이다.
네 번째 축은 컨트롤타워였다.
복구 우선순위를 정하는 과정에서 혼선이 발생했다.
매뉴얼은 존재했지만 ‘현장 적용 기준’이 없었다.
권한과 책임이 불분명했고, 결과적으로 중복 보고와 판단 지연이 이어졌다.
다섯 번째 축은 문화였다.
사건 이후 유사 사례 보고는 있었지만, 개선조치는 형식에 그쳤다.
사후평가는 ‘책임 추궁’ 중심으로 흘렀고,
학습과 개선으로 이어지는 루프는 만들어지지 않았다.
이로써 재난 대응의 경험이 축적되지 않았고,
동일한 구조적 위험이 다시 발생할 가능성이 높아졌다.
이 사건의 본질은 ‘단일 원인 사고’가 아니라 ‘복합 시스템 실패’였다.
네 가지 근본 원인이 동시에 작용했다.
첫째, 기술적 한계.
IT 시스템과 안전설비 간의 인터페이스 부재,
데이터의 실시간 연동 실패,
복원 검증 자동화의 부재가 핵심이었다.
둘째, 인적 한계.
인력 최소화, 야간 단독 근무, 리스크 기반 인력정책의 미비로
위기 대응의 체력이 약화되었다.
셋째, 조직적 한계.
컨트롤타워의 권한이 불명확했고, 복구 우선순위 기준이 표준화되어 있지 않았다.
RACI(역할·책임 매트릭스)가 명확히 설정되지 않아
누가 ‘결정’을 해야 하는지도 불분명했다.
넷째, 문화적 한계.
책임 회피형 보고 문화,
형식적인 감사 중심의 사후평가,
그리고 학습과 개선이 이루어지지 않는 구조가
결국 같은 오류를 반복하게 만들었다.
결국, 이번 화재는 ‘불길’이 아니라 ‘시스템적 단절’이 문제였다.
이 사건 이후 가장 시급했던 과제는 ‘책임의 명확화’였다.
각 단계별로 누가 실행하고, 누가 결정하며,
누가 자문하고, 누가 보고받을 것인지를 명확히 하는 것이 핵심이었다.
이를 위해 적용된 모델이 바로 RACI(Role and Responsibility Matrix) 이다.
RACI는 Responsible(수행자), Accountable(책임자),
Consulted(자문자), Informed(통보대상)의 네 가지 역할로 구성된다.
예를 들어, 화재 감지 및 초기 대응 단계에서는
‘시설관리팀’이 직접 대응(Responsible)을 맡고,
‘센터장’이 최종 책임(Accountable)을 진다.
소방 및 안전담당자는 자문(Consulted) 역할을,
각 부처의 시스템 담당자는 통보(Informed)를 받는 구조다.
전산 절체 단계에서는 IT 인프라팀이 수행 주체가 되며,
본부장이 의사결정을 책임진다.
복구 컨트롤타워 단계에서는 재난대응센터가 실행을 주도하고,
관리원장이 최종 책임을 진다.
행안부와 기재부는 정책 자문을, 각 부처는 결과를 통보받는다.
데이터 복원 검증은 데이터관리팀이 맡고,
서비스 재가동은 서비스운영팀이 담당한다.
사후 분석과 개선은 재난대응 TF가 주도하며,
원장이 최종 승인권을 가진다.
핵심은 간단하다.
‘한 업무당 최종 책임자(A)는 단 한 명’이어야 한다는 것이다.
책임이 나뉘면 결정이 늦고, 결정이 늦으면 피해가 커진다.
이 사건의 교훈은 분명하다.
기술이 재난을 막지 못할 수는 있지만, 체계의 부재는 재난을 확대시킨다.
즉각적인 대응과 복구의 성공 여부는 장비의 성능이 아니라
‘결정할 수 있는 구조’,
‘협력할 수 있는 문화’,
‘학습할 수 있는 조직’에 달려 있다.
화재 대응의 진정한 교훈은
“누가 불을 껐는가”가 아니라 “누가 즉시 결정할 수 있었는가”에 있다.
기술은 대응의 도구일 뿐이다.
진짜 복구력(Resilience)은
‘결정할 수 있는 권한’과 ‘책임을 질 수 있는 문화’에서 태어난다.