작동을 보장하는 법·제도·조달·운영 체계
BCP(Business Continuity Plan, 업무 연속성 계획)와 DR(Disaster Recovery, 재해복구)은 종종 혼용되지만, 역할이 다르다.
DR은 정보시스템과 데이터를 정해진 시간과 시점 안에 복원하는 기술·아키텍처 체계다. RTO와 RPO로 측정되고, 인프라와 애플리케이션을 다시 살려내는 것이 목표다.
BCP는 그보다 넓다. 재난이나 장애 상황에서도 핵심 행정 기능을 끊지 않고 이어가기 위한 조직·절차·자원의 체계다. 오프라인 접수와 임시 승인·지급 같은 대체 절차, 비상 결재선과 사후 대사 규칙 같은 법적 장치, 지휘·보고·대국민 안내 라인, 복구 이후 전산 원복과 감사 절차까지 포함한다. 목표는 명확하다. 시스템이 멈춰도 행정은 멈추지 않는 것이다.
DR이 인프라를 살리는 역할이라면, BCP는 그 사이 업무의 연속성을 유지하고, 복구 뒤 임시 처리분을 법적·회계적으로 정합하게 원복시키는 역할이다.
둘은 구분되지만 서로를 전제로 한다.
DR 없는 BCP는 복구 없는 임시 대응에 불과하고, BCP 없는 DR은 시스템은 살아나지만 그 사이 행정이 멈춘 채로 복구를 기다리는 구조다.
그러나 이번 사고는 BCP와 DR의 기술적·운영적 미비를 넘어, 그것들을 강제·조정·감독할 상위 장치의 부재를 드러냈다.
각론 1에서 인프라의 물리적·논리적 취약성을, 각론 2에서 운영과 관제의 구조적 문제를 다뤘다면, 이번 각론 3은 한 걸음 더 위로 올라간다.
BCP와 DR이 문서로만 존재하지 않고 항상 실제로 작동하도록 만드는 상위 거버넌스, 즉 법·제도·조달·책임·예산 프레임을 확립하는 것이 목적이다.
왜냐하면 좋은 BCP 문서를 써도, 법이 강제하지 않으면 작성되지 않는다.
정교한 DR 아키텍처를 설계해도, 예산이 붙지 않으면 구축되지 않는다. 훈련을 계획해도, 평가에 반영되지 않으면 실행되지 않는다. 책임이 명확하지 않으면, 재난 시 지휘권은 공중에 뜬다. 이번 각론은 그 체계를 만드는 방법을 다룬다.
이번 사건의 BCP·거버넌스 실패는 네 축에서 확인된다. 각 축은 단순한 운영 실수가 아니라, 상위 거버넌스가 작동하지 않았기 때문에 발생한 구조적 결함이다.
첫 번째 축은 관제·CMDB의 동일 실패영역 배치다.
관제 시스템과 CMDB(구성관리 데이터베이스)가 프라이머리 리전과 동일한 실패영역에 배치되어 있었다.
화재로 프라이머리가 멈추자, 무엇이 어디 있는지, 무엇이 먼저 복구되어야 하는지를 판단할 수단도 함께 소실됐다. 영향도 산정이 지연되고, 우선순위 결정이 흔들렸다. 이것은 설계 실수가 아니다. 설계 표준 자체가 존재하지 않았다는 증거다. CMDB를 이원화하고, 관제를 다중 리전에서 상주시켜야 한다는 원칙이 법적 의무나 조달 요건으로 고정되지 않았기 때문에, 각 기관은 예산과 편의를 우선했다. 거버넌스 공백이 설계 공백을 낳았다.
두 번째 축은 DR 거점의 준비 미흡이다.
공주 DR센터는 존재했지만, 설계 변경과 지연으로 실전에서 역할을 증명하지 못했다. 법제화된 RTO·RPO 목표값도, 자동 전환 설계도, 정기 게임데이 검증도 충분하지 않았다. DR이라는 이름의 시설은 있었지만, DR이라는 기능은 작동하지 않았다. 이것은 기술 역량의 문제가 아니다. DR 구축과 검증을 의무화하고, 미준수에 페널티를 부여하는 제도가 없었다는 문제다. DR 투자는 "아직 안 터졌으니 미룰 수 있는 항목"으로 취급됐고, 예산 삭감의 1순위 대상이었다. 거버넌스 공백이 투자 공백을 낳았다.
세 번째 축은 커뮤니케이션의 혼선이다.
재난 초기, 대국민·대기관 커뮤니케이션에서 등급별 안내, 대체 경로, 예상 시간표가 표준화된 방식으로 전달되지 못했다. 누가 무엇을 언제 공표할지에 대한 지휘 라인이 명확하지 않았고, 발동 30분 이내 1차 공지 같은 SLA도 확립되지 않았다. 이것은 커뮤니케이션 역량의 문제가 아니다.
지휘 체계와 책임 구조가 법적으로 고정되지 않았다는 문제다. 평시에는 누가 담당자인지 불명확해도 문제가 드러나지 않지만, 재난 시에는 단일 지휘권의 부재가 혼란을 증폭시킨다. 거버넘스 공백이 지휘 공백을 낳았다.
네 번째 축은 예외 시스템의 완전 소실이다.
외부 백업과 데이터 주권 설계를 벗어난 예외 시스템(G-드라이브)이 완전히 소실됐다. 백업 정책이 존재했지만, 예외를 허용하고 감독하지 못했다. "데이터가 정책"이라는 원칙은 예외 하나로 무너졌다. 이것은 시스템 운영의 실수가 아니다. 감독과 감사 체계가 예외를 추적하고 시정할 권한을 갖지 못했다는 문제다.
원칙은 문서에 존재했지만, 원칙을 집행할 강제력은 없었다. 거버넌스 공백이 감독 공백을 낳았다.
이 네 축의 공통점은 명확하다. 기술과 운영이 아니라, 제도와 책임이 문제였다. 각론 3은 이 공백을 메우는 방법을 제시한다. 먼저 BCP와 DR이 실제로 작동하기 위한 운영 설계를 다루고, 이어서 그 운영을 강제하고 유지하는 제도적 장치를 다룬다.
BCP와 DR이 문서를 넘어 실제로 작동하려면, 다섯 가지 운영 설계가 필요하다.
첫째는 서비스 등급과 목표값을 행정 책임의 언어로 정의하는 것이다.
서비스 등급은 기술 조직이 임의로 정하는 것이 아니다. 행정 책임자가 명시적으로 승인하고, 법적 의무로 전환되어야 한다.
신분·자격 확인, 민원 접수·발급, 지급·정산, 필수 내부결재, 대민 안전 알림 등 핵심 전자행정 기능을 최상위 등급으로 지정한다. 지정은 행정 책임자의 서명으로 확정하고, 각 등급별로 DR 관점의 RTO와 RPO를 수치화한다.
그러나 RTO와 RPO만으로는 부족하다. BCP 관점의 지속 목표를 병기해야 한다.
예를 들어, 신분·자격 확인은 "RTO 3시간, RPO 15분"과 별개로 "시스템 불능 상태에서 30분 내 오프라인 대체 절차 가동"과 같은 방식으로 정의된다. 시스템이 살아나기 전에도, 행정은 멈추지 않는다. 발동과 해제의 경계 조건은 물리 장애, 전력·냉각 상실, 통신 백본 단절, 인증 인프라 실패 등으로 사전 표준화한다.
체크리스트 기반으로 기록하고, 단일 지휘 서명으로 남긴다. 모호함은 재난 시 지연을 낳는다.
둘째는 BCP 문서가 현장 집행 가능한 해상도를 갖추는 것이다.
BCP 문서는 원칙을 나열하는 기획서가 아니다. 현장에서 바로 집행 가능한 해상도를 가져야 한다.
신분·자격 확인은 오프라인 대조 절차와 임시 증빙 발급, 사후 전산 대사 규칙을 포함한다. 민원 접수와 발급은 표준 수기 양식과 접수 번호 체계, 임시 영수증, 사후 입력 배치 규칙까지 갖춰야 한다. 지급과 정산은 임시 지급 한도, 승인 권한의 계층 하향, 사후 검증과 추징 절차를 명문화한다. 내부결재와 승인은 비상 결재선과 대리결재 기준, 유효성 부여 조항을 명시한다.
모든 임시 절차에는 법적 효력 부여 조항과 사후 원복·대사 규칙이 붙어야 한다. 임시로 처리한 것이 나중에 무효가 되면, 2차 혼란이 발생한다. 문서는 인쇄본과 내부 포털 양쪽에 상시 비치되어야 한다. 전산이 죽으면 포털도 죽는다.
셋째는 지휘·보고·커뮤니케이션 체계가 분리와 통합을 동시에 충족시키는 것이다.
재난 시 지휘 체계는 세 라인으로 나뉜다.
기술 복구 라인은 DR 전환과 서비스 재기동을 책임진다. 기술적 판단과 실행에 집중한다.
행정 지휘 라인은 복구 우선순위와 임시 절차 범위, 법적 효력 적용을 명령한다. 정책적 판단과 책임을 진다. 대국민 커뮤니케이션 라인은 중단 범위와 대체 경로, 예상 시간표를 공표한다. 투명성과 신뢰를 관리한다.
세 라인은 독립적으로 작동하지만, 최상위 컨트롤 타워가 단일 지휘권을 행사한다.
최종 결정은 한 곳에서 나온다. 외부 안내는 시간 기반 SLA로 표준화한다. 발동 30분 이내 1차 공지, 3시간 이내 2차 상세 공지, 이후 정기 업데이트라는 규격을 기본으로 하고, 라인별 책임과 승인 권한을 문서로 고정한다. 재난 시 "누가 발표하나"를 논쟁할 시간은 없다.
넷째는 복구 이후 임시 처리분을 반드시 전산으로 원복하는 것이다.
BCP 상태에서 발생한 수기 접수, 임시 승인, 임시 지급은 DR 복구 이후 반드시 전산으로 원복해야 한다.
원복은 임시 기록의 수집과 정리, 전산 반영 배치와 오류 검출, 재무·감사·법무 대사, 종결 보고의 순서로 진행한다. 각 단계에는 마감 기한과 책임자가 명시되어야 하며, 임시 처리의 법적 효력과 사후 책임 소재가 흔들리지 않도록 관련 조항을 사전에 확정한다. 원복 지연은 2차 피해를 유발한다. 지급이 누락되거나, 승인이 중복되거나, 회계가 맞지 않는다. 목표 기한 준수를 관리지표로 운영해야 한다.
다섯째는 훈련과 검증이 문서의 한계를 보완하는 유일한 방법임을 인정하는 것이다.
훈련 없는 계획은 환상이다. 문서를 신뢰하는 것이 아니라, 훈련을 신뢰해야 한다.
분기별 DR 게임데이로 실제 트래픽을 세컨더리 리전으로 넘겨본다. 전환이 자동으로 작동하는지, RTO를 준수하는지, 데이터 정합성이 유지되는지를 확인한다. 반기별 전 조직 BCP 시뮬레이션으로 임시 절차와 안내 라인을 실제로 작동시킨다. 수기 양식을 사용하고, 비상 결재선을 태워보고, 대국민 공지를 작성한다.
평가는 전환 성공률, RTO 준수율, 임시 처리 오류율, 대국민 공지 적시성, 민원 폭주 대응 시간, 원복 마감 준수율 같은 정량 지표로 수행한다. 성과는 사고 부재가 아니라 목표 내 복구와 지속성 달성으로 판단한다.
"아직 안 터졌다"는 성과가 아니다. "터져도 목표를 달성했다"가 성과인 것이다.
여기까지가 운영 레이어다. 그러나 이것만으로는 부족하다.
이 운영 설계가 실제로 구현되고, 유지되고, 집행되도록 만드는 제도적 장치가 필요하다.
이제 거버넌스 레이어로 올라간다.
운영 설계가 작동하려면, 여덟 가지 제도적 장치가 필요하다.
첫째는 상설 컨트롤 타워가 법정 지휘권을 갖춘 조직으로 존재해야 한다는 것이다.
컨트롤 타워는 재난 때만 임시로 만드는 태스크포스가 아니다. 표준 설계, 정기 감독, 재난 지휘를 수행하는 상시 조직이어야 한다.
역할은 세 가지로 나뉜다.
표준 설계 권한은 등급 분류와 RTO·RPO 하한, 표준 DR·BCP 아키텍처를 제정한다. 각 기관이 제멋대로 설계하지 않도록 틀을 제공한다.
정기 감독 권한은 감사와 게임데이·시뮬레이션 심사, 미준수 페널티를 집행한다. 문서만 확인하는 것이 아니라, 실제 작동을 검증한다.
재난 지휘 권한은 우선순위 확정과 자원 재배치 명령, 대국민 공지 승인을 수행한다.
재난 시 최종 결정권은 여기서 나온다. 이 권한은 정권 교체와 무관하게 유지되어야 한다. DR과 BCP는 정치적 아젠다가 아니라, 국가 기능의 생존 문제다.
둘째는 법제화가 권고를 의무로 전환해야 한다는 것이다.
좋은 가이드라인은 많다. 그러나 가이드라인의 문제는 항상 지켜지지는 않는다는 것이다.
법제화는 권고를 의무로 전환한다.
핵심 전자행정 기능을 상위 법령으로 중단 불가 서비스로 지정해야 한다.
지정과 동시에 DR 의무로서 등급별 RTO·RPO 하한 준수가, BCP 의무로서 임시 절차와 법적 효력 조항의 상시 구비가, 훈련 의무로서 분기 DR 게임데이와 반기 BCP 시뮬레이션의 정례화가, 공시 의무로서 가동률과 전환 성공률과 RTO 준수율 등 핵심 지표의 요약 공개가 자동 부여되도록 설계한다.
미준수는 예산 감액과 평가 감점으로 연동하고, 우수기관에는 가점을 부여한다.
공시 의무는 특히 중요하다. 사회적 감시가 작동하면, 내부 감독만으로는 포착하지 못하는 문제가 드러난다.
셋째는 예산과 회계가 수명주기 기반 상시비용 구조로 고정되어야 한다는 것이다.
IT 예산은 프로젝트 예산이 아니다. 수명주기 기반 상시비용 구조로 고정해야 한다.
전원·배터리·냉각·서버·네트워크 등 설비는 자본적 지출로 취득·감가하고, 운영·정비·훈련은 운영비로 상시 편성한다. 장비군별 교체 주기를 고정 캘린더로 예산에 선반영한다.
예를 들어, 서버는 5년, 네트워크 장비는 7년, UPS는 10년이라는 주기를 정하고, 교체 시점이 오면 예산이 자동으로 집행된다. 내용연한 초과 장비 수와 금액을 교체 적체 지표로 분기 보고하고 공시한다.
교체 적체와 RTO 미준수는 재난 리스크 지표로 관리한다.
DR·BCP 훈련과 감사 비용은 매년 고정 항목으로 배정하여 "아직 안 터졌으니 삭감"을 구조적으로 차단한다.
넷째는 조달과 계약에 SLA, 다중화, 긴급 우회로를 내장해야 한다는 것이다.
조달과 계약은 DR·BCP의 실행 가능성을 좌우한다. 입찰과 계약 본문에 가용성과 RTO·RPO, 전환 시간, 커뮤니케이션 SLA를 삽입한다. 단일 사업자나 단일 리전에 종속되지 않도록 다중화 요건을 명시한다.
민간 클라우드, DRaaS, 임시 회선, 코로케이션은 사전 체결 계약으로 확보한다. 재난이 터지고 나서 입찰하면 늦다. 재난 선언 시 제한경쟁이나 수의계약으로 즉시 전환할 수 있도록 법적 우회로를 열고, 사후 정산과 감사를 표준화한다. 외부 사업자에게는 CMDB 연동과 장애 텔레메트리 공유, DR 연습 참여를 법과 계약으로 강제한다. 사업자가 블랙박스로 남으면, 재난 시 조율이 불가능하다.
다섯째는 법적 효력과 책임 구조가 임시 처리의 정합성과 인적 리스크 분산을 보장해야 한다는 것이다.
임시 처리가 법적으로 유효하지 않으면, BCP는 무용지물이다.
법적 효력과 책임 구조를 사전에 확립해야 한다. 임시 결재와 지급의 유효성, 비상 결재선과 대리결재 기준, 사후 대사 규칙을 법령 또는 표준지침에 명시한다. 사전 기준에 따라 BCP를 집행한 공무원과 운영 인력은 선의와 절차 준수에 대한 면책을 적용받아야 한다. 재난 시 임시 처리를 두려워하면, 행정이 멈춘다.
재난 지휘와 기술 복구, 커뮤니케이션의 책임을 기관과 직책 단위로 분담해 개인 과실로의 과도한 전가를 차단한다. 사이버·운영중단 보험과 사업자 손해·지연 배상 규칙은 계약과 법령으로 정합화한다.
여섯째는 CMDB와 관제가 단일 실패영역 밖에서 이원 상주해야 한다는 것이다.
CMDB는 단일 사실원천(Single Source of Truth)이다. CMDB를 법정 지정하고, 자산과 의존관계, RTO·RPO, 런북을 표준 스키마로 관리한다. 주·세컨더리 리전 간 상시 동기화와 읽기 전용 DR CMDB의 상시 가동을 의무화한다. 프라이머리가 죽어도 CMDB는 살아있어야 한다. 서비스와 시스템, 네트워크, 전원 간 의존성 맵은 자동 디스커버리로 주기적으로 갱신한다. 수동 업데이트는 항상 지연되고, 항상 불완전하다.
관제와 전환, 공지 타임라인 로그는 법정 보존 항목으로 관리하여 포스트모템의 증거력을 확보한다.
일곱째는 인력과 전문성이 기반시설 운영 직군으로 제도화되어야 한다는 것이다.
DR과 BCP는 기술이 아니라 사람이 실행한다. 인력과 전문성을 제도화해야 한다. 공공 IT 운영을 축적형 커리어와 보상 체계 위에서 운영한다. 순환 보직으로는 전문성이 쌓이지 않는다. 24×7 교대조는 독립 의사결정 권한과 피로·정신건강 보호 규정을 갖춘다. 재난 시 판단은 현장에서 나온다. 아키텍처, DR·BCP 설계·검증, CMDB 운영 같은 필수 역량은 내부 핵심팀이 맡고, 외주는 확장·보완 역할로 한정한다. 핵심을 외주에 맡기면, 재난 시 통제권을 잃는다.
여덟째는 평가와 감시, 문화가 결과에서 과정으로 전환되어야 한다는 것이다. 평가 기준을 바꿔야 한다. 사고 부재가 아니라 예방 활동의 수행으로 판단한다. 교체 로드맵 준수율, 게임데이 성적, 교체 적체 축소율, RTO·RPO 달성률을 핵심 지표로 삼고, 국회와 감사, 시민사회가 열람 가능한 요약 공시로 투명성을 확보한다. 메시지는 일관되어야 한다. IT는 삭감 대상 비용이 아니라 유지·교체해야 하는 국가 자산이며, 정권이 바뀌어도 거버넌스와 의무는 변하지 않는다.
BCP만 잘 쓴다고 해결되지 않는다. BCP가 작동하도록 만드는 상위 체계가 필요하다.
운영 레이어는 BCP와 DR이 실제로 작동하는 방법을 설계한다. 서비스 등급과 목표값을 행정 책임의 언어로 정의하고, BCP 문서를 현장 집행 가능한 해상도로 작성하고, 지휘·보고·커뮤니케이션 체계를 분리와 통합 속에서 구축하고, 복구 이후 임시 처리분을 전산으로 원복하고, 훈련과 검증을 통해 문서의 한계를 보완한다.
거버넌스 레이어는 그 운영을 강제하고 유지한다. 상설 컨트롤 타워에 법정 지휘권을 부여하고, 등급·RTO·RPO와 훈련을 의무화하고, 수명주기 예산과 교체 적체를 계량화하고, 조달·계약에 SLA·다중화·긴급 우회로를 내장하고, 임시 처리의 법적 효력과 책임을 층화하고, CMDB와 관제를 이원 상주시키고, 정기 훈련과 공시를 실행하고, 운영 직군의 전문성을 제도화하고, IT를 자산으로 보는 문화로 전환한다.
이 두 레이어는 동시에 작동해야 한다. 운영만 정교하고 거버넌스가 없으면, 문서는 작성되지 않고 훈련은 실행되지 않는다. 거버넌스만 강하고 운영이 조악하면, 법은 존재하지만 현장은 혼란스럽다.
각론 1은 인프라의 물리적·논리적 다중화를, 각론 2는 운영과 관제의 구조적 개선을, 각론 3은 그것들을 강제하고 유지하는 거버넌스를 다뤘다. 이 세 각론은 분리되지 않는다. 인프라와 운영과 거버넌스는 하나의 체계다.
이 장치는 정권이 바뀌어도 변하지 않아야 한다. 모두가 머리를 모으고 국가가 정지되지 않도록 힘을 모아야 한다. 그때서야 비로소, 국가 디지털 인프라는 재난 속에서도 멈추지 않는다.