brunch

국가전산망 화재를 보며...

디테일의 차이와 무사안일

by 이제연

600개가 넘은 국가전산시스템의 장애.

일주일이 넘도록 4분의 1정도만 복구했다고 한다.


원래 재해복구계획(BCP)에는 3시간 이내 복구되어야 하는 1등급 업무시스템에 이어, 순차적으로 등급에 따라 복구되어야 했다.

3시간 이내 복구를 위한 재해복구(DR)사이트 즉 미러사이트는 데이터는 물론 서버와 네트워크가 준비되어 있어야 한다.

이를 Hot사이트라고 하고, 평상시에 업무의 일부를 처리하는 경우와 단지 미러링만 하는 경우가 있다.

이정도라도 있었다면 전체 시스템의 불능까지는 아니였다.


등급이 떨어지는 시스템에 대해서는 데이터만을 미러링하고, 서버는 준비되지 않는 경우이다.

이 경우에도 비상시에 어플리케이션을 가동할 수 있는 공통 서버는 Stand alone 함이 바람직 하다.


20년 전 뉴욕 세계무역센터에 대한 텔레반 테러사건으로 부각된 데이터센터 이중화 이후 우리나라도 금융권을 중심으로 BCP가 이행되고 있다.

당시 해당건물에는 두개 이상의 전산센터가 있었고 일주일 이내 복구하였고 한다.


그러나 이번 경우 데이터는 이중삼중으로 미러링 되었으나, 서버와 네트워크는 무방비였던 것.

데이터의 백업은 영구소실을 막기위한 것이지, 업무의 신속한 재개를 위한 것이 아니다.

업무연속성계획(BCP)은 데이터의 실시간 미렁링-서버의 서버스 check은 물론 인적배치까를 포함해야 한다.


이번 사태를 보며 못내 아쉬운 점 하나가 있다.

초등학교도 화재관련 행사에는 소방차를 운동장에 대기시키고 실행한다.

이번 배터리 이동 작업에도 사전조치가 있었다면....이정도까진 아닐 수도 있었다.


내 경험에 비추면,,

서버라는 것이 전자상가에서 바로 포장할 수 있는 것도 아니고 주문-통관절차까지 감안하면 수개월은 걸릴것 같다.

그동안 데이터를 반영하고 점검하려면 앞으로 작업이 만만치 않다.

keyword
매거진의 이전글엘리베이터 idle을 open으로 하면