장애이력 관리와 장애 후 개선, 재발방지를 진행하는 '장애 관리 시스템'에 대해 이야기하도록 하겠다.
ISMS-P나 전자금융거래업에서 장애 이력과 조치내역 완료에 대해 제출하는 게 필수다!
대규모 서비스를 운영하기 위해서는 필수 법적 요건이다.
변경작업에 대해 공유가 됨으로 서비스 장애 시 원인이 빠르게 확인되어 조치될 수 있다.
작업하는 서비스의 서비스코드를 지정하면,
해당 서비스 관련 모든 부서 담당자에게 동시에 공유되는 시스템.
예를 들어, A게임서비스 작업을 한다고 서비스코드를 지정하고, 예정 작업을 등록한다.
해당 서비스코드 담당자로 등록되어 있는 인원에게 자동 공유된다.
변경관리시스템에 등록을 하면 Outlook으로 일정 공유되면 변경작업 인지가 쉬웠다.
동작
1) 서비스모니터링 시스템을 이용해 24시간 모니터링 중인 근무자가 이벤트 인지
2) 실제 장애인지 PC나 스마트폰으로 재현테스트
3) 서비스 장애 발생로 확인되면, 장애전파 시스템을 통해 담당자(사업/개발/인프라/유관부서)에게 전파
4) 전파받은 개발/인프라 담당자는 원인을 찾아 서비스복구가 되도록 조치한다.
1) 24시간 모니터링하는 인원은 장애 발생/진행경과/조치완료에 대해 전파되도록 해야 한다.
2) 각 담당자는 장애 전파시스템에 본인 담당 서비스에 대해서는 본인이 직접 담당자로 등록한다.
장애처리 시스템에 해당 서비스에 대해 개발, 인프라 담당자 직접 수정할 수 있도록 되어 있어야 한다.
3) 장애관리담당자는 모든 서비스에 담당자가 지정되도록 공지를 하여 담당자 관리가 되도록 해야 한다.
1
목적
1) 장애 후 미팅은 장애원인을 파악하고, 동일 장애가 발생되지 않도록 개선하는 것을 목적으로 해야 한다.
2) 장애관리담당자는 장애 후 개선필요 부분에 대해 각 담당자에 티켓으로 할당하여 결과를 받도록 한다.
3) 장애관리자는 장애 이력과 개선결과 꼭 확인하도록 한다. 장애관리는 내부/외부기관의 감사 대상.
4) 전자금융거래법(이하 전금법)에서는 중요장애의 경우는 금감원에 보고하도록 되어 있다.