brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Mar 22. 2017

9. 변경과 장애 관리 시스템은 필수다

작업에 대해 공유하고, 같이 모니터링하기 위한 '변경관리 시스템'

장애를 빠르게 전파하여 빠른 장애처리를 하기 위한 '장애 전파 프로세스'

장애이력 관리와 장애 후 개선, 재발방지를 진행하는 '장애 관리 시스템'에 대해 이야기하도록 하겠다.

ISMS-P나 전자금융거래업에서 장애 이력과 조치내역 완료에 대해 제출하는 게 필수다!

대규모 서비스를 운영하기 위해서는 필수 법적 요건이다.



<1> 변경관리시스템

<2> 장애 전파 프로세스

<3> 장애 관리시스템





<1> 변경관리시스템


1

개발부서나 인프라 부서에서 작업에 대해,  유관 서비스 담당자자들에게 서로 공유가 되도록 하는 시스템.


2

변경작업에 대해 공유가 됨으로  서비스 장애 시 원인이 빠르게 확인되어 조치될 수 있다.

작업하는 서비스의 서비스코드를 지정하면,  

해당 서비스 관련 모든 부서 담당자에게 동시에 공유되는 시스템.


예를 들어, A게임서비스 작업을 한다고  서비스코드를 지정하고, 예정 작업을 등록한다.

해당 서비스코드 담당자로 등록되어 있는 인원에게 자동 공유된다.

변경관리시스템에 등록을 하면  Outlook으로 일정 공유되면 변경작업 인지가 쉬웠다.



3

동작




<2>  장애 전파 프로세스


1

장애 발생 시 담당자에게  SMS전파하여 빠른 장애처리가 되도록 하는 시스템.


2

프로세스

1) 서비스모니터링 시스템을 이용해 24시간 모니터링 중인 근무자가 이벤트 인지

2) 실제 장애인지 PC나 스마트폰으로  재현테스트

3) 서비스 장애 발생로 확인되면,  장애전파 시스템을 통해 담당자(사업/개발/인프라/유관부서)에게 전파

4) 전파받은 개발/인프라 담당자는 원인을 찾아 서비스복구가 되도록 조치한다.


3

역할

1) 24시간 모니터링하는 인원은 장애 발생/진행경과/조치완료에 대해 전파되도록 해야 한다.

2) 각 담당자는 장애 전파시스템에  본인 담당 서비스에 대해서는   본인이 직접  담당자로 등록한다.
    장애처리 시스템에 해당 서비스에 대해 개발, 인프라 담당자 직접 수정할 수 있도록 되어 있어야 한다.

3) 장애관리담당자는 모든 서비스에 담당자가 지정되도록 공지를 하여 담당자 관리가 되도록 해야 한다.





<3> 장애 관리시스템


1

장애 발생 후 장애 이력관리와  장애 후 개선 결과 입력하는 시스템.


2

목적

1) 장애 후 미팅은  장애원인을 파악하고, 동일 장애가 발생되지 않도록 개선하는 것을 목적으로 해야 한다.

2) 장애관리담당자는 장애 후 개선필요 부분에 대해 각 담당자에 티켓으로 할당하여 결과를  받도록 한다.

3) 장애관리자는 장애 이력과 개선결과 꼭 확인하도록 한다.  장애관리는 내부/외부기관의 감사 대상.

4) 전자금융거래법(이하 전금법)에서는 중요장애의 경우는 금감원에 보고하도록 되어 있다.




다음은 모니터링 시스템에 대해 알아보자~


https://brunch.co.kr/@topasvga/69



감사합니다.

매거진의 이전글 8. 서비스 코드, 자산관리, CMDB 알아야 한다.
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari