brunch

You can make anything
by writing

C.S.Lewis

by Master Seo May 26. 2016

대규모인프라운영3,변경/장애관리시스템

작업에 대해 공유하고, 같이 모니터링 하기 위한 '변경관리 시스템'

장애를 빠르게 전파하여 빠른 장애처리를 하기위한 '장애 전파 시스템'

장애이력 관리와 장애후 개선, 재발방지를 진행하는 '장애 관리 시스템'에 대해 이야기 하도록 하겠다.


1. 변경관리시스템

개발부서나 인프라 부서에서 작업에 대해,  유관 서비스 담당자에 공유가 되도록 하는 시스템.

변경작업에 대해 공유가 됨으로  서비스 장애시 원인이 빠르게 확인되어 조치될수 있다.

작업하는 서비스의 서비스코드를 지정하면,  해당 서비스 관련 모든 부서 담당자에게 동시에 공유되는 시스템.


예를 들어, A게임서비스 작업을 한다고  서비스코드를 지정하고, 예정 작업을 등록한다.

해당 서비스코드 담당자로 등록 되어 있는 인원에게 자동 공유된다.

개인적으로  변경관리시스템에 등록을하면  Outlook으로 일정 공유되면 변경작업 인지가 쉬웠다.



2. 장애 전파 시스템

장애 발생시 담당자에게  SMS전파하여 빠른 장애처리가 되도록 하는 시스템.


프로세스

1) 서비스모니터링 시스템을 이용해 24시간 모니터링중인 근무자가 이벤트 인지

2) 실제 장애인지 PC나 스마트폰으로  재현테스트

3) 서비스 장애 발생으로 확인되면,  장애전파 시스템을 통해  담당자(사업/개발/인프라/유관부서)에게 전파

4) 전파받은 개발/인프라 담당자는 원인을 찾아 서비스복구가 되도록 조치한다.


역할

1) 24시간 모니터링하는 인원은 장애 발생/진행경과/조치완료에 대해 전파 되도록 해야한다.

2) 각 담당자는 장애 전파시스템에  본인 담당 서비스에 대해서는   본인이 직접  담당자로 등록한다.
    장애처리 시스템에 해당 서비스에 대해 개발,인프라 담당자 직접 수정할수 있도록 되어 있어야 한다.

3) 장애관리담당자는 모든 서비스에 담당자가 지정되도록 공지를 하여 담당자 관리가 되도록해야한다.




3. 장애 관리시스템

장애 발생후 장애이력관리와  장애후 개선 결과 입력하는 시스템.


1) 장애후 미팅은  장애원인을 파악하고, 동일 장애가 발생되지 않도록 개선하는것을 목적으로 해야 한다.

2) 장애관리담당자는 장애후 개선필요 부분에 대해 각 담당자에 티켓으로 할당하여 결과를  받도록 한다.

3) 장애관리자는 장애 이력과 개선결과 꼭 확인하도록 한다.  장애관리는 내부/외부기관의 감사 대상이 된다.

4) 전자금융거래법(이하 전금법)에서는  중요장애의 경우는 금감원에 보고하도록 되어 있다.







다음은 전자금융거래법등  법적인 요건에 대해  이야기해볼까 한다.

https://brunch.co.kr/@topasvga/5

감사합니다.







매거진의 이전글 대규모인프라운영2.모니터링  시스템1
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari