사람이 일일이 챙기는게 아니고, 시스템적으로 프로세스화되어 있어야 한다.
프로세스가 없어 관리 안되는 경우도 있다.
너무 프로세스가 있어 업무가 안되는 기업도 본다 - -
서버 여러대중 1대라도 죽는 경우 모니터링 하는것을 말한다.
사용자 입장에서 서비스가 안되는 경우 모니터링 하는것을 말한다.
일반 기업은 서버 모니터링을 하고 있으나,서비스 모니터링 부분이 부족한 경우가 많다.
왜냐하면, 서비스 모니터링하기 위해서는 전담 모니터링 조직과 전용 모니터링툴 , 개발부서의 많은 지원이 필요하기 때문이다.
서버가 전원문제등으로 다운될시 '서버 1대 다운이 발생했다' 또는
'서버 1대 폴트(Fault)가 발생했다' 라고 이야기 하기로 하자.
서버 장애가 발생했다고 하지말자.
장애는 서비스가 안된경우 장애라고 하도록 하자.
IDC에 24시간 근무하는 OP근무자가 서버 물리적인 다운이나 어플리케이션 다운을 모니터링 한다.
자빅스(Zabbix) http://www.zabbix.com/
나기오스(Nagios) https://www.nagios.org/downloads/nagios-core/
Ganglia http://ganglia.info/
PRTG https://www.paessler.com/manuals/prtg
제니퍼 http://jennifersoft.com/ko/
What'up Gold http://www.whatsupgold.com/
ping mon http://emcosoftware.com/ping-monitor/download
자체개발 툴 등 수십가지 다양한 모니터링 툴이 있다.
2대이상의 서버로 이중화 되어 운영중인 경우,
서버 1대가 다운되더라도 서비스에는 이상이 없다 = 사용자가 해당 게임을 계속 잘 하고 있다.
이경우는 대부분 실무 담당자(인프라,개발담당자)선에서 처리가 끝난다.
6
처리 프로세스
인프라담당자, 어플케이션 다운은 개발자가 처리한다.
24시간 근무하는 OP근무자가 모니터링툴을 통해 모니터링하다,
서버 물리적 다운이나 네트워크 접속이 안되는 부분이면, 인프라 담당자에게 연락한다.
서버에 올라간 어플리케이션(데몬)이 다운되는경우 개발자에게 연락해 조치하게 된다.
기업의 정책에 따라 OP근무자가 1차적으로 어플리케이션(데몬) 다운을 조치하기도 한다.
장애가 생겨도 모르고, 조치도 제대로 되고, 장애보고서도 제대로 정리가 안되고,
다음 장애가 안 일어나게 되는지 확인이 힘들기 때문에, 이를 대신 해주는 조직이 필요하다.
장애가 반복되면 요청은 더 자주 일어나게 된다.
근원적인 조직문제나 비용 문제는 해결하지 않고, 사람이 무조건 해주기를 바라기 때문에 장애는 반복된다.
프로세스적으로 기능적으로 개선이 필요하다.
다음은 법적인 요건을 알아보자~
https://brunch.co.kr/@topasvga/70