사람이 일일이 챙기는 게 아니고, 시스템적으로 프로세스화되어 있어야 한다.
프로세스가 없어 관리 안 되는 경우도 있다.
너무 프로세스가 있어 업무가 안 되는 기업도 본다 - -
서버 여러 대중 1대라도 죽는 경우 모니터링하는 것을 말한다.
사용자 입장에서 서비스가 안 되는 경우 모니터링하는 것을 말한다.
일반 기업은 서버 모니터링을 하고 있으나, 서비스 모니터링 부분이 부족한 경우가 많다.
왜냐하면, 서비스 모니터링하기 위해서는 전담 모니터링 조직과 전용 모니터링툴, 개발부서의 많은 지원이 필요하기 때문이다.
서버가 전원문제등으로 다운될 시 '서버 1대 다운이 발생했다' 또는
'서버 1대 폴트(Fault)가 발생했다'라고 이야기하기로 하자.
서버 장애가 발생했다고 하지 말자.
장애는 서비스가 안 된 경우 장애라고 하도록 하자.
IDC에 24시간 근무하는 OP근무자가 서버 물리적인 다운이나 애플리케이션 다운을 모니터링한다.
자빅스(Zabbix) http://www.zabbix.com/
나기오스(Nagios) https://www.nagios.org/downloads/nagios-core/
Ganglia http://ganglia.info/
PRTG https://www.paessler.com/manuals/prtg
제니퍼 http://jennifersoft.com/ko/
What'up Gold http://www.whatsupgold.com/
ping mon http://emcosoftware.com/ping-monitor/download
자체개발 툴 등 수십 가지 다양한 모니터링 툴이 있다.
2대 이상의 서버로 이중화되어 운영 중인 경우,
서버 1대가 다운되더라도 서비스에는 이상이 없다 = 사용자가 해당 게임을 계속 잘하고 있다.
이경우는 대부분 실무 담당자(인프라, 개발담당자) 선에서 처리가 끝난다.
6
처리 프로세스
인프라담당자, 어플케이션 다운은 개발자가 처리한다.
24시간 근무하는 OP근무자가 모니터링툴을 통해 모니터링하다,
서버 물리적 다운이나 네트워크 접속이 안 되는 부분이면, 인프라 담당자에게 연락한다.
서버에 올라간 애플리케이션(데몬)이 다운되는 경우 개발자에게 연락해 조치하게 된다.
기업의 정책에 따라 OP근무자가 1차적으로 애플리케이션(데몬) 다운을 조치하기도 한다.
장애가 생겨도 모르고, 조치도 제대로 되고, 장애보고서도 제대로 정리가 안되고,
다음 장애가 안 일어나게 되는지 확인이 힘들기 때문에, 이를 대신해주는 조직이 필요하다.
장애가 반복되면 요청은 더 자주 일어나게 된다.
근원적인 조직문제나 비용 문제는 해결하지 않고, 사람이 무조건 해주기를 바라기 때문에 장애는 반복된다.
프로세스적으로 기능적으로 개선이 필요하다.
3
네이버처럼 여러 데이터 센터를 운영하는 대규모 시스템을 운영하면 서비스 모니터링 24시간 근무자와 인프라 모니터링 24시간 근무자가 각각 필요하다.
일반적으로 크지 않은 규모는 인프라 모니터인 24시간 OP에서 서비스 모니터링을 같이 하면 된다.
단지, 서비스 모니터링 시스템을 별도로 구축한다.
다음은 법적인 요건을 알아보자~
https://brunch.co.kr/@topasvga/70