brunch

You can make anything
by writing

C.S.Lewis

by 신현묵 Aug 02. 2017

인프라모니터링 탄생 비화!

기존 SMS의 과도한 오탐에 대한 적극적인 해결책 마련!

한밤중에 서버에 장애가 발생하였다고 와탭 SMS의 App이 경고 메시지를 날려서 정신없이 터미널로 접속해보니, 서버는 멀쩡하지만.. 와탭의 서비스에서는 서버 장애가 발생하였다는 경고 메시지를 가끔 받아보셨을 것입니다. (아! 저도 당시 와탭SMS사용자 였는데, 이런 경우 몇번 만났습니다. 당시에는 무지하게 화가!!!!)


(쿨럭~~) 와탭내부로 들어와보니.. 그 문제가 일반적이지 않은 상황이었다는 것을 알게 되었습니다.


와탭이 인프라스트럭처 모니터링을 새롭게 만든 가장 큰 이유입니다. 


기존 서비스인 SMS는 클라우드 환경을 예측해서 만들었고, 인프라스트럭처 모니터링은 멀티 클라우드 환경을 경험하고 만든 제품이라고 결론부터 말씀드릴 수 있겠습니다.


해당 문제는 고객들이 멀티 클라우드를 관제하게 되면 만나게될 문제였습니다. 


기존 SMS를 사용하던 고객들에게서 가장 많이 C/S요청이 들어온 것은 자신들의 서버에는 아무런 영향이 없는데, 왜? 와탭의 SMS 서비스는 '서버 장애'로 판단하여 사용자에게 전달되었느냐인 것입니다.


실제는 클라우드나 IDC와 와탭랩스가 운영하는 
클라우드 서비스간의 네트워크 장애가 대부분이었습니다.


이 이유를 간단하게 설명하면. 와탭랩스 SMS는 '서버의 리소스( CPU, Memory, Disk, Network )의 4 대요 소중의 하나만 문제가 있어도 모두 '알람'처리를 한다'가 기본 명세였다고 설명드리겠습니다.


그런데, 이 '내용'은 다른 SMS도 모두 동일한 것 아니냐고 반문하실 수 있습니다. 여기서, 와탭 랩스와 고객들과의 약간의 시각 차이가 존재합니다. 그림으로 자세하게 설명드리겠습니다.


사용자들은 자신의 서버가 IDC나 Cloud의 한 공간에 존재하는 경우가 대부분입니다. ( 실제 멀티 클라우드를 사용하는 고객들이 많을 것이라고 예측했지만, 대부분은 하나의 IDC나 하나의 클라우드를 사용하는 것이 대부분이라고 파악됩니다. )


이 경우 위에서 이야기한 중요한 서버의 리소스에서 Network 부분은 해당 IDC나 클라우드의 하나의 Network 의 영역만 판단하면 되기 때문에 고객의 입장에서는 서비스하는 해당 IDC나 클라우드의 네트워크만 생각하게 됩니다.


하지만, 와탭의 입장에서 생각하면 다음과 같은 그림으로 동작합니다.


서버의 정보들을 와탭이 운영하는 서버의 공간으로 전송받게 됩니다. 개념적으로는 더 복잡합니다.

와탭도 내부적으로 이중화 삼중화 서비스를 진행하기 위해서 멀티 클라우드로 구성되어 있는데, 이 경우는 더욱더 복잡합니다. 거기에다가, 사용자들이 모두 AWS만 사용하시는 것도 아니고요.


결론적으로 다음과 같은 그림이 됩니다.

와탭은 대부분의 클라우드 서비스와 연관관계를 가지게 되며 이 네트워크의 공간이 와탭에서 생각하는 '네트워크 가용성'의 중요한 지표가 되었습니다.


실제로, SMS는 각각의 네트워크 가용성을 판단하는 것도 전달해드려야 한다는 구조로 디자인되었기 때문에 사용자의 서버와 와탭 간의 네트워크 단절도 위험한 상황으로 인지하고 이를 사용자에게 전달하였는데, 사용자의 경험적으로는 큰 문제가 없는 부분을 '과탐', '과다하게 디테일한 안내'를 하여 괴롭혀드렸던 것이죠.


결론부터 이야기드리면, 이번에 출시된 Infrastructure Mornitoring은 이러한 네트워크 가용성 부분에 상당히 많은 부분이 디테일하게 적용되었으며, DownChecker라는 서비스가 추가되었으며, 사용자는 이 기능을 사용함으로써 SaaS 기반의 와탭의 서버 모니터링을 더욱더 세밀하고 정밀하게 사용하실 수 있으면서, 이렇게 발생되는 '과탐'을 제거하게 되었습니다.


긴 내용이지만, 간단하게 설명드리면, 사용자의 클라우드와 와탭의 서비스 간의 네트워크 단절로 인한 과도한 탐지가 제거되었다는 점입니다.


실제로, 사용자들이 멀티 클라우드를 사용하면서 겪으셔야 할 문제를 와탭은 미리 경험한 것이라고 설명드릴 수 있겠습니다. 현재( 2017년 7월 말 기준 ) 와탭 랩스는 1만 5천대 정도의 고객 서버에서 만들어지는 상황을 모니터링하고 있으며, 대부분의 클라우드와 IDC에서 발생되는 네트워크 장애를 경험하고 있습니다.


사용자가 오픈소스 기반으로 와탭과 같이 멀티 클라우드로 시스템을 관제하실 때에는 이와 유사한 문제를 똑같이 경험하게 되실 것입니다.


와탭 랩스는 이러한 경험을 이번  Infrastructure Mornitoring에서 깔끔하게 문제를 해결하였습니다.


기존 SMS사용자분들 중에 과도한 오탐이 신경쓰이셨다면.. 인프라스트럭처로의 전환을 제안드립니다. 더군다나, 기존 SMS는 조만간 서비스를 중단할 예정이니까요.


여전하게도 일부 무료 서비스는 진행됩니다. 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari