어떤 것이 더 큰 문제일까? 아니. 뭐가 문제이지?
http://www.zdnet.co.kr/news/news_view.asp?artice_id=20181122113510&lo=z45
22일 오전, 스타트업과 주요 IT업체의 대부분의 서버 개발자들은 사색이 되어서 서울 리전을 불안한 시선으로 바라보는 시간이 흘렀다. 대부분 오전 10시 정도에 복구가 되었으나, 주요 IT업체들의 서비스가 마비되거나 붕불안전한 상태로 동작되었고, 온통 언론들은 AWS의 문제를 다각도로 다루었다.
마치 무언가 큰 문제가 있었던 것처럼.
흥미로운 것은 AWS를 대하는 대부분의 서버 개발자들은 매우 특이한 현상에 잠시 놀랐을 뿐, 서울리전의 서비스를 다른 리전으로 옮겨서 대처하거나, 이슈에 대해서 나름 대비하는 형태로 조용하게 서비스를 대응하면서 문제는 대부분 큰 시간의 문제가 안되면서 처리가 되었다.
(사실 클라우드는 그래서 더 튼튼하다. AWS의 장애가 이슈가 되는 것은 그렇게 많지 않기 때문이다. )
언론에서 이야기하듯이 혼비백산이 된 상황은 아니며, 문제들은 대부분 쉽게 봉인되었다.
문제는 위의 기사에서도 언급했듯이 '외국기업 100% 의존은 위험'이라는 내용이 있었지만, 이는 그냥 언론의 자극적인 제목 볶기에 의한 단어일 뿐이다.
서비스를 받고 있는 대부분의 IT서비스 업체들은 실제 장애가 거의 없는 AWS의 서비스 품질에 대해서는 그냥 대부분 심각하게 생각하지 않고 넘어갔다. ( 가끔 이 문제로 귀찮기는 하지만, 대부분의 문제는 AWS가 해결해준다. )
http://www.itworld.co.kr/news/103717
그리고, 실제 문제도 휴먼에러에 가까운 것이고, 이 문제를 더욱더 자동화하기 위해서 노력한다는 AWS 측의 이야기에 공감을 많이 가지는 서버 개발자들이 대부분이다. 아마도, 동일한 문제로 AWS는 더 문제를 일으키지 않고, 더욱 견고한 클라우드 서비스를 제공할 것이라고 믿는다.
.
.
.
문제는 사실 다른 곳에서 터졌다. 더 큰 장애와 문제가 KT에서 발생했다.
http://news.chosun.com/site/data/html_dir/2018/11/24/2018112401004.html
서대문, 마포, 중구 등의 휴대전화 장애와 유선통신의 마비로 지역의 POS시스템에까지 영향을 주는 형태로 전체적인 문제가 발생했다. 올해 4월에 발생한 SK텔레콤의 VoLTE서버 다운 장애도 같이 거론된 이 기사를 보면 해당 문제는 일부 지역 사용자들의 통신 문제와 초고속 인터넷 등의 생활 불편정도가 문제가 된다는 식으로 언급하고, 보상액을 지불하면서 문제가 해결되었다고 이야기한다.
하지만, 실제 인명피해도 있었으며, 기사에 보면 119에 제때 신고를 하지 못해서 발생한 사고라고 이야기된다.
https://www.huffingtonpost.kr/entry/story_kr_5bfb4838e4b03b230fa30f43
하지만, 정말 심각한 상황은 외부 언론에 노출이 안되고 있다. 그것은 화재가 발생한 센터의 IDC에서 발생한 문제들이다. 이 문제에 대해서 기사가 나오거나, 문제를 심각하게 토의하는 곳은 없다는 점이 한국 언론의 고질적인 문제이다.
서대문구 KT건물에도 IDC가 있었으며, 서버들을 관리하는 물리적인 공간들이 있었다. 바로, 서버가 위치하고 있는 IDC의 2층 상황이다.
대부분의 서비스들이 물리적으로 문제가 되는 화재 현장에서 KT에게 서버를 운용하고 있던 기업들은 심각한 문제 상황을 만나게 되었다.
이처럼, 정말 심각한 것은 외부에 노출된 통신이나 일부 통신장애가 문제가 아닌데, 이런 상황들은 대형 언론사에 노출이 되고 있지 않는다. 물론, KT와 같은 거대 기업의 광고 수입을 기대하고 있는 언론사들은 이런 내용을 노출하기 꺼려할 것이다.
하지만, 당장 서버가 없으면 운영이 불가능한 기업들의 속마음과 속사정은 어떠할 것인가?
냉정하게 클라우드의 장애는 잠시 불편한 정도이지만, IDC에서 운용 중이던 서비스는 그 운명을 화재와 함께 같이 해야 한다는 현실적인 상황에서 우리는 무엇을 선택해야 할까요?
조심스럽게 이야기하지만, 이제 대부분의 서비스들은 가장 안정적인 클라우드로 서비스들을 대부분 옮겨간다. 문제가 발생해봐야 1년에 2~3시간 장애가 발생할 뿐이며, 대부분의 서버와 데이터들은 온전하게 보호받을 수 있다.
하지만, KT IDC 공간에서 서비스 중이던 IT업체의 서비스들은 어떻게 할 것인가?
그들의 운명은 누가 보장할 것인가?
저는 AWS장애와 KT장애 소식을 보면서, 과연 무엇이 중요한 것인지에 대해서 다시 한번 생각해봅니다.