brunch

You can make anything
by writing

C.S.Lewis

by 키르히아이스 Oct 18. 2022

우리나라 IT 수준을 보여준 카카오 먹통 사태 -1-

이번 사태의 양상, 어떤 것이 정상인가?

 네이버와 함께 국내에서 양대 인터넷 기업 중 하나인 카카오의 데이터센터에서 화재가 발생했고 하루가 지나서도 제대로 복구되지 않았다. 정말 이렇게 큰 기업의 서비스가 전면적으로 먹통이 된 경우는 IT 역사에서도 드물지 않나 싶다. 나는 오래전부터 대한민국이 IT강국이라는 것은 허상이라고 주장해오고 있는데 바로 이런 사태를 두고 하는 말이다. 이번 사태를 심층적으로 보면서 대한민국 IT가 얼마나 허술한지 파헤쳐보자.


1. 이번 사태의 양상

2. 어떤 것이 정상인가?

3. 카카오 먹통 사태의 문제점

4. 원인과 해결책.


1. 이번 사태의 양상

 카카오의 말대로라면 10월 15일 오후 3시 30분에 화재가 발생했다고 한다. 카카오 계열사의 대부분 서비스가 중단된 걸 보면 모든 서비스가 한 곳의 데이터 센터에서 서비스하고 있었던 것으로 보인다. 보통 IT회사들은 비상계획이라는 걸 만들어두는데 회사마다 조금씩 달라서 카카오의 비상계획이 어떤지는 모르겠다. 보통 1시간, 반나절, 하루로 이어지는 텀(Term)을 두고 계획을 세우는데 1시간 내 응급복구는 실패했다. 회사 측의 인터뷰 내용으로 보면 20분 내 복구가 원칙이라는데 그것에 비해 대응은 너무도 한심한 수준이었다. 다음날이 되어서도 서비스 오류가 지속되는 걸 보면 이번 사태는 화재가 계기가 되긴 했지만 시스템의 구조적인 문제가 있다고 볼 수밖에 없다. 재계 32위 카카오에서 이런 일이 일어났다는 게 믿어지지 않을 정도이다.


 회사 측에서는 IT를 잘 모르는 기자들을 상대로 3만 2000대의 서버를 가동했지만 이것이 전부 아웃되는 바람에 어쩔 수 없다는 식으로 인터뷰하고 있다. 마치 이렇게 많은 서버를 두었으니 잘못이 없었다는 식으로 말하고 있다. 이렇게 많은 서버가 한꺼번에 아웃될 것을 예상할 수 없었다는 것인데 이건 이 분야를 조금이라도 아는 사람에겐 말도 안되는 소리이다. 비상계획을 세우는데 당연히 서버전체가 다운되는 걸 상정해서 세우지 일부만 다운된다고 가정을 하나. 그럴거면 비상계획이 뭐가 필요한가? 기자들 중 이걸 집어내는 사람이 한 명도 없다는 게 안타 깝니다. 이래 가지고 무슨 사회를 리드하겠나. 언론의 한심함은 뒤로 젖혀두고 얘기를 이어가 보자.


 이번 사태로 카카오의 수많은 플랫폼 참여자들이 얼마나 큰 피해를 입었을지 가늠이 안된다. 그들에게 제대로 된 보상은 될 수 있을까? 보상계획을 미리 세워두긴 했을까? 플랫폼을 확장하는데만 몰두한 나머지 비상계획은 소홀히 한 게 아닐까? 꼬리에 꼬리를 무는 생각을 접을 수가 없다. 카카오보다 몇 배로 큰 서비스를 하는 구글 같은 곳에서도 이런 일은 없었다. 


 2011년 농협 전산망 마비로 아예 데이터까지 날아가는 미친 일도 있었는데 우리나라에서 왜 이런 대규모 전산사고가 일어나는지 현장에서 일해본 사람들은 다 알고 있다. 경영자들과 정치인만 모르고 있을 뿐이다. 대한민국이 IT 강국이라는 것은 뼈를 갈아 넣은 엔지니어들의 희생과 바꾼 것 그 이상도 이하도 아니라는 것이 내주장이다. 지금도 희생은 계속되고 있으며 이 살얼음판은 이번 사고와 같은 일을 계속 일으킬 것이다.

2. 어떤 것이 정상인가?

 우선 카카오 측의 설명에 태클을 좀 걸어보겠다. 3만 2천대의 서버가 있다고 하는데 이게 다 다운되는 걸 예측할 수 없으니 불가항력인 것처럼 설명하고 있다. 그러나 그걸 예상하는 게 비상계획이고 그걸 못하면 수수료를 받지 말던가 현금 배상을 해야 한다. 일부 언론(또 언론…)에서는 무료 서비스니까 법적 책임이 없다고 하지만 카카오 측의 플랫폼 서비스는 유료 서비스가 상당수이다. 쇼핑몰, 웹툰, 웹소설은 물론이고 수수료를 받는 서비스는 사실상 유료 서비스라고 봐야 한다. 소비자에게나 무료지 플랫폼 종사자에게는 무료가 아니다.


 화재는 예상할 수 없었다고 하는데 도대체 무슨 소리하는지 모르겠다. 비상계획의 첫 번째는 정전이고 그 정전이 화재로 인한 것이든 다른 것으로 인한 것이든 하등 상관이 없다. 사고내용을 상세히는 알 수 없지만 서버 자체가 소실된 것은 아닌 것으로 알고 있다. 심지어 서버 자체가 소실되는 상황에서도 서비스는 지장 없도록 하는 게 비상계획이다. 이걸 못하면 비상계획을 왜 세우나.


 3만 2천대라고 계속 강조를 하는데 이것도 다시 생각해봐야 한다. 서버도 종류가 있다. 웹서버, 앱 서버, 데이터 서버 등 다양하다. 정말 3만 2천대 인지도 의심스럽지만 이걸 종류별로 나누면 각 서버는 그렇게 많지 않을 것이다. 즉 종류가 다른 서버를 뭉뚱그려 3만 2천대라고 하고 엄청 여유가 있는 것처럼 말하고 있다. 일부에서는 이 사고를 자꾸 기간망 사고와 연결 짓는데 망이 사고 난 게 아니고 1개 회사의 서비스가 멈춘 것이다. 그러니 결국 회사의 비상시스템이 문제인 것이다. 문제를 호도해서는 안된다. 

 전기가 나가면 서버가 3만 2천대 아니라 10만 대라도 쓸모가 없게 된다. 이건 가장 기본적인 비상계획이다. 당연히 비상전력공급이 돼야 하고 이것도 안되면 다른 데이터센터에서 서비스를 이어받아야 한다. 이건 80년대에도 되던 것이다. 서버실 자체가 불에 탄 것은 아닌 걸로 나오는데 그런 것치고는 너무나 피해규모가 크다. 정말 서버실에 불이 나도 이 정도로 서비스가 중단되지는 않는 게 정상이다. 


 이번 카카오 사태는 긴급복구에 실패했는데 보통 큰 규모의 전산시스템은 2중 구조로 서비스된다. 두 가지 방식이 있는데 예를 들어 20대의 서버가 서비스를 하다가 10대가 먹통이 되면 나머지 10대가 서비스를 이어받는 것이다. 부하가 가중되긴 하지만 서비스가 멈추진 않는다.

또 다른 방식은 미러링인데 예를 들어 10대의 서버가 서비스를 하다가 전부 먹통이 되면 5대의 대기 중인 서버가 가동되는 것이다. 대기 중인 서버는 정상 서버보다는 용량, 속도가 떨어지기도 한다. 하지만 서비스가 멈추는 건 막을 수 있다.


 과연 3만 2천대의 서버가 멈출 때를 대비한 예비 서버는 몇 대였을까? 예비 서버는 비상시에만 가동되므로 금전적으로는 큰 손해이다. 하지만 우리가 강남 물난리에서도 보듯 비상시를 대비한 설비는 긴 안목으로 우리 삶을 한 단계 업그레이드시켜준다. 위험에서 안전해지는 것만큼 삶의 질을 끌어올리는 게 어디 있겠는가. 서비스도 마찬가지이다. 최첨단을 자랑하기에 앞서 이런 안전시스템을 갖추는 게 기본이다. 회사의 비전이 정말 미래를 향해있는가 아니면 그저 실적내기에 급급한가를 볼 수 있는 대목이기도 하다.

출처:카카오 홈페이지

 모든 서버가 나가서 대응이 불가능했다는데 이때도 대비책이 있다. 바로 DR센터(Disaster Recovery, 재해복구센터)이다. DR센터는 데이터센터를 완전히 복제한 제2의 데이터센터이다. 보통 원격지에 두게 되는데 지방 중소도시에 두는 경우가 많다. 카카오의 DR센터가 어디인지 모르겠지만 이것도 제대로 안된 것이다. DR센터가 제대로 가동했는데 하루 넘게 복구가 안된다는 건 말이 안 된다. 이것도 1시간정 도내에 가동할 수 있어야지 하루 넘게 걸린다면 만드나 마나이다.


 중소기업도 아니고 국내 최대의 기업에서 이런 사고가 벌어진 것은 도무지 이해할 수가 없다. 농협 같은 IT 비전문 기업도 아니고 IT 전문 그것도 소프트웨어에 특화된 인터넷 기업에서 이런 일이 벌어지다니 더욱 충격이다. 이런 정도의 능력으로 서비스를 운영하려고 했었나. 자료를 찾아보니 이번이 처음이 아니었다. 10년 전에도 비슷한 사고가 있었다.(출처:디지털데일리, 2012.05.31, https://www.ddaily.co.kr/cloud/news/article.html?no=91030


 이번 사고는 DR센터만 제대로 가동되었어도 전혀 문제가 없을 일이었다. 왜 이런 기본조차 제대로 가동되지 않았을까? 


3부와 4부는 곧 공개됩니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari