테크 기업에서 서비스 장애를 대하는 자세

by 천인우

테크 기업에 있으면 크고 작은 서비스 장애를 심심치 않게 경험하게 된다. 과거 재직했던 메타에서는 장애의 심각도에 따라 SEV 1, 2, 3으로 나누어 관리했고, 작은 task 단위의 이슈라도 문제가 심각하면 high-priority 보다 상위에 있는 UBN(Unbreak Now; 지금 당장 고치지 않으면 치명적인) 등급을 매겨 관리했다. 부끄럽지만 메타에 재직했던 5년 반 동안 나로 인해 발생한 SEV의 숫자도 적지 않다.


SEV가 발생하면 보통 (1) 문제의 크기를 진단하여 대응 시급도를 판단하고, (2) 실험 플래그나 Gatekeeper 같은 Break 스위치를 toggle 해가며 급한 불을 끄고 필요할 경우 Hot Fix 로 코드 롤백을 수행했다. 이후 (3) 문제의 근인을 파악해 근본적인 해결책을 추가 마련하고, (4) 필요한 고객 커뮤니케이션을 진행한 뒤, (5) 재발 방지책을 마련했다. 마지막으로 (6) Post-SEV 미팅을 통해 관련자들 간의 alignment를 맞추고 경각심을 공유하며 모든 과정을 마무리했다.


물론 이 과정에서 누구의 잘못인지가 자연스럽게 드러날 수밖에 없고, 당사자 역시 양심의 가책을 느껴 간혹 사과의 글을 사내 메신저에 올리기도 한다. 하지만 무서울 정도로 메타에서는 ‘누구의 잘못인가’를 따지는 문화가 암묵적으로 금기시되어 있었고, 최대한 냉철하게 모든 과정을 진행했던 기억이 있다. 내가 다닐 당시 메타는 'Move Fast and Break Things' 라는 모토가 상징하듯 (지금은 문화가 많이 달라졌을 수도 있겠지만), 완벽을 기하기보다는 빠르게 치고 나가며 그에 수반되는 위험을 감수하는 정신이 뚜렷했다. 그래서 열심히 일하면서 생긴 부작용들은 일종의 ‘천재지변’처럼 피할 수 없는 운명으로 받아들였다. 심지어 서비스 전체가 다운되어 수억 명의 사용자가 장애를 겪더라도, 마치 “이건 우리의 의지가 상관없이 발생한 강도 8~9도의 지진이야”라는 마인드로 문제 해결 과정을 묵묵히 수행했다.


지금은 B2B 회사에 재직하면서 당시 메타에서 일하던 호흡과는 많이 달라졌고, 서비스 장애에 대한 인식도 다소 보수적으로 변했다. 그런데 묘하게도 최근 개인적으로 다녀온 일본 여행에서 강력한 지진을 경험하면서, 5년도 훌쩍 지난 메타에서의 기억이 새록새록 떠올랐다. 건물 전체가 고무처럼 흔들리고 전기가 끊겼으며, 쓰나미 경보 사이렌 소리가 동네 곳곳에서 울려 퍼졌다. 나는 호텔 책상 아래로 들어가 흔들림이 끝나기만을 기다렸다. 다행히 인명 피해 없이 지나갔지만 당시의 상황은 꽤나 긴박했고, 현지 호텔 직원들의 침착하고 적절한 대응이 아니었다면 결과는 달라졌을지도 모른다.


기분 좋게 떠난 여행에서, 그것도 타지에서 갑작스럽게 위기의 상황에 놓일 것이라고 누가 상상이나 했을까. 삶이 이렇듯 테크 회사에서 일하는 것도 비슷하다. 서비스 장애는 열심히 일하는 조직이라면 피할 수 없는, 일종의 천재지변처럼 안고 가야 할 것이라고 생각한다. 중요한 것은 이를 완전히 없애는 것이 아니라, 최대한 냉철하게 잘 대처하는 방법을 학습하는 조직 문화를 갖추는 일일 것이다.


흔들림이 멈춘 뒤 책상 아래에서 나와 호텔 직원들의 능숙한 가이던스를 따르며, 일본 사회가 왜 그렇게 매뉴얼을 중시하는지도 조금은 이해하게 되었다. 천재지변에 노출된 지역에 삶의 터전을 두고 있다는 것은 그들이 선택한 일이 아니다. 그저 주어진 현실 속에서 최선을 다하며 살아가는 방식을 체득해 나가는 것. 그것이 어쩌면 테크 기업에서 일하는 사람들의 숙명과도 닮아 있다는 생각이 들었다.

작가의 이전글종합 스포츠를 하는 마음으로 일에 임하기