반복되는 리스크 상황을 해소하는 방법
'이거 저번에도 있었던 일 아니에요?'
지난달 갑작스럽게 발생했던 서비스 장애가 이번 달에도 똑같이 일어났다. '이 문제 저번에 분명히 해결했다고 했는데...'라고 생각하며 지난번에 나누었던 대화를 살펴보니 이런 내용이었다. '이번에 발생한 상황에 대한 조치가 완료되었습니다.' 나는 분명히 해결된 것으로 이해했는데 자세히 살펴보니 상황은 이러했다. 당시 서비스 개발을 맡았던 담당자 Z는 그 당시에 발생한 일에 대한 조치를 완수했다. 그리고 그는 당장 급한 불을 껐으니 나에게 메시지를 남긴 것이었다.
누군가에게도 왠지 낯익은 상황일 수 있다. 스타트업에서 개발 인력이 여의치 않다보니 종종 발생하는 일이다. 아마도 담당자 Z는 자신의 일을 수행하다가 갑작스럽게 들어온 장애 상황에, 급하게 즉각적인 조치만 하고 신경 쓸 겨를이 없었던 듯 하다. 혹은 다른 팀과의 소통이 필요한 문제였기 때문에 미뤄둔 것일 수도 있다. 이러한 상황에서는 사후에 보고해서 개선하는 것이 가장 좋은 방법이겠지만 그렇게 되지는 않았던 것 같다. 그렇다면 이런 상황은 어떻게 해결하면 좋을까?
'근본 원인을 해소해라'
이런 반복적인 문제 상황을 해결하기 위한 가장 좋은 방법은 재발방지 절차가 업무 프로세스 안에 포함되는 것이다. 리스크 상황이 발생한 경우, 단순히 그 당시에 발생한 일만 해결할 것이 아니라 근본 원인을 파악하고 해소해야 한다. 그러기 위해서는 기록이 무척이나 중요한데, 지난 리스크 상황들을 기록함으로써 발생 빈도나 영향성 정도를 파악할 필요가 있다(지난 번 작성한 '리스크 상황에서 왜 빠르게 대처하지 않을까?를 참고하면 좋다). 이렇게 파악한 정보들을 바탕으로 업무 프로세스에 재발방지 및 모니터링 과정을 추가하고 이 사실을 인지할 수 있도록 조치하는 것이 필요하다.
그러나 이러한 사실을 충분히 알고 있음에도 유지보수 및 모니터링 과정에 대한 유인이 충분하지 않은 경우, 이 과정이 생략되거나 축소되어 결국 효과성을 보지 못하는 경우가 있다. 이러한 상황을 예방하기 위해 재발방지의 이점에 대해 소개하자면 다음과 같다.
재발방지가 갖는 첫 번째 이점은 환경 변화에 유연하게 대처할 수 있다는 점이다. 재발방지 작업은 근본 원인을 해결해줄 뿐만 아니라, 프로세스를 개선하는 과정에서 환경을 검토하며 자연스레 환경변화에 대처하도록 도와준다. 또한 리스크가 발생하거나 혹은 발생하기 전 예방작업을 위한 유지보수를 진행하다 보면 각각의 리스크 뿐만 아니라 변화한 시대에 맞게 개선안을 마련하고 반영하도록 돕는다. 이로 인해 새롭게 도입되는 제도나 기술, 시스템이 내재화되며 프로세스도 자연스레 환경의 변화에 따라 최신화가 가능해진다.
그 다음으로는 리스크를 최소화할 수 있다는 이점이 있다. 위에서 언급한 것처럼 문제 상황에 대해 리스크의 크기와 별개로 임시방편만 조치된다면, 금이 간 장독대에 테이프를 붙여놓는 것과 같은 상황이 발생할 수 있다. 리스크 상황에서 매번 임시방편만 만들어 놓는 경우 시스템에 레거시나 사이드 이펙트가 발생할 수도 있는데, 재발방지 과정을 통해 유지보수를 지속하게 되는 경우 리스크를 최소화할 수 있게 된다.
마지막으로 조직 내부의 의사소통이 원활해진다는 이점이 있다. 조직이 크면 클수록 의사소통이 수월하지 않다. 소통의 부재가 존재하는 경우, 프로세스 개선 및 유지보수에 대한 명확한 도메인 지식이 전달되지 않아 협업을 하는 과정에서 유지보수가 표면적으로만 진행될 가능성이 있다. 그러나 재발방지 과정을 진행하는 경우, 시스템을 개선할 때 어떤 팀에 어떤 영향을 미치는지까지 확인하고 개발을 할 수 있다. 또한 유관 팀들의 업무 상황 및 프로세스 개선에 대한 니즈를 파악하여 유지보수에 반영할 수 있다.
'원래 그런 것은 없다'
글의 도입부에서 말했던 담당자 Z의 사례처럼, 동일한 이슈 상황이 반복됐을 때 재발방지 과정을 거치지 않으면 담당자도 으레 그렇듯 평소처럼 업무를 수행하게 될 것이다. 그러다가 문제가 불거지면 '원래 하던대로 했는데...'라고 생각하며 당황스러울 수 있다. 그러나 조직의 리스크 수용에 대한 기준은 제도와 문화, 환경의 변화에 따라 자연스레 조금씩 변화해 가고 있기 때문에 '원래 그렇다'고 말하고 있을 수만은 없다. 만약 확인이 가능하다면, 당시 그렇게 조치하기로 한 의사결정의 이유를 이해하고 상황에 맞춰 적절한 변화를 줄 수 있어야 한다.
물론 모든 일에 재발방지를 수행하라는 것은 아니다. 조직이 원하는 리스크 수용 수준에 따라 조치가 필요한 것도 아닌 것도 있다. 코로나19처럼 이미 알고 있지만 발생해야만 조치할 수밖에 없는 상황도 있다. 혹은 더 큰 리스크 상황으로 인해 우선순위가 밀릴 수도 있다. 다만, 이러한 상황이 발생한다는 사실을 알았을 때 대처법 혹은 예방법을 마련하는 작업을 업무의 한 프로세스로 인지하고 수행해야 할 필요가 있다는 것이다.
'아기돼지 삼 형제의 교훈'
어린이 동화 중 '아기돼지 삼 형제'가 있다. 집을 나선 세 아기돼지는 거처를 찾다가 집을 짓게 되는데 첫째는 초가집을, 둘째는 나무집을 짓고 막내 돼지는 벽돌집을 쌓는다. 먹잇감을 찾던 늑대의 눈에 아기돼지들이 보이자 그들을 사냥하기 위해 입김을 불어 첫째 돼지와 둘째 돼지의 집을 날려버린다. 반면 오랜 시간 공들여 튼튼한 벽돌로 집을 지은 셋째 돼지의 집은 늑대의 바람에도 끄떡없이 버텨낸다. 이 이야기는 얼마나 효과적으로 리스크를 관리하느냐가 위기 상황에서 얼마나 대처할 수 있는지를 좌지우지한다는 교훈을 준다.
이 일화를 통해 전하고 싶은 내용은 리스크에 '효과적으로' 대처하라는 말이다. 회사의 모든 업무 활동은 크던지 작던지 간에 리스크가 수반되기 때문에 그중에 조직에 위협이 될 것이라고 예상되는 것들을 추려내어 튼튼히 쌓아가라는 이야기를 하고 싶다.
회사의 지속가능성을 위해서는 리스크에 대한 안전장치가 마련되어야 한다. 그리고 직원들은 안전장치 안에서 더욱 실속있게 본연에 충실한 업무를 수행할 수 있다. 이는 결과적으로 회사가 본질적으로 추구하는 가치를 달성하는 데 도움을 주고, 성과를 향상시키는 데 기여를 하기 때문에 조직에는 긍정적인 영향을 미치게 된다. 이러한 사실을 이해하고 리스크를 관리하기 위한 재발방지 과정을 거치게 된다면 조직은 더욱 튼튼하고 건강하게 성장할 수 있을 것이다.