brunch

You can make anything
by writing

C.S.Lewis

by JSCODE 박재성 Jan 19. 2024

무중단 배포에 목매지 마라

구글도 서비스가 중단될 때가 있다. 

서비스의 안정성을 유지하면서 변화를 최대한 수용해라. 


많은 개발자들이 무중단 배포, 에러 없는 서비스에 집착하는 경우가 있다. 안정성에 집착하다보면 서비스 안정성은 극도로 좋아지겠지만, 개발 생산성은 극도로 나빠지는 경우가 있다. 



예를 들어, 서비스 중단 없이 기능 업데이트를 하기 위해 무중단 배포를 한다고 해보자. 이 때, 무중단 배포를 통해 서비스 기능을 업데이트 하기 위해 6개월의 시간이 걸린다고 가정하자. 그런데 상황을 막상 들여다보면 무중단 배포를 하지 않고 점검 시간 5시간 정도만 가진 채로 작업을 하면 끝나는 경우가 있다. 이 예시가 서비스 안정성을 극도로 추구함으로써 개발 생산성이 극도로 나빠진 예시이다. 



이러한 비효율성을 막기 위해서 구글(Google)에서는 에러 예산(error budge)이라는 개념을 도입했다. 쉽게 표현하자면 신뢰성 목표를 100%로 설정하지 않겠다는 의미이다. 에러 예산을 도입함으로써 더 이상 '무중단 시스템'에 집착하지 않게 된다. 그 대신 SRE 팀과 개발팀이 기능의 출시 속도를 극대화하기 위해 에러 예산을 활용하는 것에 집중하게 된다. 



이로써 시스템이 정지하더라도 더 이상 상황을 장애 상황으로만바라보는 게 아니라, 혁신의 과정에서 어쩔 수 없이 발생하는 예측 가능한 상황이라고 바라보는 것이다. 이로써 서비스의 안정성을 나름대로 유지하면서 변화를 최대한 수용하는 방식을 추구한 것이다. 










[참고 문헌]

- 벳시 베이어 외 3인,사이트 신뢰성 엔지니어링』, 제이펍

작가의 이전글 서비스를 운영하는데 SRE가 무슨 뜻인지 몰라?
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari