실패에서 배우는 품질 리더십

포스트모템 문화로 성장하는 조직 만들기

by 제임스

새벽 3시, 긴급 호출이 울립니다. 결제 시스템이 전면 마비되었고, 고객 문의가 폭주하고 있습니다. 4시간 후 서비스는 복구되었지만, 매출 손실은 수억 원에 달합니다. 이때 QA 리더인 당신은 무엇을 해야 할까요? 범인 찾기에 나설까요, 아니면 이 실패를 조직의 자산으로 만들까요?



실패를 대하는 자세의 전환

2017년 아마존 S3 서비스가 4시간 동안 중단되어 인터넷의 절반이 마비되었습니다. 원인은 단순한 명령어 오타였습니다. 하지만 아마존은 상세한 포스트모템을 공개하고, 이를 통해 시스템 전체의 복원력을 개선했습니다.

[핵심] 실패를 숨기는 조직은 같은 실패를 반복하지만, 실패를 공유하는 조직은 더 강해집니다.

• 비난 문화에서 학습 문화로의 전환이 필요합니다. 구글의 SRE(Site Reliability Engineering) 팀은 "Blameless Postmortem" 원칙을 도입했습니다. 실패의 원인을 찾되 개인을 비난하지 않는 이 접근법으로, 엔지니어들이 실수를 투명하게 공유하게 되었고 시스템 신뢰성이 크게 향상되었습니다. QA 리더는 이런 문화 변화의 주도자가 되어야 합니다.

• 실패를 예산으로 관리하는 접근법도 효과적입니다. 구글의 "Error Budget" 개념은 99.95% 가용성 목표 설정 시, 0.05%의 다운타임을 "사용 가능한 예산"으로 봅니다. 이 예산 내 실패는 혁신을 위한 투자로 간주됩니다. 국내에서는 토스가 "Fail Fast, Learn Faster" 문화로 빠른 실험과 학습을 장려하며 비슷한 접근을 하고 있습니다.



효과적인 포스트모템 프로세스 구축

Netflix는 2012년 크리스마스 이브 대규모 서비스 중단 이후 체계적인 포스트모템 프로세스를 확립했습니다. 이들의 접근법은 업계 표준이 되었습니다.

[핵심] 포스트모템은 24시간 내에 시작하고, 근본 원인을 찾고, 측정 가능한 액션을 도출해야 합니다.

• 24시간 내 초기 분석을 시작합니다. 기억이 생생할 때 타임라인을 정리하고 관련 데이터를 수집합니다. Atlassian은 인시던트 발생 후 24시간 내에 "Hot Wash"라는 간단한 리뷰 세션을 진행합니다. QA 리더는 이 골든타임을 놓치지 않도록 프로세스를 주도해야 합니다.

• 5 Whys 기법으로 근본 원인을 파악합니다. "프로덕션 서버 다운" → "왜? 메모리 부족" → "왜? 메모리 누수" → "왜? 코드 리뷰 누락" → "왜? 배포 프로세스에 리뷰 단계 없음" → "왜? 속도만 중시"와 같이 진짜 원인을 찾아갑니다. 쿠팡도 이 방법론을 활용해 배송 지연 문제의 근본 원인을 찾아 개선했다고 알려져 있습니다.

• 액션 아이템은 구체적이고 측정 가능해야 합니다. "더 많은 테스트 작성"이 아니라 "결제 모듈 단위 테스트 커버리지를 60%에서 80%로 2주 내 향상"처럼 명확한 목표와 기한을 설정합니다. 카카오뱅크는 각 액션 아이템에 담당자와 완료 기한을 할당하고 JIRA로 추적 관리합니다.



실패 데이터의 체계적 관리

Etsy는 모든 포스트모템을 내부 위키에 공개하고 태그로 분류해 검색 가능하게 만들었습니다. 신규 입사자들도 과거 실패 사례를 학습할 수 있게 되었습니다.

[핵심] 실패는 기록되고, 분석되고, 공유되어야 조직의 자산이 됩니다.

• 실패 패턴을 분석해 예방 체계를 구축합니다. Microsoft의 "Deployment Rings" 전략은 Windows 업데이트 장애 분석에서 나왔습니다. 내부 테스터부터 시작해 점진적으로 배포 범위를 확대하는 이 방식은 많은 기업들이 채택하고 있습니다. 네이버도 "카나리 배포"로 비슷한 접근을 하고 있습니다.

• 실패 메트릭을 정기적으로 리뷰합니다. MTTR(평균 복구 시간), MTBF(평균 장애 간격), 인시던트 재발률 등을 추적합니다. 배달의민족은 동일 원인 재발률이 10%를 넘으면 전사 차원의 개선 TF를 구성한다고 알려져 있습니다. QA 리더는 이런 지표를 통해 품질 개선의 방향을 제시해야 합니다.



심리적 안전감 조성하기

하버드 비즈니스 스쿨 Amy Edmondson 교수의 연구에 따르면, 심리적 안전감이 높은 팀은 실수를 더 많이 보고하지만 실제 실수는 더 적게 발생합니다. 작은 실수가 큰 문제로 발전하기 전에 해결되기 때문입니다.

[핵심] 실패를 처벌하는 조직은 실패를 숨기고, 실패를 인정하는 조직은 실패에서 배웁니다.

• 실패를 인정하고 축하하는 문화를 만듭니다. 핀란드 게임사 Supercell은 프로젝트 실패 시 샴페인을 터뜨리며 축하합니다. 실패를 통해 얻은 교훈의 가치를 인정하는 것입니다. 토스도 유사한 문화로 빠른 실험과 학습을 장려합니다. QA 리더는 이런 문화 조성의 앰배서더가 되어야 합니다.

• Near Miss 보고를 활성화합니다. 실제 사고로 이어지지 않았지만 위험했던 상황을 보고하는 것입니다. GitHub의 "Near Miss Friday"처럼 정기적으로 아슬아슬했던 상황을 공유하면, 실제 장애 발생 전에 시스템을 개선할 수 있습니다. 라인은 "Close Call Report"라는 이름으로 유사한 제도를 운영합니다.



QA 리더의 역할 재정의

실패 상황에서 QA 리더는 품질 게이트키퍼가 아닌 학습 촉진자(Learning Facilitator)가 되어야 합니다.

[핵심] QA 리더는 실패를 막는 사람이 아니라, 실패로부터 최대한의 가치를 끌어내는 사람입니다.

• 포스트모템 퍼실리테이터로서의 역할을 수행합니다. 중립적 입장에서 포스트모템을 진행하며, 모든 참여자가 편안하게 의견을 낼 수 있는 환경을 조성합니다. Slack의 QA 팀은 포스트모템 진행 가이드라인을 만들어 일관된 품질의 분석이 이루어지도록 했습니다.

• 실패 예방 시스템을 설계합니다. 단순히 테스트를 추가하는 것이 아니라, 실패가 발생하기 어려운 구조를 만듭니다. Netflix의 Chaos Engineering처럼 의도적으로 장애를 발생시켜 시스템의 복원력을 테스트하는 것도 한 방법입니다. 국내에서는 우아한형제들이 "장애 대응 훈련"을 정기적으로 실시합니다.

• 조직 전체의 품질 마인드셋을 코칭합니다. 개발팀이 스스로 품질을 책임지도록 돕습니다. 실패 사례를 교육 자료로 활용하고, 베스트 프랙티스를 전파합니다. 당근마켓의 QA 팀은 "Quality Guild"를 운영하며 전사적인 품질 문화를 확산시키고 있습니다.



실패를 통한 혁신 사례

• 결제 시스템 장애가 새로운 아키텍처를 탄생시켰습니다. 2018년 페이팔은 블랙프라이데이 결제 장애를 겪은 후, 전체 결제 아키텍처를 마이크로서비스로 재설계했습니다. 이후 시스템 가용성이 99.99%로 향상되었습니다. QA 리더가 이런 아키텍처 변화를 주도하고 검증하는 역할을 수행했습니다.

• 데이터 손실이 백업 혁신으로 이어졌습니다. GitLab은 2017년 데이터베이스 삭제 사고 후, 백업 및 복구 프로세스를 완전히 재설계했습니다. 현재는 업계 최고 수준의 재해 복구 시스템을 갖추고 있으며, 이 경험을 모두 공개 문서화했습니다.



실패 관리 프레임워크 구축

체계적인 실패 관리를 위해서는 명확한 프레임워크가 필요합니다.

[핵심] 실패를 분류하고, 비용을 계산하고, 개선 효과를 측정해야 투자를 정당화할 수 있습니다.

• 실패 분류 체계를 수립합니다. SEV1(전체 서비스 중단)부터 SEV4(사소한 버그)까지 분류하고, 각 레벨별 대응 프로세스를 다르게 적용합니다. 쿠팡은 SEV1 발생 시 CTO까지 즉시 보고되며, 전사 포스트모템을 필수로 진행합니다.

• 실패 비용을 계산해 가시화합니다. "고객 영향 시간 × 영향받은 고객 수 × 시간당 평균 수익"으로 계산합니다. 이를 통해 품질 투자의 ROI를 명확히 제시하고 경영진의 지원을 얻습니다. 마켓컬리는 이런 방식으로 품질 투자 예산을 30% 증액받았다고 합니다.

• 개선 효과를 측정하고 공유합니다. 포스트모템 이후 구현한 개선사항의 효과를 3개월, 6개월 후 재측정합니다. 특정 개선으로 유사 장애가 75% 감소했다면, 이를 전사에 공유해 포스트모템의 가치를 입증합니다.



Knight Capital Group은 2012년 잘못된 배포로 45분 만에 4억 6천만 달러를 잃고 파산했습니다. 반면 같은 해 Netflix는 대규모 장애를 겪었지만, 이를 통해 더 강력한 시스템을 구축하고 계속 성장했습니다.

차이는 무엇일까요? 실패를 대하는 태도와 시스템입니다.

QA 리더인 당신이 조직에서 실패를 어떻게 다루느냐가, 회사의 복원력과 성장 가능성을 결정합니다. 실패를 두려워하지 않되, 실패로부터 배우지 못하는 것을 두려워해야 합니다.


다음 장애가 발생했을 때, 당신은 범인을 찾을 것인가요, 아니면 보물을 찾을 것인가요? 그 선택이 조직의 미래를 만듭니다.

이전 11화QA 엔지니어 커리어 패스와 멘토링