인재 유출이 초래한 '기억 상실'의 대가
AWS가 몰락한 날, 인재 유출이 초래한 '기억 상실'의 대가
"결국 일어났다." 많은 클라우드 업계 관계자들과 AWS 전직 엔지니어들이 마음속으로 중얼거렸을 이야기입니다. 2025년 10월 20일, AWS의 심장부이자 글로벌 인터넷의 중추인 US-EAST-1 리전이 크게 흔들렸습니다. 은행, 정부 서비스, 메신저, 게임, 심지어 아마존 닷컴 자신의 쇼핑 서비스까지 마비되는 초대형 장애가 발생한 것입니다.
표면적 원인은 너무도 고전적이어서 오래된 시스템 관리자들이면 고개를 절래절래 흔들 만한 것이었습니다.
'역시 항상 DNS(Domain Name System) 문제였다.'
하지만 이번 사태의 진정한 뿌리는 클라우드 인프라의 복잡한 코드보다 더 깊은 곳, 즉 사라진 인재와 함께 유실된 '조직의 기억' 에 있었습니다.
장애 요약 - DNS, 그 오래된 악몽의 재림
미국동부시간 기준 10월 20일 12:11AM: AWS US-EAST-1 리전에서 서비스 오류율 급증 신호가 포착되기 시작했습니다.
1:26AM: DynamoDB API 엔드포인트에 대한 요청 실패가 본격화되었습니다.
2:01AM: 원인이 DynamoDB API 엔드포인트의 DNS 확인(DNS Resolution) 오류로 최종 확인되었습니다.
DynamoDB는 AWS의 핵심 기반 서비스 중 하나입니다. 이 서비스의 API에 접근 자체가 불가능해지자, 이에 의존하는 수많은 다른 AWS 서비스들과 그 위에서 운영되는 고객사 애플리케이션이 연쇄적으로 무너져 내렸습니다. 문제를 인지한 후 근본 원인을 규명하는 데 무려 75분이라는 시간이 소요된 것은 AWS가 자랑하던 '모범적 복구 속도'와 비교해 이례적으로 느린 대응이었습니다.
진정한 원인 - 기술이 아니라 '사람'이 무너졌다
단순한 DNS 설정 오류가 이처럼 치명적인 대규모 장애로 확장된 데는 몇 가지 구조적 문제가 작용했습니다.
사라진 '부족의 지혜(Tribal Knowledge)':
복잡한 분산 시스템에서는 공식 문서에 기록되지 않은, 오직 장기간 시스템을 운영해 온 베테랑 엔지니어들만이 공유하는 '경험 기반 지식'이 존재합니다. "비슷한 증상이 3년 전에도 발생했는데, 당시에는 A 서비스와 B 컴포넌트의 상호작용이 원인이었다"와 같은 생생한 기억과 직관이 바로 그것입니다. 이번 장애에서 원인 규명이 느렸던 이유는 과거 유사 사건의 '패턴'을 기억하고 있는 인력이 현장에 부재했기 때문으로 분석됩니다.
예언된 붕괴: 전직자들의 경고:
AWS의 전직 엔지니어인 저스틴 개리슨(Justin Garrison)은 2023년 퇴사 당시 이미 경고했습니다. 그는 내부에서 대규모 운영 이슈가 증가하는 추세를 목격했으며, "2024년 중대 장애가 발생할 것"이라고 예측했습니다. 그의 퇴사는 단순한 개인의 이직이 아닌, AWS로부터 수십 년에 걸쳐 축적된 운영 노하우가 유실되는 사건이었습니다.
감원과 '유감 이직률(Regretted Attrition)'의 충격:
2022년부터 2025년까지 아마존 전체적으로 27,000명 이상의 직원이 감원되었으며, AWS 또한 그 영향을 피해가지 못한 것으로 보입니다. 더욱 치명적인 것은 69~81%에 달하는 '유감 이직률' 입니다. 이는 회사가 반드시 붙잡고 싶었던, 즉 가장 역량 있고 가치 있는 인력이 대거 이탈했음을 의미하는 지표입니다. 이들의 퇴사 배경에는 강제적인 사무실 복귀 정책(RTO)에 대한 불만이 큰 동기로 작용한 것으로 알려져 있습니다.
변질된 핵심 가치: '절약(Frugality)'의 그늘
아마존의 리더십 원칙 중 하나인 'Frugality(절약)'은 한정된 자원으로 최대의 성과를 내는 지혜를 뜻했습니다. 그러나 현재 AWS 내에서는 이 원칙이 "최소한의 인력으로 감당하기 어려운 업무를 처리하라" 는 폭력적인 명령으로 변질되었습니다. 인력 감축으로 인해 기본적인 유지보수와 모니터링조차 버거워진 조직이, 어떻게 글로벌 규모의 초복잡 시스템을 안정적으로 운영할 수 있겠습니까?
이것은 기술의 노후화가 아닙니다. "유지하는 사람이 새로워서 생긴 문제" 입니다. 가장 진보된 시스템일수록 그것을 이해하고 다룰 수 있는 숙련된 인력이 필요합니다.
맺으며, 이번 사태는 '한 번의 사고'가 아닌 '신뢰 붕괴의 시작'이다
시장은 이번 US-EAST-1 리전 장애를 단발성 사고로 치부하려 할 것입니다. 그러나 내부의 인적 공백이 메워지지 않는 한, 유사한 대규모 장애는 반복될 수밖에 없습니다. 시스템의 복잡성은 나날이 증가하는 반면, 그것을 제어할 수 있는 경험과 지식을 가진 인력은 계속 빠져나가고 있기 때문입니다.
"닭들이 둥지로 돌아오는 중(Chickens are coming home to roost)"이라는 속담처럼, AWS가 수년간 방치해 온 인재 관리와 조직 문화의 문제가 결국 가장 취약한 곳을 통해 폭발한 것입니다. 클라우드의 안정성은 결국 기술 인프라가 아닌 '인적 자본' 위에 세워집니다. AWS의 진정한 위기는 서버가 아닌, 서버를 지키던 사람들이 떠나가면서 시작되었습니다.
#AWS #amazon #클라우드 #DNS