학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 문장은 삭제했습니다. 이번에는 독립 저널리스트 Will Lockett이 미디엄에 공유한 글입니다.
최근 아마존은 진짜로 인터넷을 마비시키는 법을 보여주었다.(아직도 유효한 표현이다… 맞나?). 아마존 웹 서비스(AWS)가 완전히 망가져서 주요 온라인 뱅킹 포털부터 포트나이트 같은 대형 게임, 심지어 주요 소셜 미디어 사이트까지 모두 완전히 다운됐다.그리고 이번은 우리가 익숙한 일시적인 장애가 아니었다. AWS가 문제를 해결하는 데 무려 16시간이 걸렸기 때문이다. 일부 보고에 따르면 2,000개 이상 기업이 이 장애로 영향을 받았으며, 그 규모와 해결에 걸린 시간으로 인해 생산성 손실로 수십억 달러 비용이 발생했다. 그렇다면 무슨 일이 있었던 걸까? 아마존은 인공지능이 두 번째로 근로자를 대체할 수 없다는 사실을 입증한 것 같다!
이번 AWS 장애 공식 원인은 DNS 해결 문제였다. 하지만 그게 전부는 아니다. 일반적으로 이런 종류의 문제는 비교적 쉽고 빠르게 해결할 수 있기 때문이다. 특히 AWS와 같은 업계 선두 기업이라면 더욱 그렇다. 이번 장애는 일시적인 문제로 끝났어야 했다. 그렇다면 왜 해결하는 데 16시간이나 걸렸을까?
주목하는 이들이라면 누구나 고통스럽게도 분명히 알 수 있는 사실이 있다: AI가 이 문제를 전 세계적인 대형 사건으로 만들었다는 점이다.
아마존은 '인력을 AI로 대체'하는 흐름에 100% 동참하고 있다. 7월 아마존은 생성형 AI를 도입해 인력을 대체하면서 직원 수를 축소하겠다고 발표했다. 동시에 AWS 클라우드 컴퓨팅 부서에서 최소 수백 명 직원이 해고됐다. 일부 보도에 따르면 수백 명 이상이 해고된 것으로 알려졌다. 그리고 사건 발생 정확히 일주일 후, 아마존은 30,000명 직원(AWS 소속 다수 포함)을 해고하고 AI로 대체할 것이라고 발표했다. 요컨대 아마존은
현재 AI 도입을 위한 대규모 구조조정을 진행 중이다.
그런데 눈치챘나? 불과 몇 달 전, 아마존은 서비스 중단 해결을 담당하는 AWS 부서 엔지니어 상당수를 해고했다. 그 타이밍이 매우 수상쩍다…
하지만 여기서 중요한 맥락이 빠져 있다. AWS는 대규모 확장을 진행 중이다! 정전 사태를 일으킨 모든 인터넷 서비스를 구동하는 바로 그 AWS 클라우드 컴퓨팅은 AI '학습'에도 사용된다. 따라서 수요를 충족시키기 위해 AWS는 2025년 한 해에만 컴퓨팅 성능 증강에 무려 1000억 달러라는 천문학적 금액을 투자하고 있다! 이 투자가 얼마나 거대한지 감을 잡으려면, AWS가 2011년부터 2022년까지 인프라에 지출한 금액이 1080억 달러였다는 점을 참고하라.. 현대식 인프라가 더 비용 효율적이라는 점을 고려하면, 이 새로운 1000억 달러 지출로 AWS 컴퓨팅 성능이 두 배 이상 증가할 수 있음을 의미한다.
이 정도 추가 컴퓨팅 성능을 확보하고 운영하려면 고도로 교육받은 인력도 대규모로 확보해야 한다. 그러나 AWS는 정반대로 인력을 축소해 왔다! 따라서 실질적으로 AWS는 심각한 인력 부족 상태다. 그리고 과로로 이 격차를 메울 수도 없다. AWS는 직원 교체와 신규 포지션 충원을 AI로 해결하고 있을 것이다. 분명히 말하자면 이 주장을 증명할 수는 없지만 거의 확실한 사실이다.
이것이 문제 해결에 왜 그렇게 오랜 시간이 걸렸는지 설명한다. AI는 본질적으로 신뢰할 수 없다. 사실, AI는 너무나도 신뢰할 수 없어 AI 프로그래밍 도구가 오히려 프로그래머 작업 속도를 늦추는 경우가 많다. 끊임없는 “환각”이 식별과 해결이 어려운 수많은 버그를 생성하기 때문이다. AI는 정확성 면에서도 형편없다. 이러한 환각 현상으로 인해 데이터를 조작하고 데이터 인사이트를 망쳐버리기 때문이다. 당연히 AI는 크고 복잡하며 새로운 과제를 신뢰성 있게 해결할 수 없다.
기본적인 프로그램 생성조차 신뢰할 수 없는 AI가, 수십억 달러 규모 오프라인 클라우드 컴퓨팅 인프라 문제를 해결하고 수리하는 것을 어떻게 신뢰할 수 있겠나? 불가능하다.
여기서 우리는 모두 행간을 읽을 수 있지 않나? AWS가 핵심 인력을 AI로 대체하고 있다는 것은 명백하며, 지난 번에 발생한 오류를 AI가 해결하지 못했다. 실제로 문제를 해결할 수 있는 작업자 팀이 거의 남아 있지 않았기 때문에, 이 문제를 해결하는 데 예상보다 기하급수적으로 더 오랜 시간이 소요됐다. 그 결과 사소한 장애가 전 세계적 재앙으로 번졌다. 너무나 명백한 사실이라 AI 친화적 미디어들조차 같은 결론에 도달하는 걸 보고 있다.
이미 유사한 문제를 경험했음에도 아마존이 이런 식으로 AI에 의존하지 말아야 한다는 교훈을 얻지 못했다는 점이 놀랍다.
아마존의 ‘저스트 워크 아웃(Just Walk Out)’ 식료품점을 기억하나? 얼굴 인식 카메라, 선반 센서, AI가 고객이 가져간 상품을 추적한 후 매장을 나설 때 아마존 계정에 자동 결제하는 방식이었다. 계산원이나 셀프 계산대가 필요 없도록 설계됐다. 하지만 문제가 있었다. 보도들에 따르면 AI가 지속적으로 오류를 내자, 1,000명 이상 원격 근무자를 고용해 영상 피드를 모니터링하고 고객 구매 내역 70%를 확인해야 했다. 해외 아웃소싱이라 해도 이 정도 인건비는 저렴하지 않았고, 아마존 ‘저스트 워크 아웃’ AI는 일반 계산원 고용보다 훨씬 더 비싼 시스템이 되어버렸다. 당연히 아마존은 이 시스템을 제3자에게 판매하는 데 어려움을 겪었고, 자사 식료품점도 AI가 아닌 고급 셀프 스캔 시스템으로 전환해야 했다. 기본적으로 AI는 근로자를 대체하기엔 너무 신뢰성이 떨어졌다.
이 모든 일은 2023년 후반에 발생했다. 그 이후로도 해당 AI 도구들은 크게 개선되지 않았다. 예를 들어, 아마존이 ‘저스트 워크 아웃’ 개념을 포기하기 몇 달 전에 ChatGPT-4가 출시되었으며, 최신 모델들은품질이 더 떨어진다고 평가도 많다. 사업 실패를 초래한 문제가 조금이라도 해결되었다는 증거는 전혀 없다.
사실, OpenAI 최근 논문에 따르면 이러한 신뢰성 부족(또는 환각 현상)은 AWS가 활용하려는 도구의 기반이 되는 대규모 언어 모델(LLM) AI에 내재된 문제이며 해결책이 없다고 한다. 오히려 현재 수준에서 환각 발생 빈도를 줄일 방법조차 찾지 못했다고 한다. 아무리 많은 데이터나 컴퓨팅 파워를 투입하고, 프롬프트를 어떻게 설계하며, 모델을 어떻게 최적화하든 상관없다. 환각 현상은 사라지지 않을 것이다..
이는 AI 엔지니어들이 이미 오래전부터 알고 있던 사실이다. 그러나 아마존은 이러한 전문가들 의견을 무시할 뿐만 아니라, 과거 공개적으로 드러난 대규모 AI 실패 사례들마저 잊어버린 채, 이 치명적으로 불량한 기술을 사업의 핵심으로 급속히 자리매김시키고 있다.
이것이 재앙적인 실수라고 말할 때, 나는 아마존뿐만 아니라 모든 사람을 의미한다. 이번 서비스 중단 사태에서 보듯 AWS는 인터넷의 핵심 분야다. 그리고 AWS가 계속해서 직원들을 해고하고 맹목적으로 AI를 도입한다면, 이런 종류 서비스 중단은 더 빈번해지고 더 오래 지속될 것이다. 간단히 말해, 모든 사람이 이로 인해 고통받을 것이다. 아마존이 자신의 실수로부터 배우기에는 너무 고집스럽고 탐욕스러워서 말이다. 참으로 한심하다.