brunch

넷플릭스 오픈커넥트가 IT최적화에 혁신으로 꼽히는 이유

by delight
학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 문장은 삭제했습니다. Sohail Saifi가 미디엄에 공유한 글을 정리한 것입니다.


모두 알듯 넷플릭스는 AWS에 엄청난 돈을 쓴다. 사람들은 넷플릭스가 월별 클라우드 비용을 수백만 달러나 절감하는 현명한 아키텍처 선택에 대해서는 모른다. 기술 커뮤니티는 넷플릭스 마이크로서비스와 잘 알려진 카오스 엔지니어링에 집중하며, 진정한 비용 최적화 이야기를 간과하고 있다. 이는 예약 인스턴스, 자동 스케일링, 또는 어디서나 찾을 수 있는 일반적인 클라우드 비용 절감 팁과는 무관하다.


이것은 2012년이 전략적으로 선택한 결과에 따른 것으로 넷플릭스 콘텐츠 전달에 대한 관점을 근본적으로 바꿨다. 이 선택은 매우 성공적이어서 현재 모든 비디오 트래픽을 관리하며, ISP 파트너들이 12억5000만달러 이상을 절감하는 데 기여했다. 이것은 아무도 논의하지 않지만 모두가 사용해야 할 아키텍처 비법이다.


모두가 신경쓰지 않는 문제

먼저 스트리밍 서비스라면 두려워해야 할 수치를 살펴보자.: 전 세계 하향 인터넷 트래픽(downstream internet traffic) 워크로드 14.9%가 넷플릭스에 귀속된다. 유튜브를 넘어, 아마존 프라임 비디오보다 많으며, 다른 어떤 인터넷 서비스보다도 많다. 넷플릭스는 2019년 AWS에 월 960만달러를 지출했다고 공개했다. 빠른 확장 속도를 고려할 때 이 수치는 현재 훨씬 더 높을 것이다. 흥미로운 점은 넷플릭스가 수십억 시간 더 많은 콘텐츠를 제공함에도 불구하고 기가바이트당 비용이 지속적으로 감소하고 있다는 것이다.


어떻게 가능했을까?

이정도 규모를 가진 대부분 기업들은 Fastly, Akamai, CloudFront와 같은 전통적인 콘텐츠 전송 네트워크(CDN)에 투자했을 것이다. 그들은 더 많은 에지 위치를 구매하고 캐시 히트율(cache hit, 요청된 콘텐츠가 캐시 서버에서 바로 제공된 비율)을 극대화하며 운을 기대했을 것이다. 넷플릭스는 정반대 조치를 취했다. 넷플릭스는 중간 단계를 완전히 제거했다.


모든 것을 바꾼 아키텍처 결정

넷플릭스는 2012년, 당시에는 미친 아이디어처럼 보였던 결정으로 자체 글로벌 CDN을 완전히 새롭게 구축했다. 넷플릭스 비디오 콘텐츠를 효율적이고 저렴하게 전달하기 위해 특별히 설계된 CDN이었다. 그들은 이를 Open Connect라고 명명했다. 넷플릭스는 다른 질문을 던졌다.: “만약 CDN 제공업체들에게 전혀 비용을 지불하지 않아도 된다면?” 다른 기업들이 기존 아키텍처를 개선하는 동안 말이다.


Open Connect는 실제로 어떻게 작동하나

여기서 마법이 일어난다. 넷플릭스는 거대한 데이터 센터를 건설하고 콘텐츠가 근처에 캐시되기를 기대하는 대신, 서버를 직접 사용자에게 가까이 배치했다. 넷플릭스는 전 세계 인터넷 서비스 제공업체(ISP)들에게 매력적인 제안을 했다.:


“우리 서버를 귀사 데이터 센터에 배치하게 해달라.” 비용은 전혀 없다. 우리는 하드웨어를 제공하고 귀사 고객을 위해 가장 인기 있는 콘텐츠로 채워드리며, 귀사는 전력과 공간을 제공해주면 된다."


ISP 네트워크 내부에 위치한 이 서버들은 Open Connect Appliances (OCAs)로 알려져 있으며, 본질적으로 넷플릭스 사설 콘텐츠 저장소다. 뭄바이 사용자가 프로그램을 시청하려면, 해당 ISP 건물 내부 OCA가 요청을 처리하며, AWS 데이터 센터까지 반 바퀴를 돌며 데이터를 전송할 필요가 없다.


결과는? Open Connect와 그게 위치한 ISP 간 직접 연결을 통해 전 세계 Netflix 트래픽 95%가 전송된다.비용이 많이 드는 CDN 요금이 없고, 제3자 마진도 없다. 다른 기업 트래픽과 대역폭 공유하지도 않는다.


믿기 어려운 숫자

2012년 Open Connect 도입 이후 Netflix는:


8,000대 이상 Open Connect Appliances를 구축하고 배포하기 위해 10억달러를 투자했다.

ISP 전송 비용(transit costs)을 줄여 12억5000만달러를 절감했다.

트래픽 95%는 더 이상 CDN 요금이 필요하지 않으며, 모든 비디오 트래픽을 자체 인프라로 처리한다.


비용 절감만이 진정한 마법이 아니다.. 전략적 의미가 핵심이다.


이 전략이 정말로 천재적인 이유

1. 그들은 자신의 운명을 통제한다.

공유 인프라가 전통적인 CDN의 본질이다. 모든 사용자 블랙 프라이데이 트래픽이 동시에 몰릴 때 자원을 경쟁해야 한다. 넷플릭스는 전체 전송 파이프라인을 소유하고 있기 때문에 이 문제에서 영향을 받지 않는다.


2. 비용을 파트너십으로 전환

넷플릭스는 CDN 제공업체에 비용을 지불하는 대신 콘텐츠 전송을 수익성 있는 파트너십으로 전환했다. 넷플릭스는 무료 호스팅을 받고, ISP는 사용자에게 더 빠른 콘텐츠 전송을 제공해 고객 만족도가 향상된다.


3. 특정 사용 사례에 최적화

일반적인 CDN은 웹 페이지, 이미지, API, 비디오 등 다양한 콘텐츠 유형을 지원한다. 넷플릭스 CDN은 고품질 비디오 스트리밍을 유일한 목적으로 설계됐다. 이같은 전문성 덕분에 일반적인 CDN에서는 불가능한 최적화가 가능하다.


4. 지연 시간을 거의 0에 가깝게 줄인다.

사용자와 콘텐츠 간 물리적 거리가 ISP 네트워크 내 서버에 위치함으로써 줄어든다. 이로 인해 버퍼링 감소, 빠른 시작 시간, 고품질 스트리밍이 가능하며 비용도 절감된다. 이를 가능하게 하는 기술 아키텍처 Open Connect는 단순히 서버를 무작위로 배치하는 것 이상이다. Open Connect는 다음과 같은 요소로 구성된다: OCAs는 모든 콘텐츠를 저장하지 않는다. 그들은 머신 러닝 예측을 기반으로 해당 지역에서 인기 있을 것으로 예상되는 콘텐츠를 수요가 덜 몰리는 시간에 미리 캐싱한다. OCA가 다운될 경우 트래픽은 필요에 따라 인접한 장치로 원활하게 전환되거나 AWS로 돌아간다. 다양한 품질 수준 콘텐츠가 저장되어 네트워크 상태에 따라 최적의 품질을 제공할 수 있다.


왜 다른 기업들은 따라하지 않을까?

이 접근 방식 성공적이라면, 왜 모든 기업이 이를 사용하지 않을까? 이 답변은 넷플릭스 전략이 왜 우수한지 설명한다:


대규모 인프라가 필요하다. ISP들이 협력하고 싶어할 만큼 충분히 커야 한다. 대부분 기업은 넷플릭스 같은 영향력을 갖추지 못했다. 인프라에 10억달러를 투자하는 것은 작은 돈이 아니다. 대부분 기업들은 이 초기 비용을 감당할 수 없다. 이 투자의 회수 기간은 분기 대신 년 단위로 측정된다. 대부분의 기업은 즉각적인 투자 수익을 추구한다. 대부분 기업들은 글로벌 CDN을 구축하고 유지하는 데 필요한 전문 지식을 갖추지 못하고 있다.


모든 규모에 적용 가능한 교훈

대부분의 기업은 Open Connect를 정확히 복제할 수 없지만, 그 기본 개념은 모든 규모에 적용 가능하다.


기본 가정 재검토: 넷플릭스는 서드파티 CDN 사용이 정말 필요했는지 질문을 던졌다. 아키텍처에 대해 잠재적으로 불필요한 가정을 하고 있지는 않나?


비용을 협업으로 전환: 공급업체에 단순히 비용을 지불하는 대신, 모든 당사자 비용을 줄이는 수익성 있는 파트너십을 구축하는 방법을 모색하라.


특정 사용 사례에 최적화: 일반적인 솔루션은 효과적이지만, 특정 요구사항에 맞게 맞춤형으로 설계된 솔루션은 종종 훨씬 우수한 성능을 발휘한다.


장기적 관점 고려: 2012년 넷플릭스 투자 당시에는 비용이 많이 들었지만, 현재는 경쟁사 대비 가장 큰 우위 요소 중 하나다.


말하지 않은 장점

재정적 절감은 첫 번째 단계에 불과하다. Open Connect는 전통적인 CDN이 제공할 수 없는 기능을 가능하게 한다.


실시간 분석: 넷플릭스는 전체 전송 파이프라인을 통제하기 때문에 각 스트림에 대한 종합적인 분석 데이터를 수집하며, 이를 추천 시스템 개선에 활용한다.


콘텐츠 최적화: 다양한 인코딩 설정을 테스트하고 사용자 참여도에 미치는 영향을 실시간으로 추적할 수 있다.


글로벌 확장: 지역 ISP들과 협력하는 것은 외국 CDN 제공업체와 협상하는 것보다 새로운 시장에 진출하는 것이 더 쉽다.


품질 통제: 콘텐츠 전송에 대한 완전한 통제권을 보유하기 때문에 일관된 스트리밍 품질을 보장할 수 있다.


이러한 아이디어를 적용하려면 넷플릭스 규모가 필요한 것은 아니다. 주목할 포인트는 다음과 같다.


자체 개발 vs. 구매 선택: 주요 사용 사례에 대한 맞춤형 솔루션을 개발하는 장기적 비용을 평가한 후 서드파티 서비스에만 의존하지 말라.


파트너십 기회: 전통적인 고객-공급업체 관계 대신 상호 이익을 추구할 수 있는 공급업체를 찾아보라.


전문화 vs. 일반화: 일반적인 클라우드 서비스는 실용적이지만, 전문 솔루션은 종종 비용과 성능 측면에서 우위를 제공한다.


인프라를 통해 경쟁 우위 확보: 인프라 결정이 운영 요구사항에서 전략적 우위로 전환될 수 있는 방법을 고려하라.


비용 최적화의 미래

넷플릭스 Open Connect 전략에 따르면, 미래 가장 큰 비용 절감은 현재 서비스를 미세 조정하는 것이 아니라 운영 방식을 근본적으로 재고하는 데서 나올 것이다. 전 넷플릭스 클라우드 아키텍트 애드리안 코크로프트의 또 다른 통찰:


“사람들은 일반적으로 클라우드를 사용하지만, 단순히 애플리케이션 서버를 배치하고 데이터센터를 다른 곳에 위치시킬 뿐이다. 우리는 클라우드에 데이터를 저장하는 것을 신뢰하지 않았기 때문에, 이것이 클라우드를 사용하는 방식이었다.”


가장 큰 비용 최적화 레버는 사용량이다. 코크로프트에 따르면: “사용률이 25%라면 실제 필요량의 4배를 지출하고 있습니다. 사용량을 두 배로 늘리면 클라우드 비용이 절반으로 줄어듭니다. 예약, 절약 계획, 기타 번거로운 절차는 잊어버려야 한다.


넷플릭스는 이를 다음과 같이 달성한다:


사용하지 않을 때 서비스를 완전히 중단하는 과도한 자동 확장

100% 사용률을 제공하는 서버리스 기능

특정 워크로드에 최적화된 인프라


결론

모두가 넷플릭스의 카오스 엔지니어링과 마이크로서비스 아키텍처 사용에 대해 말한다. 그러나 Open Connect의 구축은 그들의 가장 중요한 아키텍처 선택이자 가장 적은 주목을 받는 부분일 수 있다. 넷플릭스는 콘텐츠 전달 과정에서 중간 단계를 제거함으로써 비용을 절감했다. 확장함에 따라 그들의 지속 가능한 경쟁 우위는 더욱 강화된다. 모든 기업이 자체 CDN을 구축해야 한다는 교훈은 아니다. 교훈은 '이렇게 해야 한다'는 기본 가정들에 도전하는 것이 가장 큰 최적화 기회를 가져온다는 점이다. 넷플릭스는 비용을 어디에 투자할지 현명한 아키텍처 선택을 했기 때문에 스트리밍 시간당 비용이 매우 낮은 것이다. 이러한 비용을 불가피한 것으로 받아들이기보다는, 반복되는 비용을 제거하는 인프라에 대규모 투자를 했다.


당신의 차례

넷플릭스가 선택한 길은 대규모 비용 절감을 추구하는 모든 기업에게 모델이 된다.


가장 큰 반복 비용을 확인하라.

그 비용이 정말로 필요한지 고려하라.

비용을 전략적 제휴로 전환할 기회를 찾아보라.

주요 사용 사례에는 전문 솔루션을 위해 투자하라.


“넷플릭스는 어떻게 할까?”는 클라우드 비용 최적화를 고려할 때 다음에 생각해 볼 질문이다. 그들은 단순히 더 작은 인스턴스를 구매하거나 자동 스케일링 설정을 조정하는 것만으로는 만족하지 않을 것이다. 그 서비스가 정말 필요한지 의문을 제기할 것이다. 제거는 때로는 가장 좋은 최적화다.

keyword
작가의 이전글실리콘밸리는 왜 AI 위험성을 스스로 말하는가