넷플릭스는 오징어 게임 성공을 알고 있었을까

수학의 쓸모 - 닉 폴슨, 제임스 스콧

by Ryan 책방

의사결정을 하기 위해서 데이터 (정보) 습득 및 분석은 필수적 사항이다. 충분한 데이터를 얻었다고 하더라도, 분석에 앞서 허점은 없는지 정확하게 살펴볼 필요가 있다. 이번 책 수학의 쓸모는 통계에 관한 내용을 다루고 있다. 기존의 통계 서적이 보건, 엔지니어링 등 실생활에 필요한 부분을 다루고 있다면 이번 책에서는 한 단계 고차원적인 부분을 다루고 있다. 바로 AI, 딥러닝이 적용된 분야이다. 넷플릭스, 자율주행 자동차 등의 사례가 특히 재미있게 기억난다.

넷플릭스 사례를 간단히 요약하면 다음과 같다.

넷플릭스는 DVD 대여 사업을 했다. 가입자가 DVD를 반납할 때 평가표도 받았다. 방대한 양의 데이터를 축적했다.

하우스 오브 카드는 넷플릭스의 오리지널 시리즈이다. 대형 방송국에 소개했을 때, 그들은 조심스러웠다. 그러나, 넷플릭스는 자체 시뮬레이션을 통해 잘 될 것이라 확신했다. 시험 방송 없었다. 이것은 넷플릭스가 가입자에 대한 '데이터'와 그것을 분석하는 도구를 갖고 있었기 때문에 가능했다.

넷플릭스 하우스 오브 카드


넷플릭스의 AI 추천 시스템은 이 차 대전 연합국 공군을 승리로 이끈 왈드의 이야기와 결을 같이 한다. 왈드는 전투를 마치고 돌아온 비행기 데이터 분석을 통해 어떻게 비행기 설계를 개선할지 밝혀냈다. 예를 들어보자. 격추되지 않고, 귀환한 비행기가 100대 있다고 가정해 보자. 그중 동체에 총탄 흔적을 보이는 비행기 50대, 조정석 총탄 흔적 비행기 30대, 총탄 흔적이 없는 비행기 15대, 엔진 총탄 흔적 5대라고 가정하자. 사람들은 동체를 보강하자고 제안할 수 있다. 동체에 가장 많은 총탄 흔적이 있기 때문이다.

그러나, 논리를 바꾸면 다른 결과가 나타난다. 위의 사례에서는 귀환한 비행기만 데이터로 다루었다. 격추된 비행기를 포함하면 어떻게 될까? 분석 결과 엔진에 총탄을 맞은 경우, 격추되어 귀환하지 못하는 경우가 많았던 것이다. 즉 귀환과 격추를 동시에 데이터로 다루어야 했다.

왈드 전투기 총탄 분석


이것은 넷플릭스의 소비자 영상 추천에도 활용할 수 있다. 밴드 오브 브라더스 (영화 1)와 라이언 일병 구하기 (영화 2)를 예로 들어보자. 영화 1을 좋아하면서, 영화 2를 좋아할 수 있다. 반대로 영화 1을 좋아하는데, 2는 싫어할 수 있다. 혹은 영화 1은 싫어하는데, 영화 2는 좋아할 수 있다. 마지막으로 영화 1과 2를 다 싫어할 수 있다. 확률은 2의 n 승이다. 이러한 조건부 확률을 통해 넷플릭스는 데이터로부터, 추천 시스템을 만들어 낸다.

"조건부 확률을 이용해 방대한 데이터 집합으로부터 찾아낸 가입자의 잠재 특성들이야말로 넷플릭스가 단순한 공급자에서 제작자로 변신하도록 만든 숨은 힘이었다. 이 잠재 특성들은 맞춤형 마케팅을 위한 가장 완벽한 도구, 즉 데이터, 알고리즘, 인간의 통찰력이라는 특별한 조합과 만나 디지털 경제를 만들어내는 마법의 묘약이 되었다."




마지막 장의 나이팅게일 사례도 사뭇 흥미롭다.

영국과 러시아 사이 발생한 크림반도의 전쟁은 1853년 시작되었다. 전쟁 중 영국군의 의료체계는 참담했다. 부상병은 근처 막사 병원 스쿠타리 (터키 도시)로 이송되었다. 병동에는 콜레라와 이질이 만연했다. 위생문제는 끊이질 않았다. 사지 절단술은 마취제인 클로로포름 없이 이루어졌다.

나이팅게일은 전쟁터에서 보건 분야 책임자로 일을 했다. 본국에서 도착하는 조달 품 정리, 병원 환경 개선 등 끊임없이 일을 했다. 나이팅게일이 수행한 다양한 일 중에서 중요한 것은 통계를 적용하여 관리를 했다는 것이다. 다음 그림은 나이팅게일 사용한 다이어그램이다.


나이팅게일 다이아그램

그림에서는 가운데 진한 색깔은 전쟁의 부상으로 인해 사망한 병사 숫자이고, 외곽에 연한 색깔은 기타 다른 요인에 의해 사망한 병사 숫자이다.

이렇게 통계적으로 접근하면, 우리는 무엇에 중요도를 높일 수 있을지 옳은 결정을 할 수 있게 된다. 분석에 의하면 전쟁에서 부상당하여 사망한 숫자보다, 질병 등 다른 요인으로 사망한 숫자가 훨씬 컸다. 따라서, 질병이 전염되지 않도록 하는 위생환경 개선이 우선순위가 될 수 있었다.

2022년 전 세계는 코로나와 함께 싸우고 있다. 이제는 매일 통계를 보고 경향을 보는 것이 익숙한 세상이 되었다. 통계와 해석은 우리의 삶에 깊숙한 곳까지 들어와 있다. 자율주행 자동차의 경우 이미지를 감지하고, 디지털화하는 기술은 필수적인 요소이다. 그래픽 전문 회사인 엔비디아가 책에서 몇 차례 소개되었다. 2021년 나스닥을 뜨겁게 달구었던 회사이다. AI와 딥러닝 등 신기술이 어떤 방향으로 진화될지 매우 기대된다.



같이 읽으면 좋은 책: 통계의 미학, 통계학 빅데이터를 잡다, 김대식의 인간 vs. 기계


#독서 #독서기록 #독서블로그 #독서 #과학책읽기 #수학의쓸모 #닉폴슨 #제임스스콧 #더퀘스트



keyword
매거진의 이전글블랙홀에서도 시간은 흐를까?