brunch

You can make anything
by writing

C.S.Lewis

by 이상원 Aug 25. 2022

테스트는 나의 힘

넷플릭스의 디자인 프로세스

쇼생크 탈출이라는 걸작을 만난 건 영화관이었으니 아마 95년이었던 것 같다. 흥미진진한 스토리는 반전을 거듭하며 막판을 향해 치닫고 있었다. 앤디는 영화 역사에 기록될만한 장면을 남기며 탈옥에 성공하였고 레드 또한 그토록 기다렸던 가석방을 얻게 되었다. 하지만 자유로운 삶에 적응하는 것은 생각만큼 쉽지 않았으니 앞서 석방된 동료의 자살은 그의 앞날에 어두운 그림자를 드리우고 있었다. 그러던 어느 날 레드는 앤디가 감옥에서 말한 장소를 떠올리게 되고 커다란 떡갈나무 아래 돌담길에서 편지와 약간의 현금을 발견한다. 그는 멕시코로 향하는 버스 안에서 앤디가 말한 진정한 '희망'의 의미를 떠올리게 되는데...

 

쇼생크 탈출의 막바지 장면. 여기가 마지막 장면이어야 했다


 짧지 않은 런타임에 나는 여기가 마지막임을 직감했다. 아니, 이들의 아름다운 해후는 - 아무리 아쉽다 하더라도 - 오직 관객의 머리 속에서 이뤄져야 했다. 하지만 무언가 께름칙함을 느끼던 그 때, 차분해지던 영화는 갑자기 환한 백사장 씬으로 바뀌었고, 아련한 물음표는 등 떠밀리듯 해피엔딩으로 끝나고 말았다. 나중에 안 이야기지만 감독 역시 이러한 결말에 결사 반대했다고 한다. 제작사 측의 요구였다고 하는데, 무엇보다 두 결말을 비교해 본 관객들의 투표가 결정적이었다. 영화는 그 덩치에 비해 예측이나 위험 관리가 거의 불가능한 매우 독특한 성격의 투자 상품이다. 과연 여러분이 제작자였더라면 어떤 결정을 했었을까? 






문제의 핵심은 한 상품이 얼마나 많은 사람들의 관심을 받을 수 있을 것인가, 즉 개봉 시기에 대중들이 돈을 내고 볼 것인가 여부이다. 일반화한다면 인간이 미래 어떤 선택을 할 것인가를 예측하는 것인데, 사실 이것만큼 매력적이고 돈 벌이가 되는 문제가 또 없다. 아닌 게 아니라 학계에서 구조방정식을 사용하는 연구를 살펴보면, 복잡하게 얽힌 잠재 요인들의 연쇄적 인과관계의 종착지는 십중팔구 '구매의도'나 '추천의향'이다. 최근엔 인공지능을 사용한 연구도 앞다투어 등장하고 있는데 대표적으로 수십년 간의 대중 음악을 히트한 것과 그렇지 않은 것으로 분류하는 것이다 (1). 이 구분의 경계가 뚜렷하다면 말로 표현하기 힘든 성공 '공식'이 드러나는 것이고 이를 통해 아직 시장에 나오지 않은 음악의 히트 여부를 예측할 수 있다. 영상 작품의 경우는 워낙 변수가 많아서 콘텐츠 자체보다는 관객의 반응이 타겟이 되고 있다. 표정, 피부 전도성, 심박수, 눈동자 움직임, 그리고 뇌파까지, 아무튼 측정할 수 있는 모든 것에 도구를 들이대고 있다 (2).


인공지능은 인터프리터라는 영화를 스파이더맨과 보디가드의 짬뽕으로 각색했다


할리우드에서 실제로 벌어지는 일은 좀 더 흥미진진하다. 말콤 글래드웰은 2004년에 존재했던 박스 오피스 결과를 무서운 정확도-200만 달러 이내-로 예측하던 시스템에 대해 알려준다 (3). 예측에 필요했던 건 놀랍게도 오직 하나, 시나리오 뿐이었다. 감독, 캐스팅, 프로모션, 로케 그 어떤 것도 추가로 필요하지 않았다. 글래드웰은 그 비법을 유추하기 위해 당시 개봉했던 영화 interpreter의 수정을 부탁했다. 원작의 줄거리는 다음과 같다. 여주(니콜 키드먼)는 아프리카의 한 나라에서 독재자를 암살하려는 시도를 엿듣고 암살범들에게 쫓기게 된다. 남주(숀 펜)는 미국의 이해를 위해 이 독재자를 경호하게 되는데 온갖 살해 시도를 피하는 과정에서 여주 또한 독재자에게 원한이 있음을 알게 된다. 남주의 진실을 알기 위한 시도는 더욱 미궁에 빠지나 결국 이 모든 것이 국제 사회의 동정을 얻기 위한 독재자의 자작극임이 밝혀진다. (뭔가 좀 알쏭달쏭하긴 하다) 인공지능이 수정한 스토리는 다음과 같다. 여주는 뉴욕의 UN에 출근하며 경호원인 남주와 인사를 나눈다. 그녀는 우연히 아프리카의 독재자 살해 음모에 대해 알게 되고, 이에 두 명의 오토바이를 탄 악당에게 쫒기게 된다. 추격 끝에 그녀의 차는 뉴욕의 유명한 다리 난간에 위태롭게 걸리나 남주가 헬리콥터의 로프를 타고 내려와 여주를 구해 올린다 (여기서 좀 로맨틱해진다). 마지막에 독재자는 기자 회견장에서 여주의 친구가 쏜 총에 맞아 피를 흘리며 여주 무릎 위에서 죽음을 맞는다. 여주는 아프리카 국가의 대사로 임명되며 남주에게 이제 나를 경호할 차례라고 말한다.


어떤가? 어딘가 많은 들은 얘기 같긴한데 어쨌든 무언가 흥미진진하다. 뭐가 달라졌을까? 일단 인공지능이 판단하기에 장소는 매우, 매우 중요한 문제이다. 특히 미국인들에게 뉴욕과 아프리카는 정말 하늘과 땅 차이이다. (가장 무난한 장소는 무인도와 감옥이란다) 그리고 여주가 위기, 대충 미적지근한 것이 아니라 진짜 실감나는 위기에 빠지는 것도 매우 중요하다. 인종은 다양한 것이 좋기에 남주는 흑인으로 바꾸어야 하며, 남녀 주인공간의 로맨스도 빠질 수 없는 성공의 필수 조건이다. 인공지능은 이렇게 수정하면 박스 오피스 수익을 두 배 가까이 증가할 수 있다고 예측했다. 그러나 할리우드가 어떤 곳이던가. 시나리오 작가들은 이러한 인공지능이 시나리오를 다 비슷비슷한 맹탕으로 만든다고 반발했고 영화사 중역들은 자신의 선구안을 테스트할 기회를 주지 않았다 (4). 적어도 넷플릭스가 나타나기까지는 (5).  






개인적으로 미국에 거주할 때 지친 금요일 저녁 Blockbuster에 비디오를 빌리러 가는 홀가분한 기분을 기억한다. 갓 나온 인기있는 타이틀들이 디스플레이를 꽉 채웠으나 대부분 대출된 후였고 가격 또한 더 높았다. 이에 매장 구석구석을 뒤지며 지나간 작품들을 뒤지곤 했는데, 가끔씩 보고 싶었던 타이틀을 싸게 발견하는 것은 깨나 쏠쏠한 기쁨이었다. 그러나 이 경험은 넷플릭스라는 서비스를 사용하게 되면서부터 180도 뒤바뀌게 되었으니, 이미 본 DVD를 우편함에 넣고 새것을 기다리는 것은 의외로 만족스러운 것이었다. 주문하는 데에 게으름만 피우지 않는다면 보고 싶은 타이틀로만 월 구독료의 본전을 뽑을 수도 있었다. 사실 여기까지만 해도 DVD의 발달을 목도하고 열심히 봉투에 침을 바르던 헤이스팅스의 노력의 결실이었다. 그러나 이후 등장한 천지개벽할 기술 - 대형 TV에 걸맞는 해상도의 영화 스트리밍 - 은 Blockbuster의 숨통을 일순간에 끊어놓는 결정적인 요인이었다. (*)  


초기에 이런 게 왔다갔다 했었다 Photo by Marit & Toomas Hinnosaar under CC by 2.0. No changes were made.


지금의 넷플릭스는 미국 웹 트래픽의 30%라는 전대미문의 숫자를 뒷받침하기 위해 수많은 기술들을 개발하고 있다. 데이터 캐싱, 고용량 하드웨어, 분산 네트워크, 클라우드 보안, N 스크린 지원 등등 봉투로 배달하던 시절을 생각하면 상전벽해가 아닐 수 없다 (6). 사족으로 미국 직장인들 사이에 넷플릭스의 별난 인사 철학은 끊임없는 이야기거리이다. 수퍼 스타급의 사람만을 고용해 상당한 연봉을 준다거나 기대에 미치지 못할 시 넉 달치의 보상금과 함께 가차없이 해고한다는 것 등은 어떤 경외감까지 주기에 충분했다. 박사급이 발에 치이는 IT giant에서 살아남는 것만도 뼈빠지는데 (워라벨은 니 사정이고) 그 최상위에 놓인 넷플릭스에서의 경쟁은 상상하기조차 어렵다.


아무튼 이러한 백엔드에서의 발전 뿐만 아니라 프론트엔드에서의 혁신 또한 숨가쁘게 이루어졌다. 제작에 있어 데이터를 활용한 사례는 뭐니뭐니해도 House of Cards다. 원작인 영국 버젼을 HBO와 AMC를 제치고 2시즌짜리 판권을 1억달러에 낙찰받았다. 잘 알려졌다시피 데이빗 핀쳐(제작)와 케빈 스페이시(주연)에게 맡겼는데 이는 영국 버젼을 본 사람들이 이 둘의 영화를 많이 봤다는 사실, 특히 소셜 네트워크를 끝까지 본 사람들이 많았기 때문이다 (7). 그리고 사람들의 취향이 여러 작은 장르들로 쪼개져 있는 것을 추천 알고리즘에 활용하는데, 알트 장르 (altgenres)라 불리우는 이것은 어떤 이의 리버스 엔지니어링에 따르면 7천개가 넘는다 (8). 영상이 끝날 때  추천 영상의 자동 재생, 개인에게 특화된 썸네일의 자동 생성, 수 십개의 트레일러를 제작하고 선별하여 재생하는 것 등은 모두 당신의 선택을 받기 위한 연구의 결과이다. 넷플릭스는 당신이 더 오래 머물수록 탈퇴할 확률이 낮다는 것을 너무도 잘 알고 있다 (7).  






그러면 과연 넷플릭스는 특정 기능의 도입이 회사 수익에 도움이 될지를 어떻게 판단할까? 바로 A/B Test라는 방법인데 별다른 게 아니라 A가 좋은지 B가 좋은지 사람들한테 직접 물어보는 거다 (이상형 월드컵 생각이 난다면 바로 그거다). 어쨌든 투표를 모은다는 측면에서 데이터 기반 의사결정이라 할 수 있는데, 이것의 대척점에 있는 것을 HiPPO 라고 부른다. Highest Paid Person's Opinion의 약자로 우리가 익숙한 바로 사장님이 결정하는 방식이다.

 

A/B Test는 다음과 같이 진행된다. 먼저 현재의 웹사이트(A)와 새로운 웹사이트(B)를 준비하고 사람들을 각각 A를 보는 그룹(Control Group) 과 B를 보는 그룹 (Treatment Group)으로 나눈다. 물론 두 그룹을 나눌 때에는 사람들이 평균적으로 동질한 성질 - 성별, 멤버십 기간, 나이, 영화 취향 등등 - 을 지니도록 한다. 이후 특정 기간동안 웹사이트를 운영한 다음 과연 B를 본 그룹의 측정 지표가 A보다 높은지 판별한다. 차이가 충분하다 판단되면  B는 비로소 새로운 챔피언이자 기본 솔루션이 된다.

 

미국 10대들의 자살율

이 순간 두 가지 마법과 같은 일이 벌어진다 (눈치챘는지!). 하나는 인과관계(causality)의 성립이다. 우리가 세상을 이해하려할 때 핵심이 되는 지식은 과연 '가'라는 행위가 '나'라는 결과에 영향을 주었냐하는 사실이다. 문제는 우연히 두 사건이 짝을 이루어 같은 변화를 보이더라도, 즉 상관성이 있더라도 이것이 꼭 인과성이 있다는 것을 의미하지는 않는다는 것. 위 왼쪽 이미지는 소셜미디어가 미국 청소년에게 미치는 악영향에 관한 다큐(The Social Dilemma) 에서 제시된 그래프이다. 2009년, 즉 소셜미디어가 핸드폰에 등장하기 시작한 때부터 10대 여자 청소년들의 자살률이 급증하기 시작한다 (페이스북 죽일 놈!). 그런데 우연한 기회에 위 오른쪽의 비슷한 그래프, 즉 미국 high-teen의 자살률을 1975년부터 추적한 것을 보게 되었다. 2010년부터 자살이 증가한 것은 알겠는데 소셜미디어가 없던 1990년에는 도대체 무슨 일로 자살이 폭등한 것일까? 페이스북은 정말 죽일 놈인건가?


또 다른 인과관계의 사례는 유연휘발유와 납중독과의 관계이다. 납이 포함된 휘발유가 자동차 엔진을 매끄럽게 돌아가는데 큰 효과가 있는 것이 발견되면서 유연휘발유는 급속도로 퍼져 나갔다. 사람들이 각종 치명적인 질병과 발달 장애로 고통 받았음에도 그리고 납이 독성이 있다는 것을 잘 알았음에도 그 사용은 수 십년간 지속되었다. 이를 끊어낸 것은 정유회사의 온갖 협박을 이겨내고 휘발유, 대기 중 납의 농도, 아이들의 장애간 인과성이 있음을 밝혀낸 화학자 (클레어 페터슨)와 의사(허버트 니들만) 덕분이었다. 정유사들이 천인공노할 짓을 하고도 빡빡 우길 수 있었던 것은 인과관계의 성립이 그만큼 어렵다는 것을 의미한다. 잘 통제된 실험은, 이러한 우연이나 무지로부터 오는 해석의 오류를 줄여줌으로써 인과성에 관한 통찰을 주는 과학적 지식 생산의 주요 근간이다.


Central Limit Theorem illustration by Mathieu ROUAUD, CC BY-SA 4.0 , via Wikimedia Commons


두 번째 마법은 바로 '많은' 사람들을 모집할 때 일어난다. 우리가 알고 싶은 것은 A와 B를 보는 사람들의 평균 만족도 차이이다. 그런데 많게는 수 억명의 사람들이 보는 페이스북 웹사이트를 고작 수 만~수십 만명에 관한 결과를 한 번 딱 보고 어떻게 정확하게 판단할 수 있을까? 단도 직입적으로 말해 전체 고객의 만족도 분포가 어떻든지 간에 (왼쪽 그림) 충분히 '많은' 수의 고객들을 조사한다면 그 평균 만족도는 무조건(!) 종 모양의 분포(오른쪽 그림)를 이룬다는 이론에 근거한다 (Central Limit Theorem). 다시 말해 '많은' 수의 고객을 '여러' 번 조사하면 언제나 그 평균 만족도(x)의 빈도(y)는 전 국민의 평균값(μ)에서 피크를 이루는 좌우 대칭 종 모양(정규 분포)이 된다. 따라서 우리는'한 번'의 고객 조사로부터 얻은 평균 만족도를 평균(μ)과 얼마나 차이가 있는지에서부터 이것이 일어날 확률을 계산할 수 있고, 기준(95% p-value)을 넘어 선 희박한 확률이 벌어졌다면 기존의 패턴을 벗어난 일이 벌어졌다라고 판단한다 (Hypothesis Testing).


다만 종 모양의 평균(μ)은 전체 국민의 데이터인데 어떻게 알 수 있을까? A/B 테스트에서는 종 모양이 나타내는 것은 A와 B를 본 고객의 평균값의 '차이'의 분포이고, 우리의 기본 가정은 둘 사이의 차이가 없다는 것이므로 평균(μ)은 0이 된다. 또한 종 모양의 표준편차(σ , 뚱뚱한 정도)도 알아야 하는데 이는 A과 B 각각의 표준 편차(표본분산)의 합산(pooled variance)으로부터 예측(Estimator)한 것을 쓴다. 다시 말하면, 평균값이 0이고 표본으로부터 유도된 표준편차를 가진 종 모양 분포에 대하여, 실제 관측된 A와 B의 평균값의 차이가 일어날 확률이 기준(p-value)을 넘어설 때, 우리는 B가 A보다 낫다라고 판단한다 (헉헉). 여기서 종 모양이 보장되는 '충분히 많은 수'는 정확히 얼마를 말할까? 보통 우리는 30개를 말하지만 A/B 테스트의 경우는 테스트 참여자가 많을수록 종 모양이 더욱 날씬해져 신뢰도가 올라가므로 수만 이상에 달하는 큰 수가 된다 (분산과 샘플크기, 샘플 크기). 사실 이 장황한 설명은 논문을 쓸 때 사용하는 통계 방법 중 가장 기본적으로 많이 쓰이는 테스트(2표본 t검정)의 가장 단순한 가정(표준 분포)과 다를 바 없다. 통계를 제대로 알고 쓰는 것이 얼마나 어려운가!!

  





그래, 열번 봐 줘서 저런 테스트법이 있다고 치자. 그게 디자이너인 나와 무슨 상관인가?  


Image from the book  (10)


2012년 마이크로소프트 Bing 검색엔진 팀은 검색 결과 및 광고 페이지의 헤드라인을 길게 해보자는 아이디어를 생각해 냈다 (위 그림). 사실 워낙 단순한 아이디어여서 실행이 후순위로 밀려 한참 후에야 테스트가 되었는데 그 결과는 믿기 힘든 것이었다. 실제로 적용해보니 물경 검색 엔진 사상 최고의 액수인 년간 1억달러(!)의 수익 증가를 가져왔다. 이후 각 광고를 더 크게하여 회사별로 링크를 여러 개 넣을 수 있도록 하자는 아이디어도 연 5천 만달러의 수익 증대를 가져왔다 (9).


100억/년 짜리 컬러 선택. 차이가 있는 건 알겠는데 그 정도까지일 줄이야..  (11)


2013년 Bing 팀은 이번엔 무슨 생각에서인지 폰트색의 농담을 미묘하게 조절해 보았다. 위 그림에서처럼 파란색/녹색/검정색을 살짝 변화시켰는데 전체적으로 컬러로 된 폰트의 시인성이 어렴풋하게나마 증가한 것을 알 수 있다. 테스트 결과는 의미있는 차이가 있는 것으로 나타났지만 모두들 - 디자이너를 포함하여 - 의심을 거두지 못했고 결국 천 이백만을 대상으로 재테스트를 실시하였다. 돌다리를 두들긴 후 실제로 적용을 하니 연 천만달러의 수익 증대를 가져다 주었다. 우리 돈으로 120억 정도인데 혹시 Bing 전체 수익이나 그 변동에 비해 너무 작은 부분은 아닐까. 사실 상대적으로 전체 수익의 1.2%에 해당하는지라 적어보일 수도 있고 또 스타트업이라면 절대 만족할 수 없는 숫자다. 하지만 첫 사례처럼 가끔씩 12% 대박을 치는 경우도 있고, 또 내부적으로 1년 목표치가 2% 수익 증대인지라 팀으로서는 결코 작은 성과는 아니다 (10).  


이러한 결정 외에도 굵직굵직한 결정들이 A/B Test에 의해 결정되었는데 예를 들어 아마존에서 결제 직전에 크레딧카드 광고를 보여주는 것, 클릭에 대한 반응 스피드는 무조건 빠르게 해야 한다는 것, 그리고 검색 결과를 클릭 시 결과 페이지는 새로운 탭에 보여줘야 한다는 것 등이 그것이다 (11). 현재의 우리들은 너무나 당연히 생각하지만 얼마든지 다른 옵션들도 생각해 볼 수 있는, 결코 직관이나 사용자 법칙만으로 판단하기엔 어려운 문제들이다.  


다만 유의 확률 보다 낮은 숫자가 언제나 엘도라도로 가는 길을 보여 것은 아니다. 폰트색의 경우 과연 어떤 인과 관계를 유추할 수 있을까? 구글의 경우도 무려 41개의 파란색을 테스트했다고 하니 (12), 그냥 단순히 돈이 더 벌린다는 사실만이 우리가 아는 전부일 수 있다. 인지적 편향의 효과, 한 예로 novelty effect에 의해 새로운 안이 일시적으로 좋은 반응을 얻은 건 아닌지도 생각해봐야 한다. 게다가 장기간에 걸친 트렌드나 세대의 변화는 테스트 결과에 어떤 유효 기간이 있음을 의미한다. 테스트 참여자 선발이 정말 무작위였는지, 요일이나 명절의 영향은 없는지, 새로운 콘텐츠 유입에 따른 효과는 없었는지, 그도 아니면 테스트 결과가 정말 5%라는 희박한 확률의 우연이라면 최악의 경우에 대비할 수 있는지도 파악해야 한다 (13). 유의미한 차이가 남발되는 것이 의심된다면 똑같은 두 안을 놓고 수치가 같은지도 비교해봐야 한다 (A/A Test). 결국 아무리 데이터가 그린 라이트를 반짝이고 있을지라도 이를 활용하는 방식은 아직 많은 부분이 인간의 영역이다.    

 



 


작품도, 취향도, 기풍도 숫자로 변환되는 순간 컴퓨터의 심판 아래 놓여지고 있다. A/B Test는 조금이라도 우리의 시간을 뺏는 방법을 찾아 디지털 서비스를 진화시켰고 이들은 한 번 들어가면 헤어나오기 힘든 거대한 토끼굴이 되었다. 고객은 자신도 모르는 사이 각종 실험의 대상이 되고 있으며 최종 판단은 감수성 풍부한 훈련된 감별사가 아니라 수익과 확률을 계산할 수 있는 과학자의 몫으로 옮겨가고 있다.

   

영화 산업의 물밑에서 벌어지는 숨가쁜 변화는 우리에게 희망과 우려가 뒤섞인 미래를 제시한다. 인공지능이 제시하는 스토리는 아직 과거의 성공 공식을 답습하고 있는 것으로 보이나 이들의 예측이 정교해질수록 어쩔 수 없이 의지하게 될 것이다. 그리고 정확히 그 이유 때문에 때때로 새로운 지평선의 시발점이 되는, 그리고 소수의 취향을 대표하기도 하는 크고 작은 '실수'의 자리는 점차 좁아질지도 모른다.

넷플릭스는 쇼생크 탈출을 A/B Test 할 수 있을까? 수 십가지 다른 엔딩 중 내가 가장 좋아할 버젼을 골라 줄 지 모를 일이다. 원하는 것만 보고 들을 수 있는 세상이다. 당신의 취향은 판타지인가, 아니면 논픽션인가.




참고문헌

(0) title photo from https://unsplash.com/photos/lI7dlA5VBp8

(1) https://www.semanticscholar.org/paper/Song-Hit-Prediction%3A-Predicting-Billboard-Hits-Data-Middlebrook-Sheik/ea6a62f1de177d57dfa7de7a8933cb8ca1f9adcb

(2) https://www.nature.com/articles/s41597-019-0209-0

(3) https://www.youtube.com/watch?v=jrT6P3jiKZM

(4) https://www.nytimes.com/2013/05/06/business/media/solving-equation-of-a-hit-film-script-with-data.html

(5)  https://www.theverge.com/2019/5/28/18637135/hollywood-ai-film-decision-script-analysis-data-machine-learning

(6) https://netflixtechblog.com/

(7) https://neilpatel.com/blog/how-netflix-uses-analytics/

(8) https://www.theatlantic.com/technology/archive/2014/01/how-netflix-reverse-engineered-hollywood/282679/

(9) https://hbr.org/2017/09/the-surprising-power-of-online-experiments

(10) http://www.yes24.com/Product/Goods/84756203

(11) https://exp-platform.com/rules-of-thumb/ 

(12) https://www.nytimes.com/2009/03/01/business/01marissa.html

(13) http://www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9788990247674&orderClick=LAG&Kc=

(14) https://link.springer.com/content/pdf/10.1007/s10618-008-0114-1.pdf

 

(*) 사실 너무 단순화한 것이고 실제로는 Blockbuster도 꽤나 긴밀하게 대응하긴 했었다. 결정적인 것은 Blockbuster가 가지고 있던 빚과 투자자 Carl Icahn의 희대의 헛발질에 따른 자멸이었다.


https://cms.megaphone.fm/channel/landofthegiants?selected=VMP9805762802


작가의 이전글 유니바디
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari