brunch

You can make anything
by writing

C.S.Lewis

by 잠꾸러기 덴스 Jan 16. 2019

당신의 취향을 찾아줍니다.

넷플릭스 추천 알고리즘의 비밀

             * 표지는 일본 오사카 밤거리 (Pixabay 무료이미지)


올해 1월 3일. KBS, MBC, SBS와 SK과 힘을 합쳐 통합 OTT 서비스를 선보인다고 발표했다. 공중파 3사가 공동 출자해 ‘푹(POOQ)’ 서비스를 운영하는 콘텐츠 연합 플랫폼㈜과 SK브로드밴드의 ‘옥수수(oksusu)’ 사업 조직을 통합해 신설 법인을 출범시킬 계획이다. 넷플릭스의 본격적인 한국 진출에 대한 대항마로 국내 빅 콘텐츠 사의 연합이 탄생한 것이다.


넷플릭스(Netflix)가 국내 시장에서 본격적인 활동을 시작하며 글로벌 플랫폼(Global platform)에 대한 국내 방송 업계의 견해가 서로 엇갈린다. 혹자는 넷플릭스가 국내 콘텐츠 제작 환경을 개선하고 글로벌 시장으로 진출할 수 있는 좋은 기회를 마련할 것이라고 기대한다. 또 다른 입장은 넷플릭스가 국내 방송 시장을 독점하여 이른바 ‘넷플릭스의 하청업체’로 전락될 가능성과 나아가 문화적인 종속까지도 우려한다. 이처럼 방송 업계에서 사업자들은 저마다 첨예한 이해관계 속에서 넷플릭스의 활동을 받아들이고 있지만, 모두가 글로벌 플랫폼에 대한 현실적인 위기 상황은 공감하는 모습이다. 그럼 과연 넷플릿의 힘은 어디에서 나오는가? 연간 8조 원의 콘텐츠 투자액이 아니라 그건 바로 추천의 기술, 추천 알고리즘일 것이다.     

                                                                                                                    

가입하는 순간 당신은 당신도 몰랐던 당신의 진짜 모습을 마주하게 된다.


우선 재미있게 보았던 콘텐츠를 3개 고르는 것에서부터 태그와 알고리즘이 시작된다. 태그는 주로 구체적이고 설명적인 키워드이다. 눈물자극, 감성 충만, 아드레날린 폭발, 몰입감 최고, 고통받는 천재, 실화 바탕과 비슷한 콘텐츠, 취향 저격, 흥미진진, 감정 풍부 등으로 태그들이 남겨진다.

각 콘텐츠마다 갖고 있는 태그 중에서, 위에서 내가 골랐던 3개의 콘텐츠 사이 일치도가 높은 것 위주로 콘텐츠를 먼저 보여 주며 개별 홈 화면이 구성된다. 여기서부터 추천의 시작이다.     

     


넷플릭스는 직원들과 프리랜서로 구성된 약 20명 정도의 태거(Tagger)라는 전문가 집단을 운영하고 있다. 이 직업은 하루 종일 넷플릭스 콘텐츠를 감상하고 키워드, 즉 핵심 키워드인 태그(Tag)를 남기는 역할이다.  모든 콘텐츠에 그 나라별 정서를 정확히 이해하고 번역/통역이 아닌 네이티브 수준으로 그 언어를 구사하는 철저하게 현지화된 태거들이 여러 문화와 언어에 따라 태그를 엑셀 파일에 남긴다.

장르의 종류는 말 그대로 콘텐츠의 장르뿐 아니라 출연자, 출연자 조합, 배경, 지적 수준 등으로 매우 세분화되며 그 결과 총 7만 개 정도의 콘텐츠 종류가 도출된다고 한다. 이 태그가 머신러닝 알고리즘의 출발점이다.        이런 기본 데이터(가입자들의 시청 행태와 태그 데이터)를 가지고 이제 넷플릭스의 최첨단 머신러닝 알고리즘이 분석에 들어간다. 머신러닝을 통해 각 요소의 비중이 결정되고 그 결과 시청자들은 2천 여개의 취향 그룹으로 분류된다.   

                                                                        

넷플릭스의 콘텐츠 부문 부사장인 토드 옐린은 Wired에서 알고리즘 분석의 비중 관련 이렇게 언급했다.                                    

This is how Netflix's top-secret recommendation system works | WIRED UK          

  

The data that Netflix feeds into its algorithms can be broken down into two types – implicit and explicit. “Explicit data is what you literally tell us: you give a thumbs up to The Crown, we get it,” Yellin explains. "Implicit data is really behavioural data. You didn’t explicitly tell us 'I liked Unbreakable Kimmy Schmidt', you just binged on it and watched it in two nights, so we understand that behaviourally. The majority of useful data is implicit."


그는 명시적 데이터보다 암시적 데이터가 인간의 행동을 결정하는데 더욱 중요하다고 얘기한다.

알고리즘 분석의 핵심이다. 우리 말로는 말 자체보다는 행간을 통한  속마음 읽기 정도.


WEIRED 온라인 기사 제목 (홈피 참고)


넷플릭스 사용 초기단계라 선별한 포스터 이미지는 아직 사용자의 취향을 담지 못한다. 데이터가 부족하니 랜덤으로 정한 이미지다. 넷플릭스는 실제로 같은 콘텐츠에도 여러 가지의 다른 표지 이미지를 사용하고 있고 선호도에 따라 표지 이미지를 다르게 적용한다.

'보헤미안 랩소디'란 영화를 추천할 경우에 같은 콘텐츠라도 '음악적' 취향이 강한 사용자에게는 라이브 에이드 공연장면을 메인 이미지로 내 보내고 '드라마적' 취향이 강한 사용자에게는 멤버들과 함께 웃는 얼굴을 메인 이미지로 띄운다.                                  

계속 실험적으로 다양한 표지 이미지를 뿌려주며 반응을 수집하고 각자의 선호도를 더 깊이 파고든다. 홈 화면 또한 개인의 취향에 맞춰 구성되고 지속해서 사용할수록 그 깊이는 더 깊고 정확해지며 정교해진다. 이 점이 넷플릭스 알고리즘 특징 중 하나다. 사용자에게 다양하게 피딩하면서 최적의 조합을 빠르게 찾아가는 것이다.


가입하고 클릭하는 순간, 우리는 알고리즘 생성에 적극 동참하게 된다.

                1억 5천만 명 넷플릭스 가입자 (출처 : statista)   ( 한 계정당 2~3개 복수 뷰어 이용하니 실제로는 약 2.5억 명 이상 시청)

 

추천기술의 진화 ; 세상을 나누는 기준, 취향저격


넷플릭스는 어떻게 일억오천만 명의  전 세계 이용자를 대상으로 전혀 다른 홈 화면을 구성해서 제안하고 개인 맞춤형 콘텐츠를 추천할까?

그동안은 대부분 인구통계학적 1차적 기준에 따라 고객 데이터를 나누고 최근 이용 콘텐츠에 따라 맞춤 추천을 해 주었다. 사실 넷플릭스도 2016년까지는 지역별로 취향을 구분하고 제안했었다.

선호하는 콘텐츠, 시청 시간, 이용 시간, 장르, 최근 본 콘텐츠 등을 분석하여 취향을 체계적으로 분류하고 있다.   

  

2,000여 개의 취향 커뮤니티 Taste Community 파악

와이어드(Wired) 기사에서 밝힌 내용으로 보면 넷플릭스에서는 최소 2천 개 이상의 취향 커뮤니티(Taste communities)를 운영하고 있다. 취향별 클러스터, 테이스트 클러스터(Taste cluster)라고도 부르는 이 취향 군이 바로 넷플릭스의 정확도 높은 맞춤형 서비스이다.

때로는 자신과 무관한 또는 관련성이 없는 주제나 내용의 드라마나 영화를 추천해 준다. 그러나 절대 그렇지 않다. 주제와 내용은 달라도 그 속에 취향은 동일성을 유지하고 있기 때문이다. 유튜브의 추천 알고리즘도 같은 맥락이다.(지난 글 참조)  취향 알고리즘을 통해 실제 나보다 나를 더 잘 알고 있는 것이다.

앞으로 점점 더 여러 다른 표지 이미지를 클릭하고, 콘텐츠를 시청하고, 검색하면 할수록 어떤 Taste community에 정확하게 분류되고 관리될 것이다.  즉 취향 커뮤니티가 세분화되어 개별 맞춤화 될 것이다.

   

넷플릭스 홈피 이미지 (출처)

넷플릭스의 진화, 유통사에서 콘텐츠 제작사로


넷플릭스는 '하우스 오브 카드'로 대박을 터트린 다음 콘텐츠 제작사로 거듭났다.

과열 경쟁 속 정공법을 택하며 콘텐츠 제작에 심혈을 기울이고 있다. 작년 총부채 약 120억 달러를 기록했음에도 콘텐츠 제작에 막대한 돈을 쓰고 있다.


아시아&태평양 지역으로 발을 넓힌 넷플릭스는 ‘콘텐츠 홍수’ 속 새로운 콘텐츠를 발굴하는데 힘을 쏟는 중이다. 넷플릭스 CEO 헤이스팅스는 “우리는 한국을 비롯한 아시아, 전 세계의 뛰어난 이야기와 위대한 이야기꾼들을 찾아내 투자하고 있다”며 “현재 1억 3000만여 명이 넷플릭스를 이용하지만, 유튜브 이용자가 넷플릭스의 7배가 넘는 등 여전히 작은 규모다. 이야기는 다양한 문화 방식으로 살아가는 사람들이 결국에는 비슷한 꿈과 생각을 가졌다는 것을 깨닫게 해 주며 연결해준다. 그 이야기를 넷플릭스가 제공하겠다”라고 포부를 밝혔다.

넷플릭스 CEO 헤이스팅스(좌)와 하우스 오브 카드 표지


한국 제작 콘텐츠는 200억을 투자한 킹덤을 비롯하여 ‘좋아하면 울리는’ ‘첫사랑은 처음이라서’ ‘범인은 바로 너! 시즌2’ 등 총 4편의 한국 오리지널 콘텐츠를 올해 라인업으로 내놨다.


넷플릭스 알고리즘 핵심은 인공지능의 미러 이론과 같다. 인간의 내면을 좀 더 들여다보는 것에서

부터 시작한다. 그들의 접점은 아마도 이러지 않을까.


당신의 잃(잊)버린 취향을 찾아줍니다.







출처: http://www.wired.co.uk/article/how-do-netflixs-algorithms-work-machine-learning-helps-to-predi ct-what-viewers-will-like)    

추천의 기술, 넷플릭스 https://brunch.co.kr/@scandilife/56    

미민트 뉴스, 넷플릭스, 콘텐츠 80억 투자..정공법 고수하는 이유   

wired 자료,  https://www.wired.com                                       







                            



















브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari