brunch

You can make anything
by writing

C.S.Lewis

by 김긍정 Mar 18. 2021

대표님, A/B테스트를 홈에 들이셔야 합니다.

넷플릭스, 너는 계획이 다 있구나? [코드스테이츠PMB4]

이 글은 지난 포스팅 [잘 녹인 UX Writing, 열 구구절절 안 부럽다]와 이어지는 글입니다.

BGM으로는 가수 하진님의 <We all lie>를 권합니다.



 데이터를 전적으로 믿으시겠습니까?

요즘 스타트업의 프로덕트 매니저 채용 공고를 보면 UX와 애자일만큼이나 빼놓을 수 없는 문구가 있다. '데이터에 기반한 의사결정', 'A/B테스트를 통한 서비스 개선', '데이터 분석이 가능하신 분'. 그들은 왜 이렇게 데이터를 강조하게 된 걸까?


지난 프리토 타이핑 포스팅에서 나는 '나만의 데이터'와 'XYZ 가설'이 중요하다고 언급한 바 있다.

나만의 데이터란?
다른 사람이, 다른 프로젝트를 위해, 다른 시기에, 다른 곳에서, 다른 방법과 목적으로 수집한
데이터가 아닌 나의 아이디어를 검증하기 위해 내가 직접 수집한 시장 데이터다.

XYZ 가설
적어도 X퍼센트의 Y는 Z할 것이다.

'만족스러운', '일부 사용자' 등의 텍스트 표현은 주관적으로 해석될 수 있기에, 최소 수치로 정한 XYZ 가설을 통해 숫자로 그 애매함을 제거한다. 그렇게 모인 나만의 데이터는 시간과 돈을 낭비하지 않기 위해 실험을 통해 가설을 검증하는 스타트업에게 보다 효율적인 의사결정 방향을 제공한다. 때론 객관적인 수치와 지표가 서비스와 방향을 돌아볼 수 있는 아이디어나 기회가 되기도 한다.


데이터는 거짓말을 하지 않지만 그래도 주의해야 할 점이 있다. 보통 사람의 성향은 크게 머리형 / 가슴형 / 장형으로 나뉜다. 머리형은 데이터 수집 과정부터 의심하고, 장형은 입력된 그대로 받아들이며, 가슴형은 감성적인 측면도 함께 고민한다. 이처럼 같은 데이터라도 사람의 성향에 따라 다르게 접근하고 해석될 수 있기에, 구성원 간의 커뮤니케이션도 중요하다.


또 데이터는 모든 걸 읽지 못한다. 개인적으로 정말 재밌게 읽은 [Data Driven이 토스를 망친다]에서 맛집 공유 단체 채팅방에서 '토스 행운 퀴즈' 링크를 공유하며 일어난 해프닝을 그 예시로 들었다. 당장의 페이지 조회수는 올라갈 수 있으나, 브랜드의 이미지는 불쾌함으로 물들어 가고 있었다. 우리는 고객의 감정까지 수집할 수 없기에 데이터를 전적으로 믿기보다는, 늘 고객의 입장을 생각하며 구성원들과 함께 집요하게 고민하는 것이 가장 현명한 성장의 방법으로 보인다.






 우리는 우리도 모르는 사이에 실험당하고 있다.

좌 : 나의 계정 / 우 : 동생의 계정

때는 지난 설 연휴.

넷플릭스 오리지널 [내가 사랑했던 모든 남자들에게]의 시즌3 [언제나 그리고 영원히]가 개봉되었다. 특히 이번 시리즈는 라라진이 설 연휴를 맞아 한국으로 여행을 온 설정이라 더 호기심이 갔다. 처음에는 왼쪽 빨간색 프로필인 내 계정으로 들어가 영화를 보았다. 그러다 저녁을 먹기 위해 껐다가 다시 넷플릭스를 켰고, 실수로 우측의 파란색 프로필인 내 동생의 계정으로 들어가게 되었다. 캡처 날짜를 보면 알겠지만 개봉한 바로 다음 날이라 넷플릭스에서 해당 영화를 전면에 내세워 공격적으로 광고하고 있었다.



서로 다른 커버 이미지에 순간 나는 A/B 테스트를 발견했다는 착각에 빠져 설렜다. (너무 궁금하쟈나,,)

A/B테스트란?

디지털 환경에서 전체 사용자를 대상으로
A : Control Group(대조군) / B : Experimental Group(실험군)
으로 나누어 특정 UI나 알고리즘의 효과를 비교하는 방법론이다.

개봉 직후 일정기간 동안 두 개의 이미지를 띄우고 테스트 기간이 끝나면 더 많이 클릭된 이미지가 썸네일로 박제(?)되는 것이 아닐까 생각했다.


하지만 몇 번 새로고침 한 결과, 그동안 수집한 시청 데이터를 분석해 개인의 취향을 반영한 커버 이미지를 띄워주는 것 같았다. 


(그동안 내가 시청하고 좋아요를 평가한 영화들은 좀비물이나 코미디, 여성 캐릭터들의 우정이 돋보이는 영화였고, 동생이 주로 시청하고 좋아요를 평가한 영화들은 하이틴 로맨스가 우세했다.)






 고객은 90초 안에 이탈한다.

자세한 정보 확인을 위해 넷플릭스의 테크 블로그를 방문해 이미지 관련 A/B 테스트 사례를 확인해 보았다. 인간의 뇌는 0.0013 만에 이미지를 처리할  있으며, 이미지 인식이 텍스트보다 훨씬 빠르다고 한다. 90 안에 시선을 끌지 못하면 고객은 관심을 잃어버린다. 러니 90 안에 해당 콘텐츠나 서비스를 소비해야  이유를 제공하고, 고객이 관심 있는 콘텐츠인지 아닌지 빠르게 판단할  있게 도와야 한다.


넷플릭스는 고객들이 제목과 별점, 짧은 소개글 등이 포함된 커버 이미지를 먼저 보고 그 후에 시청을 결정한다는 것을 깨달았다. 그래서 '처음 딱 봤을 때 클릭을 할 확률을 어떻게 하면 올릴 수 있을까?'라는 문제를 해결하기 위해 [Creative Services] 팀의 도움을 받았다.


넷플릭스의 크리에이티브 서비스 팀은
시선을 사로잡는 동시에 작품의 감정까지 전달할 수 있는 한 장의 커버 이미지 제작을 위해 노력했다. 도로의 광고판이나 DVD 커버 등 다양한 목적을 갖고 커버 이미지를 만들었지만
이렇게 클릭률을 높이기 위한 목적의 디자인은 당시 업계 전반에서 흔치 않은 시도였다.

그들은 각 영상에 맞는 최고의 이미지를 찾고 단순히 더 클릭해보는 것에 그치지 않고,

별점이나 시놉시스 등 주어진 정보를 다 둘러보는 전체적인 참여도를 높이는 것을 목표로 했다.

그렇게 얻은 데이터로부터 넷플릭스는 그들만의 이미지 프레임워크를 구축, 발전시키기 시작했다.






 뭘 고를지 몰라 다 준비해 봤어

좌 : 넷플릭스 초기 테스트 포스터 / 우 : 현재 노출되는 이미지

넷플릭스의 초기 A/B 테스트 중 하나는 영화 [The Shorts]로 골프 게임에서 서로 경쟁하는 어린이들이 영감을 주는 스토리다. 기존 이미지(Cell 1_Control)로는 어린이에 관한 내용이라는 것을 인지하지 못하고 쉽게 지나칠 수 있다는 판단하에 Cell 2, 3번의 고객들에게 해당 이미지로 실험, 각각 14%, 6% 더 높은 클릭률을 기록했다.


더불어 각 테스트 셀 별로 다른 이미지가 노출되는 A/B 테스트도 진행했다. 각 변화 별 클릭률, 총 재생시간, 짧은 재생시간의 비중, 콘텐츠 시청률 등과 같은 사용자 참여도를 측정했다. 결론적으로 여러 이미지를 사용함으로써 시청자 수를 늘리고 참여도를 높일 수 있었다. 넷플릭스의 A/B 테스트 철학은 점진적인 배포, 데이터에 기반한 의사결정, 그리고 빠른 실패를 따른다. 해당 내용을 읽고 나서 [The Shorts]를 찾아보니 정말 클릭률이 가장 높았던 이미지로 노출되고 있었다. (그렇지만 나의 취향은 Cell 3,, ㅎㅅㅎ,,)






 넷플릭스의 경쟁사는 '인간의 수면시간'이다.

그 다음 A/B 테스트는 총 스트리밍 시간을 높이기 위해 두 가지 실험으로 나눠 진행되었다.

가설 : 각 콘텐츠마다 알맞은 이미지를 제공하면 많은 고객의 총 스트리밍 시간을 높일 수 있다.

1) 'Explore' Test -> 어떤 이미지가 가장 높은 고객 참여도를 보이는가?
2) 'Exploit' Test -> Explore test에서 가장 인기가 많았던 이미지가
미래 고객들에게도 인기가 많을까? 그래서 스트리밍 시간을 늘릴 수 있을까?


Explore Test

고객을 4개의 셀(Cell)로 나누어 각각 4개의 다른 이미지를 보여주며,
35일이 넘는 기간 동안 가장 우수한 성과를 보인 이미지를 'Exploit' 테스트 고객들에게 노출한다.


Exploit Test

'Exploit' 테스트는 기본 이미지를 노출하는 대조군(Control Cell)을 포함한 3가지 다른 지표에서
가장 우수한 성과를 보인 이미지를 각 셀의 고객들에게 노출했다.
각 셀들의 성과는 총 스트리밍 시간, 테스트에 포함된 콘텐츠들의 재생시간 비중으로 비교 측정했다.




+ 2가지 실험이 어떻게 연결될 수 있을까?

1. Netflix API에서 'Explore' 테스트의 각 셀 별로 이미지 후보들을 제공한다.
2. 'Explore' 테스트에 포함된 사용자들의 시청 이력과 노출 이력을 수집한다.
3. 지표가 가장 우수한 이미지를 확인한다.
4. 세 가지의 지표를 기준으로 선정된 세 이미지들은 'Exploit' 테스트의 각 셀 별로 나누어 노출된다.

실험 결과는 분명했다.

테스트한 콘텐츠들의 조회수가 크게 늘었고, 총 스트리밍 시간 또한 증가했다. 고객들에게 더 적절한 이미지를 보여줌으로써, 이전에 발견하지 못했던 콘텐츠를 더 많이 시청할 수 있게 도왔다.






 그래서 넷플릭스가 말하는 "클릭을 부르는 썸네일 특징"

좌 : 가장 클릭률이 높았던 시안 / 우 : 넷플릭스가 A/B테스트를 통해 구축한 이미지 프레임워크

수많은 A/B테스트를 통해 발견한 가장 '적합한' 이미지로는

콘텐츠의 톤을 전달하는 요소와 감정을 표현하는 얼굴이 포함된 이미지가 가장 효과적이었다.

또 콘텐츠 내 인지도가 높거나, 극단적인 성향을 가진 캐릭터를 활용한 이미지가 우수한 성과를 보였다.

넷플릭스는 고객들이 더 빠르게 콘텐츠를 찾고 즐길 수 있도록 해당 UX를 꾸준히 향상해 왔다 :')



+ 그 당시 실험을 통해 구조화된 넷플릭스의 이미지

: 배경 이미지 + 현지화된 타이틀 처리 + ‘새로운 에피소드’ 배지(선택) + 넷플릭스 로고(콘텐츠 별 상이)


+ 최근 넷플릭스가 구조화 한 이미지

tvN 빈센조의 PC 이미지 + 모바일 이미지 / 현재 키미슈미트의 대표 이미지

너무나도 당연하게 지나치는 넷플릭스의 썸네일 구조를 알고 나니 현재와 비교하지 않을 수 없었다. 그래서 요즘 재밌게 시청하고 있는 tvN [빈센조] 이미지를 준비했다. 사실 송중기의 빛남에 다른 건 눈에 들어오지 않지만 굳이 과거와 비교해보자면 [매주 새로운 에피소드]와 [새로운 에피소드]로 배지의 차이가 생긴 것, TOP 10 배지가 생긴 것 정도를 들 수 있다. (참고로 키미 슈미트는 표정만 봐도 알 수 있듯 극단적인 상황이 많아 호불호가 갈릴 것으로 예상된다. 그래도 나는 키미가 가진 순수함이 좋아 전 편을 다 보았다.)






 + 오늘의 TMI

실제로 방송국에서 2차 콘텐츠를 업로드할 때, 여러 버전의 썸네일과 문구 중 투표를 통해 선발하고 조합한다. 콘텐츠를 만드는 사람으로서 가끔은 로고만 동동 떠다니던 옛날이 그립다. 기다림의 설렘은 점점 사라지고 어느새 우리 곁엔 자극만이 남아있다. 열심히 창작한 글, 음악, 영상이 결국엔 책 표지나 앨범 아트워크, 썸네일 같은 이미지가 선택을 좌우한다는 게 안타깝다. 심지어 A/B 테스트를 통해 내가 좋아할 만한 콘텐츠와 썸네일을 예측하고 이를 노출시킨다는 게 가끔은 무섭다. 온 사방이 중독의 덫으로 가득하다.


물론 나도 며칠 밤을 새워서 쓴 이 글을 많은 사람들이 봐주었으면 하는 마음으로 김주영 쓰앵님 사진을 골랐기에 할 말은 없다,, ㅎㅅㅎ,, 그래도 우리 모두 껍데기만큼 알맹이에게도 관심을 가졌으면 좋겠다. 끝으로 번역에 도움을 준 mae에게 감사 :')


브랜드를 사랑하는 앱등이로 시작해, 제품이 아닌 가치를 파는 잡스병을 거쳐
혁신을 꿈꾸는 프로덕트 매니저에 도전하다. 코드스테이츠 PM 부트캠프, 그 100일간의 기록
김긍정 brunch.co.kr/@positive-kim

내용 참고

- 유튜브 채널 [데이터 맛집] : https://youtu.be/aRd3PF2gXDA

- [Bridgemaker]님의 브런치 : https://brunch.co.kr/@wonjaeleeeeee/11
- [digitalnative]님의 브런치 : https://brunch.co.kr/@digitalnative/19

- 넷플릭스 테크 블로그 (원문) : https://netflixtechblog.com/selecting-the-best-artwork-for-videos-through-a-b-testing-f6155c4595f6
- 모비인사이드 (번역문) : https://www.mobiinside.co.kr/2020/10/05/hackle/

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari