brunch

You can make anything
by writing

C.S.Lewis

by 김자유 Jul 03. 2019

넷플릭스는 왜 별점이 아니라 좋아요일까?

왓챠는 별점인데...

해외 디자인 아티클 번역 뉴스레터 '디독' 구독링크: http://bit.ly/2FNQNpv


목차


1.별점을 버려야 할까?

2.사람들은 얼마나 자주 별점을 매길까?

3.UX에서 별점 시스템은 무엇을 뜻하는 걸까?

4.집단 규범(Group Norms) 과 동조 (Conformity)

5.박수치기로 평가하기

6.등급 관련 UX 파헤치기 

7.평가 시스템을 없앨 것인가?



우버같은 고객 서비스들은 기사와 승객 모두 평가를 하는 흥미로운 시스템이 있다. 파트너 Arjun는 전략이 아니라 진심으로 매너있고 애정을 가지고 나눈 대화 덕분에 평점 4.91을 받았다. 


그는 최근에 별점 1점을 준 기사들에게 주목했다. Arjun은 놀랐다. 낮은 별점을 준 이유가 궁금해서 이유가 무엇인지 물어봤었는데 기사들은 웃으면서 “이건 낮은게 아닙니다. 난 최고 점수(no.1)를 준거에요" 라고 설명했다. 


1.별점을 버려야 할까?


2017년 초, 넷플릭스는 큰 변화가 있었다. - 별점 매기는 것을 버리고 좋아요&싫어요(thumbs-up& thumbs-down)로 바꿔서 이전에 사용자가 좋아했던 것을 기반으로 ‘매치'해서 제안해주는 것이다.

유투브도 10년전인 2009년에 비슷한 결정을 했다. 별점들은  모 아니면 도식의 현상을 보였다.


그들이 내린 결정은 유투브에 있는 압도적으로 많은 동영상이 5점 만점 별점을 받았기 때문이다. 이것은 어떤 것을 극도로 좋아하거나 싫어하는 것 처럼 극단적으로 반응을 보였다는 것을 의미한다. 


나머지 사람들은, 평가에 신경쓰지 않았다. 여기서 주목해야 할 점은 유튜브의 한 동영상에 대한 평균 별점은 모든 사용자들에게 비슷하게 나타난다. 


넷플릭스에서 5개 빨간 별들은 당신이 가장 좋아할 영화나 시리즈들을 의미한다. (넷플릭스에서) 각각의 영화나 시리즈 옆에서 본 별점은 평균적으로 비슷한 생각을 가진 사용자들이고, 유튜브처럼 모든 사람이 같은 생각을 가진 것은 아니었다. 


2. 사람들은 얼마나 자주 별점을 매길까?


초기 우버는 다음 운행을 이용하기 의무적으로 운전자를 평가 해야했다. 최근에는 옵션을 선택하여 사용자가 몇 번은 평가를 안해도 되도록 선택 가능해졌다. 우버 (샌프란시스코)는 2014년에 운전자에게 드라이버 순위 시스템 작동 방식을 설명해주는 안내서를 보냈다. 또한 만약 기사들의 별점이 4.6점 이거나 그 이하면, 우버는 그들의 계정을 정지시키는 것을 고려했다. 


“좋지 않은 경험을 준 기사들의 계정을 정지시키는 것은 우버가 계속 좋은 서비스를 주는 것을 보장한다 .”


우버 드라이버들은 좋은 평가에 따라서 계속 운전을 할 수 있게 된다. 더 나은 수익을 위해 ‘평점’이 있는 다른 많은 상품과 서비스들 중 더 많은 고객을 얻어야하는 레스토랑과 마찬가지다. 


우리 모두 같은 방법으로 순위를 이해하고 있는가? 


아마 아닐 것이다. 이것에 대한 더 정확한 답을 제시하자면, 오늘날 디지털 프로덕트들의 평점 시스템의 의도에 대해 이해할 필요가 있다.



3. UX에서 별점 시스템은 무엇을 뜻하는 걸까?


평점 시스템은 당신의 제품을 쓰는 사용자가 당신의 제품에 영향을 끼칠 수 있는 투자와도 같다. 그들이 이 시스템을 잘 이해하고 신뢰할수록 더 많은 관여를 하게 된다.


좋은 것은 칭찬하고, 별로인 건 비평해줌으로써 제품이 성장하는데 도움이 될 것이다. 


우린 작년에 클라이언트들의 프로젝트 중 하나를 조사했다. 50%이상의 응답자들이 영화를 볼 때 IMDB (인 메모리 데이터베이스(in-memory database)) 에서 최소 7점이 넘는 영화를 보는 것으로 나타났다. 그보다 낮은 점수가 나오면 영화를 스킵해버렸다!


흥미롭게도, 쇼나 시리즈에 대해 LAR(가장 낮은 별점)은 8점이었다. (영화에서는 7점이었지만)

“난 완벽한 영화에도 8점 이상을 준 적이 거의 없다” 고 대부분의 응답자가 말했다. 영화에서 별점 7점까지는 잘 주는 반면에 9점은 극히 드물고 예외적으로 주는 것이다. 같은 사용자 그룹이 넷플릭스에서는 ‘좋아요'로 같은 영화에 투표할 것이다. 


      플랫폼, 사용량, 평가 시스템과 최종 참여 결과는 사용자가 콘텐츠 부분을 평가하는 방법에 심리적인 역할을 크게 할 것으로 보인다. 컬러, 레이블, 평가에 직접적인 영향도 주된 영향을 미친다. 

같은 조사에서 응답자의 80%가 적어도 주 1회 우버를 이용했고, 30%는 매일 이용했다. 우버로 통근하는 사람의 거의 50%는 기사의 별점이 5점 만점에 4.5점 보다 낮으면 운행 예약을 취소했다! 


한달에 최소 한번은 Zomato(역주 : 두바이 배달앱)를 이용하는 같은 사용자들을 보자. 레스토랑에서는 5점 만점에 3.8점이하면 취소했다. 아마도 (서비스의) 사용빈도 및 일상생활에 얼마나 관계있는지가 평점에 대한 인식에도 영향을 끼치는 것으로 생각된다 .


“별점 4점은 어느정도 예상이 가능하다. 5점은 엄청 기대하게 된다!”


인스타그램 (혹은 페이스북)의 좋아요와 트위터의 리트윗도 평점 시스템이다. 실제로 둘 중 하나다. 일반적으로 사용자들은 ‘재미없는' 것은 평가를 하지 않는다. 그들은 좋았거나 싫었던(love or hate!) 극단적인 경험을 했을 때 평가한다. 


페이스북, 트위터, 인스타그램은 ‘증오'를 경험하게 하는 것에는 관심이 없다. 그들은 사용자의 ‘사랑'을 경험하게 하고 널리 알리는 것에 가치를 둔다. 사용자들이 이런 플랫폼에서 어떤 걸 좋아할 때만 평점을 주기 때문에 두 가지 시스템은 평점을 쉽게 얻게 해준다.


브래들리의 팔이 더 길었으면 좋았을 텐데. 최고의 사진.

4. 집단 규범(Group Norms) 과 동조 Conformity


무자퍼 셰리프(Muzafer Sherif)는 1936년에 유명한 실험을 했었다. 실험에 참가한 사람들은 어두운 방에서 15피트(약 4.5미터)의 거리에서 작은 빛이나는 점을 보고 얼마나 이동했는지 맞춰야했다. 이 실험은 개별적으로 테스트를 한 참가자가 3명의 그룹에서 테스트한 참가자들보다 일반적으로 더 넓은 범위로 빛의 변화를 이야기함을 알려주었다.셰리프의 실험은 개인의 판단보다, 항상 그룹의 판단에 따르려는 경향이 있다는 것을 보여준다.


인스타그램 사용자들에게 9gag(역주 : 월 페이지뷰 수 10억 건을 넘는 해외 유명 이미지 기반 소셜 미디어 사이트)에서 559,031개의 좋아요를 받은 어떤 게시물을 보여주고, 사용자들은 이와 비슷한 다른 게시물을 추가하여 보여준다. 만약 평가를 하기 전에 모든 별점의 합이나 평균을 보여준다면, 등급, 별점, 투표 및 기타 시스템에도 적용될 것이다. 


아마 이러한 요인은 소셜 미디어의 바이럴리티((이미지 혹은 비디오가 급속하게 유포되는 상황)) 개념에서 가장 중요한 것 중 하나일 것이다. 



5. 박수치기로 평가하기


미디엄에서 ‘좋아요' 버튼과 동등한 기능인 ‘추천하기'는 2017년 중반 쯤 ‘박수치기'로 바뀌었다. 이러한 획기적인 변화는 흥미롭게도 독자를 감상자에서 평가자로 바꾸었다. 사용자는 아티클이 마음에 들거나 우수하다고 생각하는 정도에 따라 한 아티클당 0~50번까지 박수를 칠 수 있다. 이는 별점 시스템과 비슷하다. 


페이스북에서는 자신의 글에 '좋아요'를 할 수 있지만, 미디엄에서는 할 수 없다.

별점 평가과 미디엄의 박수치기의 가장 흥미로운 차이점은 카운트(count)를 시각적으로 나타낼 수 없다는 것이다. 별점 평가는 5점 만점으로 평가하라고 한다. 반면, 박수를 치는 건 무한으로 (가상이지만) 평가할 수 있다. 


미디엄에서 평가 시스템이 바뀌면서 플랫폼의 등급 통화(rating-currency)가 부풀려 질 것이라는 우려가 있었다. 


2천개의 추천을 받은 아티클이 이젠 2만개의 박수를 받아도 적은 것 같아보인다. 그래도 이러한 변화가 지속적으로 제대로 기능한다면, 박수에 대한 인식이 보다 나아질 가능성은 충분하다.



6. 등급 관련 UX 파헤치기


미디엄에서 평가 시스템 중 일부는 평균화 개념을 간과해서 오류를 겪고있다. 

예를 들어 5스타 평점 등급은 평균점으로 일정 숫자로 치환될 것이다. 일단 이번엔 4.3점이라고 해보자.


4.3점을 보자. 대부분의 시나리오에서 점수가 계속 좋은 숫자로 나오면, 4.3점에서 4.4점이나 4.2점으로 바뀌려면 극단적인 점수 (1이나 5점)가 많이 필요하다. 4.3점은 점수를 여러번 받고 나서야 평균 점수가 된다.


여기서 무언가에 놀랐거나 슬픈 것은 평가에 영향을 미치지 않았을 것이고, 실제 피드백에 나타나지 않을 수도 있다. 


이용 후 드라이버 평가하기


우버 드라이버 앱의 사용자들은 운행이 끝나자마자 해당 승객과 기사를 의무적으로 평가하게 만든다. 같은 경험이 승객 앱에서도 적용되는건 아니다. - 승객이 기사를 평가하는 건 선택 사항이다. 마찬가지로, Zomato와 아마존은 사용자가 구매 후 리뷰를 남길 수 있도록 선택 사항을 만들었다. 실제로 아마존은 아마존에서 구매하지 않았더라도 제품을 검토할 수 있고, LAR (lowest acceptable rating 최저 허용 등급)은 찾는 제품에 대해 2 이하로 감소한다.


“난 많은 이상한 사람들이 아마존 리뷰에 많은 영향을 준다는 걸 알고 있다. 그래서 물건을 살 때 별점을 2점이나 3점을 받은 물건도 살 때가 있고, 그것에 만족해왔다.”


사용자의 성격, 기분, 환경, 요구사항의 긴급함, 최종 만족감(추상적인 가치)와 인플루언서, 사용자와의 근접성, 이 모든 요소는 사용자가 어떤 것을 평가하는 방법과 밀접한 연관이 있다. 조사 결과 중 다른 주목할 만한 것은, 모바일에서 앱을 평가하는 것이 사용하기 쉽기 때문에 더 수월하게 평가를 한다. 74%가 다른 디바이스보다 모바일을 더 선호한다.


일부 사용자들은 앱이나 관련 서비스에 리뷰를 쓰는 것이 강요될 땐 평가를 하지 않는다.

7.평가 시스템을 없앨 것인가? 


블랙미러는 에피소드 중 하나인 추락 Nosedive (S03E01)에서 디지털 시대에 출현된 평가 시스템의 심리를 반영하려고 했다. 이 풍자적인 에피소드에서는, 사용자가 온라인과 실제 사람 사이에서 하는 모든 상호작용을 5점 만점의 별점으로 평가한다. 


사회적 지위에서부터 특정 서비스를 접하는 것, 취업 능력까지 모든 것이 개인의 현재 평점이 몇 점인지를 나타내는 지수였다. 


블랙미러 - 추락

우린 이미 스스로 비평 세대와 (거의 돈을 받지 않는) 매니저로 변했다. 레스토랑에서 직원의 모든 움직임을 관찰하고, 스푼이 테이블 위에 놓여질 때 나는 소리의 질을 측정하고, 요리를 선택한 것을 받을 때 얼마나 공손한지 보고, 예리하게 메모를 하고, 정신적으로 알고리즘을 돌려 생각해보고, 다음 프로젝트로 간다. 



디지털 제품 사용이 최고조에 달하고, 사용자 경험과 게이미피케이션 개념이 심리학을 지배함에 따라, 등급 시스템으로 점수를 줄 수 밖에 없다. 이것을 통해 평점을 주는 것이 왜 작동하고, 왜 일어나는지에 대해 인사이트를 얻었길 바란다. 


모바일 앱이나, 웹 플랫폼의 UX를 개선하고, 사용자의 참여를 높이는데도 도움이 되었길 바란다. 

이 글은 원래 Sparklin.com의 CEO이자 chief design evangelist인 Himanshu Khanna가 쓴 것이다. 이 이야기가 마음에 들거나 UX의 Sparklin, 브랜딩, 마케팅, 어떤 디자인이든 이야기 하고 싶다면 트윗하시길.




저자 : Sparklin

원문 링크: https://medium.muz.li/the-psychology-of-rating-systems-in-ux-9739c6ba6ec4

*무단 전재 및 재배포 금지(링크 공유 가능)


해외 디자인 아티클 번역 뉴스레터 '디독' 구독링크: http://bit.ly/2FNQNpv


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari