별점은 영국의 여행작가 마리아나 스타크(Mariana Starke)가 1820년 발간한 <유럽대륙 여행가이드>에서 여행지를 평가하는데 처음 사용되었습니다. 이후 1926년 타이어 회사인 미쉐린이 맛집 정보를 담은 <레드 가이드>에 별점을 사용하기 시작하면서 별점의 존재가 대중들에게 알려졌습니다.
100년이 넘는 시간 동안 별점은 제품이나 서비스에 대한 평가와 이용여부판단에 도움을 줄 수 있는 보조지표로 활용되었습니다. 인터넷과 온라인 플랫폼의 발달로 별점과 리뷰의 신뢰도가 높아졌고 이는 별점의 영향도를 점점 키우는 계기가 되었고요.
오랫동안 우리 생활에 깊숙이 자리 잡은 별점. 하지만 별점의 중요성이 증가함에 따라 각종 부작용이 발생하기 시작합니다.
조작된 별점으로 시장의 신뢰를 얻으려는 생산자.
별점의 권력을 이용해 을질을 하는 소비자.
별점, 무엇이 문제이고
어떻게 해결할 수 있을까요?
평식이형의 4점과 나의 4점
여기 두명의 사람이 있습니다.
오랫동안 영등위 전문위원으로 활동한 바 있으며 평론계의 다크히어로라 불리는 평식이형
한때 네이버 블로그에 영화평론글을 쓴적이 있으며 한달에 한두편 정도 영화를 보는 서점군
우선 먼저 비전문가인 서점군의 별점 집계 방식을 살펴볼까요?
- 스토리텔링이 좋은가? - 영화에 담긴 메시지가 훌륭한가? - 재미가 있는가?
서점군이 3가지 기준으로 별점을 매깁니다. 3개 기준을 모두 만족하는 경우 5점
2개 기준을 만족하는 경우 4~4.5점을 줍니다.
1가지 기준도 만족하지 못하는 영화는 평가 자체를 하지 않습니다.
서점군은 검지손가락 염좌를 앓고 있거든요.
기준에 미달되는 영화까지 일일이 평가하기엔 제 손가락이 너무 아픕니다.
이제 전문가인 평식이형의 평점 산출 방식을 살펴봅시다.
평식이형은 영화평론을 하면서 한번도 별 5개를 준 적이 없습니다. 평식이형 자체 기준으로 최고점인 4.5점을 준 영화도 9개에 불과하죠. 평식이형이 별 4개를 준 영화는 명작 보증 딱지가 붙는 영화입니다. 그만큼 평식이 형의 별점은 짜기로 유명합니다.
- 4.5점 : 우주 대명작 - 4점 : 대명작 - 3.5점 : 명작 - 3점 : 대작
자 이제 동일한 영화에 대해 박평식 영화평론가와 서점군은 어떤 점수를 줬는지 비교해볼까요.
캐치 미 이프 유 캔 (2000)
- 박평식 평론가 3점
- 서점군 4.5점
기묘한 이야기 (2000)
- 박평식 평론가 2.5점
- 서점군 4점
8마일 (2002)
- 박평식 평론가 3점 - 서점군 5점
이집트왕자 (1998)
- 박평식 평론가 4.5점 - 서점군 3점
박평식 평론가님의 평점이 다른 평론가들에 비해 1점 정도 낮다는 것을 감안하면 두 사람의 평점이 근사치에 가까운 경우도 있지만 기묘한 이야기나 8마일처럼 큰 차이를 보이는 경우도 있습니다. 서점군은 스토리텔링에 높은 점수를 주는 편이지만 평식이형은 종합적인 만듦새를 기준으로 점수를 부여하니까요.
이렇듯 사람마다 별점의 기준은 상대적입니다. 재미에 높은 가산점을 부여하는 사람도 있고 스토리텔링에 높은 가치를 부여하는 사람, 내가 영화에 나온 특정 인물의 팬이라 높은 점수를 주는 사람 등 사람마다 평가 기준은 제각각입니다.
별점은 객관적인 작품의 완성도를 표현하는 바로미터가 아니라 다양한 사람의 주관적인 의견이나 만족도를 취합한 통계자료에 가깝습니다. 명확한 기준점이 없고 사람마다 그 기준점이 다르기 때문에 생기는 문제죠.
클레멘타인과 82년생 김지영
별점이 개개인의 의견이나 만족도를 취합한 통계자료라면 별점 하나하나의 공신력은 떨어질 수 있지만 모집단 수가 많아지면 많아질수록 수치가 평균에 수렴하게 됩니다. 5000명이 평가한 영화에서 100명이 낮은 점수를 줬다고 해도 나머지 4900명이 4점을 주면 영화의 별점은 4점에 수렴하는 것처럼요.
별점이 개개인의 주관적인 의견을 담은 데이터이면서도 오랫동안 생명력을 유지할 수 있었던 이유. 바로 이 통계학적인 특성 때문입니다. 참여자가 많아지면 많아질수록 개개인의 주관적인 의견이 모여 의미있는 객관적인 데이터가 되고 그때부터 별점은 공신력을 갖게 됩니다. 그런데 주관적인 의견의 집합체인 별점이 공신력을 가지게 된 순간부터 문제가 발생합니다.
그 공신력을 이용해 이득을 취하려는 집단,
자기 의견을 표출하는데 공신력을 이용하는 집단,
그냥 단순히 재미로 별점을 조작하는 다수의 군중 등
별점의 공신력을 이용하는 집단이 등장하기 시작합니다.
우주대명작 클레멘타인의 네이버 영화 평점
스티븐 시걸이 출연한 것으로 잘 알려진 영화 클레멘타인(2004)은 네이버 영화에서 9.37의 높은 평점을 받고 있습니다. 레옹, 쉰들러 리스트가 9.37인것을 생각해보면 클레멘타인은 한국영화사 열손가락안에 꼽힐 만한 우주대명작인것처럼 보입니다...만 사실 많은 분들이 아시는 것처럼 이 영화는 로튼토마토 관객점수 26%에 빛나는 우주대망작입니다. 누리꾼들이 고의적으로 평점을 높여 명작처럼 포장해 안 본 사람들을 낚는 일종의 밈과 같은 놀이문화 때문에 벌어진 일이죠.
공유, 정유미 주연의 영화 82년생 김지영(2019)은 집단의견 표출 도구로 별점이 사용된 좋은 예입니다. 영화의 만듦새와는 별개로 페미니즘 문제로 남녀가 치열하게 대립하며 별점 테러를 하기도 하고 의도적으로 별점을 높이기도 합니다. 최근 남녀 대립구도가 격화되면서 이러한 현상은 비단 영화뿐만 아니라 웹툰, 웹소설 등 전방위적으로 벌어지고 있습니다. 콘텐츠 업계에서 별점은 순기능은 잃어버리고 공격과 혐오의 수단으로 변질된지 오래입니다.
별점이 취향을 대변할 수 있을까?
이터널 선샤인 스틸컷
2005년, 지인의 추천으로 보게 된 이터널 선샤인(2004).
20대 초반 꼬꼬마의 눈에 이터널 선샤인은 뒤죽박죽인 스토리에 무슨 내용을 말하고 싶은건지 이게 왜 명작인지 알 수 없는 그런 영화였습니다.
10년 후인 2015년, 재개봉으로 다시 보게 된 이터널 선샤인은
처음 봤을 때와는 180도 다른 느낌의 영화였습니다. 몇번의 이별을 경험하면서 이 영화가 주고자 했던 진정한 메세지를 그제야 이해하게 되었다고 할까요.
똑같은 사람이 똑같은 영화를 봤는데 왜 평가가 극단적으로 엇갈리는걸까.
가슴아픈 이별을 경험해보지 못했던 20대
몇번의 이별을 경험하면서 성숙해진 30대
같은 콘텐츠라도 느끼는 감정이 각자가 처한 상황, 시점, 경험, 취향에 따라 달라질 수 있기 때문입니다.
누군가에게 이터널 선샤인은 뒤죽박죽 복잡하고 알 수 없는 영화일 수 있고
500일의 썸머는 어장녀에게 당한 남자의 연애 이야기일 수도 있습니다.
반면 다른 누군가에게 이터널 선샤인은 괴로운 사랑의 기억을 지우고 싶지만 아름다운 추억을 지우고 싶지 않은 양가감정을 잘 표현해낸 영화일수도 있고
500일의 썸머는 사랑을 표현하는데 어리숙했던 어떤 청년의 이야기를 통해 어리숙했던 과거의 자신을 되돌아보게 되는 그런 영화였을지도 모릅니다.
사람마다 영화를 통해 얻고자 하는 바가 다르고 느끼는 감정이 다릅니다.
각자 취향도 다르죠.
높은 별점을 받은 영화를 봤는데 나에게는 재미없었던 기억.
별점이 취향을 대변하거나 보정할 수 없기 때문에 발생하는 문제입니다.
권력화 되어 버린 별점의 현재
별점이 영향력을 갖고 권력화되어버린 현재. 별점으로 인해 큰 내홍을 겪고 있는 업계가 있습니다. 바로 배달앱 시장이죠.
리뷰를 남길 시 리워드를 제공하는 커머스 업계와 달리 배달앱 시장에서는 평가자에게 별도의 리워드를 제공하지 않습니다. 평가를 남기는 사람이 소수에 불과하고 주문자들은 평가가 높은 매장에 주문이 몰리는 쏠림현상이 반복됩니다. 높고 많은 평점을 보유하기 위해 매장마다 경쟁적으로 리뷰 이벤트를 진행하고 평점이 상향평준화되어 변별력이 사라지게 됩니다. 여기서 소비자들의 갑질이 시작됩니다. 누적 리뷰수가 적다면 낮은 평점 하나가 전체 평점에 큰 영향을 미칠 수 있거든요.
별점을 인질로 주문 요청사항에 사장님을 협박하거나그냥 기분이 안좋아서, 자기 마음에 안들어서 낮은 점수를 주거나 5점 만점에 너무 마음에 들어서 6점인데 6점이 없으니 1점을 주겠다는 괴상한 컨셉의 빌런들이 등장하기 시작합니다.
경쟁적인 리뷰 이벤트로 별점의 신뢰도를 저하시킨 사장님들의 탓일까요?
소수의 악한 빌런들이 벌이는 인간성의 문제일까요?
혹시 시스템적인 문제는 아닐까요?
별점, 어떻게 바꿀 수 있을까? - OTT
넷플릭스와 유튜브 등 OTT 업계는 별점이 가진 폐해를 가장 빠르게 캐치했으며 또한 가장 빠르게 개선방안을 찾았던 그룹이었습니다.
유튜브와 넷플릭스는 처음부터 개인화 알고리즘이 있던거 아니냐고요?
아니요. 유튜브와 넷플릭스도 별점이 있던 시절이 있었습니다.
별점이 존재하던 시절의 유튜브 (2009년)
별점이 존재하던 시절의 넷플릭스 (2016년)
별점이 있던 시절. 유튜브와 넷플릭스가 겪었던 문제도 지금 별점이 가진 문제와 비슷했습니다. 콘텐츠가 너무 좋거나 너무 싫거나 하는 사람들만 평가를 하다보니 5점 or 1점으로 양극단을 달리게 됩니다. 이에 대한 유튜브와 넷플릭스의 해결방법은 간단했습니다. 별점을 없애고 [좋아요]와 [싫어요] 버튼만 두는거죠. 어차피 사람들의 평가는 좋거나 싫거나 둘중 하나니까요. 유튜브는 2009년, 넷플릭스는 2017년 별점제도를 폐지하고 좋아요로 변경하는 업데이트를 단행합니다.
별점을 없애면 콘텐츠 추천은? 그건 개인화 알고리즘을 고도화하면 됩니다. 사용자 활동을 기반으로 개인화 알고리즘을 고도화하면 별점의 공신력이 아닌 개인의 취향을 타겟팅하는 것이 가능해집니다. 별점의 문제점 중 하나였던 취향 문제를 개인화 알고리즘으로 해결할 수 있는거죠.
다른 업계에서도 좋아요와 개인화 알고리즘으로 별점을 대체할 순 없을까? 좋아요는 업계에 따라 충분히 적용해볼 수 있지만 개인화 알고리즘은 OTT 서비스만 가능한 시스템입니다. OTT 서비스가 로그인 기반이고 유저 체류시간이 길어 개인화와 관련된 충분한 데이터를 확보할 수 있기 때문이죠.
별점, 어떻게 바꿀 수 있을까? - 영화
별점은 오랫동안 영화평가의 지표로 널리 활용되었지만 최근 신뢰도가 급격히 추락했습니다. 개개인의 평가 기준이 다르고 5점척도 기준으로 긍정적일 경우 5점, 부정적일 경우 1점, 양극단이 극명하게 갈리는 쏠림현상이 일어나면서 세분화된 평가지표의 의미가 사라졌기 때문입니다.
점수 방식 영화 평점의 신뢰도에 대한 의문이 끊임없지 제기되자 미국의 영화 평가 사이트인 로튼 토마토는 색다른 시도를 하게 됩니다. 점수식 평점이 아닌 [좋아요]와 [싫어요]. 두가지 기준으로 영화를 평가하기로 한거죠.
로튼토마토는 평론가들의 평가합산인 토마토미터(네이버 영화의 평론가 평점같은 형식)과 관람객들의 평가를 합산한 관람객 평점 2가지로 나뉩니다.
토마토지수는 과거 공연이 재미가 없으면 관객들이 야채, 과일 등 주위에 손에 잡히는 것들을 마구 던졌다는 것에서 유래됩니다. 노잼이면 관객들이 토마토를 던졌으니 토마토가 터진거고 재밌으면 관객들이 토마토를 안던졌으니 토마토가 신선함을 유지한다는 거죠. 로튼토마토의 독창적인 평가시스템은 이용자들에게 큰 반향을 얻어 오늘날 로튼토마토가 대표적인 영화평론 사이트가 되는데 중추적인 역할을 담당했습니다.
최근 개봉한 샹치의 토마토 점수
물론 로튼토마토의 좋아요, 싫어요 평가가 장점만 있는것은 아닙니다.
영화를 단순히 좋아요와 싫어요 이분법적으로만 평가할 수 있다는 게 이 평가방식의 한계죠.
스토리는 좋았는데 연기가 발연기였다
연기력은 쩔었는데 스토리텔링이 너무 엉망이다
재밌다고 하기도 뭐하고 그렇다고 엄청 노잼이라고 하기에도 뭐하다???
심플하고 직관적으로 평가를 단순화했다는데만 의의가 있을 뿐 로튼토마토의 평가 방식도 결국은 개개인의 섬세한 취향을 시각적으로 표현하기 어렵다는 구조적 한계를 가지고 있습니다.
개인의 취향을 표현할 수 있는 다른 방식은 없을까요?
멀지 않은곳에 개인의 취향을 시각화하여 고객에게 제공하려고 시도한 곳이 있습니다.
바로 멀티플렉스 영화관 체인을 운영하고 있는 CGV입니다. 2016년 CGV는 기존 별점을 대체하는 에그지수라는 평가 시스템을 도입합니다.
에그지수는 실제 관람객이 영화를 본 후 평가를 근거로 [에그지수]를 산출합니다.
[좋았어요]가 85% 이상이면 그레이트 에그
70~84%면 굿 에그
70% 이하이면 프라이드 에그
여기까지만 보면 로튼토마토와 큰 차이가 없어 보입니다. 하지만 에그지수는 한발 더 나가 관람객이 [좋았어요]를 선택 시 매력, 감정 포인트 2가지 항목의 세분화된 질의를 펼치는 2차 평가를 진행합니다.
최근 개봉한 상치의 CGV 에그지수
골든에그 지수는 실관람객의 평가를 취합한 지수이기 때문에 정확도와 신뢰도가 높은 편입니다. 로튼토마토처럼 좋아요, 싫어요의 이분법적인 평가방식의 한계도 존재하지만 매력과 감정 포인트라는 세분화된 평가방식을 추가하여 기존 방식의 한계점을 어느정도 극복하려고 했다는 점도 눈에 띄는 부분이죠. 물론 그렇다고 해도 완벽한 평가에는 여전히 한계가 있고 이를 어떻게 극복해야 할지가 CGV를 비롯한 많은 영화평가 사이트에 남겨진 숙제겠지만요.
메가박스나 롯데시네마는 왜 아직도 문제가 많은 평점평가 방식을 고수하고 있는걸까?
에그지수와 같은 시스템을 도입할 순 없을까?
에그지수와 같은 실관람객 평가시스템을 운영하기 위해서는 두가지 조건이 필요합니다.
1. 높은 시장점유율
2. 이용자 참여도를 이끌어낼 수 있는 리워드
평가는 데이터가 많으면 많을수록 정확도가 올라갑니다. 우리 영화관에서 영화를 보는 사람이 많아야 영화를 평가하는 참여자 수도 많아질테니까요. CGV는 독과점 논란이 있을 정도로 높은 시장점유율(약 50% 가량)을 보유하고 있습니다. 20% 남짓인 롯데시네마나 메가박스와 비교해보면 참여하는 관람객의 규모부터 차이가날수밖에 없죠.
CGV는 영화에 대한 평가를 완료하면 관람객에게 CJ ONE 포인트 50점을 증정합니다. 롯데야 계열사 멤버십인 L포인트가 있으니 평가자에게 리워드를 주는 게 가능하지만 메가박스는 사용처가 메가박스밖에 없는 메가박스 포인트밖에 줄게 없죠. 리워드 측면에서도 범용성에 한계가 존재하는 겁니다.
에그지수는 높은 시장점유율과 그룹계열사에서 사용이 가능한 범용적인 포인트 시스템을 갖춘 CGV만 가능한 제도입니다. 롯데시네마도 가능하긴 하지만 어설프게 시도했다가 실패하면 뒷감당이 안되니 섣불리 시도하기가 어려웠을 겁니다.(애초에 할 생각이 있는지 의문이지만...) CGV의 에그지수는 타 멀티플렉스 체인이나 네이버같은 영화평가 사이트들에 비해 높은 신뢰도를 가지고 있습니다. 에그지수자체가 브랜드화되어 CGV 신뢰도를 높이고 CGV를 찾게 되는 선순환 효과를 만들어내고 있는 겁니다.
별점, 어떻게 바꿀 수 있을까? - 음식배달
음식배달앱은 평점으로 인한 부작용과 폐해를 가장 극단적으로 보여주는 업종입니다.
음식점들이 평점을 높이기 위해 리뷰 이벤트를 진행하고 이용자들이 별점을 볼모로 인질극을 벌이기도 하면서 평점에 대한 신뢰도가 바닥까지 추락했습니다. 사장님들과 이용자의 책임도 있겠지만 결국은 이지경이 될때까지 사태를 방관한 플랫폼의 책임이 가장 큽니다.
최근 배달앱 실태조사에 따르면, 리뷰나 별점이 매출에 영향을 미친다고 답한 업주는 74%가 넘었다. '별점 테러'나 악성 댓글을 경험한 비율도 63%에 달했다. 경쟁이 치열하다 보니 평가를 조작하는 일도 있고, 가짜 손님을 동원해 별점과 리뷰를 좋게 달아주는 업체들도 등장했다.
추락해버린 평점 시스템의 신뢰를 회복하는건 결국 시스템적인 해결방법밖에 없습니다.
매장의 평가 지표를 단순히 평점에 국한시키지 않고 세분화해 다양한 방법으로 이용자에게 제공하는거죠.
그렇다면 다른 서비스들은 다양한 지표를 어떻게 제공하고 있을까요?
악플로 많은 사회적 논란을 낳았던 포털 뉴스는 덧글을 단 사용자들의 상세 지표를 제공합니다.
이 사람의 평소 단 덧글이나 행적을 수치로 보여주고 판단은 이용자들의 몫으로 남기는 방식입니다.
배달앱에도 이와 유사한 시스템을 도입해볼 수 있지 않을까요? 기분이 별점이 되는 일부 악성 사용자들을 견재하기 위한 도구로 이용자의 평가 행적을 공개하는 겁니다.
이용자가 준 평점의 평균점수를 공개한다거나 최근 3개월 평점 평균을 공개하는겁니다.
시스템적으로 악성리뷰를 남발하는 유저를 차단하는 방법도 있습니다.
예를 들면 최근 한달간 5개 이상의 매장에 평가를 한 별점의 평균이 2점을 넘지 않는 경우나 동일매장에서 3번이상 평가를 했는데 평균이 2점을 넘지 않은 경우 해당 별점을 매장 평가에 반영하지 않는 방식이죠.
배달과 음식 리뷰를 분리해서 평가하는 방법도 있습니다. 현행 평가시스템은 배달과 음식을 평가를 통합으로 적용하고 있는데 좋은 음식이라도 배달문제로 낮은 평점을 주는 사례가 존재하니까요. 배달원의 문제까지 식당이 책임져야 하는 현행 시스템은 식당에게 너무 가혹합니다.
배민장부의 신규주문 / 재주문 데이터
소비자의 주관적 평가말고 객관적 지표를 활용해보는건 어떨까요?
많은 분들이 거론하시는 재주문율을 활용하는 겁니다.
별점을 단 고객이 몇 번째 이곳에서 주문을 하였는지 또는 별점 옆에 재주문율을 표기해주는 겁니다. 최근 3개월 이내 재주문율 몇%, 이곳에서 가장 많이 시킨 손님은 몇번을 시켰는지 같은 지표 말이죠. 이미 배민장부같은 서비스에서 카드 매출전표 데이터를 취합해 재주문율 데이터를 표시해주고 있습니다. 플랫폼은 고객이 주문여부를 결정할 수 있게끔 다양한 데이터를 종합하여 제공해주기만 하면 됩니다.
별점의 미래
코로나로 인해 온라인 전환이 가속화되고 있습니다.
우리에게 익숙한 많은 서비스들이 주무대를 오프라인에서 온라인으로 옮겨오고 있고 하루가 다르게 새로운 서비스가 등장하고 또 사라져 갑니다. 서비스의 유형은 더 다양해지고 복잡해집니다.
물건을 직접 확인해보거나 서비스를 경험해볼 수 없는 온라인 구매의 특성상 이용자들의 별점 의존도는 더 높아지고 있습니다. 별점의 중요성은 점점 커져가고 있는데 평가 시스템은 아직도 100년전 별점이 처음 생겼던 1920년대 시절에 머물러 있습니다.
별점이라는 획일화된 평가방식 말고 플랫폼마다 서비스의 특성과 고객유형을 고려한 새로운 평가방식이 필요합니다. 주관적인 데이터 말고 객관적인 지표를 이용자에게 제공할 수 있어야 합니다. 플랫폼 업체들은 익명성 뒤에 숨어 소비자의 평가라는 미명하에 가게들의 목줄을 조이는 속칭 을질을 더 이상 방관해서는 안됩니다.