맞춤형 콘텐츠 추천 기술의 현실과 한계
국내는 물론 글로벌 미디어 업계에 '개인화'의 중요성을 환기시킨 장본인은 중국의 '진르토우티아오(진토)'가 아닐까 싶습니다. 창업 5년만에 기업가치 20조원을 달성한 이 전설적인 플랫폼이 전면에 앞세운 것이 '개인화' 였으니까요. 국내에서는 네이버, 해외에서는 구글 페이스북을 좀처럼 극복하지 못했던 언론들과 플랫폼들은 개인화를 미디어 혁신의 '키'로 믿기 시작했습니다.
굳이 진토가 아니더라도 개인화 기술은 콘텐츠를 소비하는 사람에게는 뭔가 매력적으로 들립니다. 세상에는 나와 상관없는 수 많은 정보들이 있는데, 그 중에 내가 원하는 것만 딱딱 골라서 보내준다면 얼마나 좋을까요. 미술품을 골라주는 것과 마찬가지로 큐레이션을 해 주는 것이지요.
그러나 글로벌 미디어 시장에서 진토(와 중국의 비슷한 컨셉 미디어들)를 제외하고 개인화로 '대성'을 거뒀다는 사례는 아직 나오지 않고 있습니다. (쿼츠, 업데이 등이 일정한 성과를 거두고는 있습니다만) 뭐가 문제일까요? 개인적으로 느낀 개인화의 허와 실을 정리해 보겠습니다.
기술
콘텐츠 개인화란 기술적으로 어떻게 이뤄지는 것일까요. 많은 플랫폼들이 '머신러닝', '인공지능'을 내세웁니다. 근데 정말 기계(machine)가 학습(learning)하고 인간 지능 못지 않은 인공 지능이 내가 좋아할만한 콘텐츠를 막 골라주는 걸까요. 꼭 그렇진 않습니다. 저도 '문송'한 사람입니다만, 일단 아는 범위 내에서 적어보겠습니다. 물론 회사마다 콘텐츠 개인화 기술도 각각 다르겠습니다만, 제가 알기로는 기본적인 로직인 아래에 적은 것에서 크게 벗어나지 않습니다.
기본 로직은 크게 둘입니다. 1. 키워드 분석 , 2. Peer Group 분석. 이 둘을 통해 콘텐츠를 추천하는 것을 '콜라보레이티브 필터링(Collaborative Filtering, CF)'이라고 어렵게 말합니다.
1. '키워드 분석'에 대해 먼저 설명해 보겠습니다.
간단합니다. 내가 어떤 기사를 읽었다 칩시다. 그 안에는 여러 단어들이 들어가 있죠. 그 중에서 콘텐츠의 핵심이 되는 단어가 있을 겁니다. 예를 들어 BTS 관련 기사를 읽었으면, 핵심 키워드는 BTS 겠죠. 콘텐츠 추출 방법에는 여러가지가 있습니다. 가장 많이 등장한 단어, 가장 긴 단어, 리드 문장에 있는 단어 등등. 키워드 추출은 각 사가 노하우가 있을 겁니다. 특히 검색 업체들이 이에 대한 노하우가 깊지요.
여튼 몇 개의 키워드가 추출됐다 합시다. 그러면 다음에도 이 키워드가 들어간 기사를 골라주는 겁니다. 내가 오늘 BTS 관련 기사를 읽었으면 내일도 BTS 관련 기사를 추천해주는 것이죠. 키워드 추출이라는 어렵지 않은 기술로 개인별 콘텐츠 추천이 가능합니다.
그러면 2. 'Peer Group' 분석은 뭘까요?
키워드 추출 방식으로만 콘텐츠 추천을 하면 콘텐츠 추천의 범위가 매우 좁아질 수 있겠죠? 허구헌날 BTS 기사만 보면 아무리 팬이라도 지겨울 테니까요. (물론 콘텐츠 추출 방식으로도 추천의 범위를 좀 더 넓힐 수 있는 다양한 '트릭'이 있습니다.) 그래서 이를 보완하는 게 Peer Group 분석입니다.
쉽게 말하면 이런 식입니다. 한 사람이 하루 평균 10개의 기사를 본다 칩시다. 내가 a b c d e f g h i j 라는 기사를 봤고, 당신이 f g h i j k l m n o 라는 기사를 봤습니다. 우리 사이에는 f g h i j 라는 교집합이 있죠. 그러면 대충 우리는 취향이 50% 정도는 비슷한 사람이라고 말할 수 있는 겁니다. 다시 그러면 당신이 좋아한 콘텐츠는 나도 좋아할 가능성이 있다고 생각하는 겁니다.
쉽게 말해 "나랑 비슷한 사람이 좋아하는, 하지만 내가 좋아하지는 않는 콘텐츠"를 추천하는 것이지요. 물론 이런 단순 로직은 아니고 꽤나 복잡한 산식이 들어갑니다만(피어슨 상관계수라나 뭐라나) 본질은 여기서 벗어나지 않는 듯 합니다.
자, 내가 본 것에 연관해 추천도 해 주고 다른 사람의 콘텐츠 소비 패턴도 분석해 추천해 준다. 여기에 네이버와 같은 포털들은 각 사람이 활동하고 있는 카페 등의 데이터도 더하죠. 기가 막힌 콘텐츠 추천이 될 것 같은데, 결과는 그렇지 않습니다. 아니, 결과적으로 추천은 잘 되는데 이걸 소비자가 만족하지 못합니다. 왜 그럴까요.
필터버블, 개인화가 초래하는 '개인화 개미지옥'
자, 일단 키워드 분석 방식의 문제점부터 살펴봅시다. 예상하기 쉽습니다. 오늘 BTS 기사를 보면 그에 맞춰 BTS 기사를 추천합니다. 그러면 또 BTS 기사에 손이 가고...무한 반복입니다. 맨날 보던 것만 보게 됩니다.
이게 어느 정도는 Peer Group 분석에도 영향을 미치게 됩니다. 나도 BTS 기사를 보고, 당신도 BTS 기사를 봤기 때문에 우리 둘은 Peer Group으로 묶입니다. 그런데 만약 나는 BTS 기사를 보고 정치 기사를 봤다 합시다. 당신은 BTS를 보고 경제 기사를 봤고요. 그럼 내게는 경제 기사가 추천되겠죠? 근데 나는 경제에 관심이 없을 수 있습니다. 상대도 정치에 관심이 없을 수 있고요. 그러면 그 기사들은 그냥 넘어가겠죠. 그러면 또 다시 BTS로 귀결되는 현상이 발생합니다. Peer Group이 내게 제대로 다양한 콘텐츠를 추천하는 로직이 되는게 아니라, 오히려 맨날 보던 것만 보게 하는 일종의 Trap이 되는 것이죠. 둘을 가장 타이트 하게 묶는 건 어차피 BTS라 그쪽으로 콘텐츠 추천이 자꾸 몰리게 되는 것이죠. 결과적으로 CF가 정교해질 수록 콘텐츠는 협소하게 추천되는 결과를 낳는 것이죠. 이는 진토는 물론 한국의 네이버가 운영하는 '디스코' 등도 모두 당면하고 있는 문제입니다.
취향
저는 여기서 한가지 문제를 더 지적해보고 싶습니다. 콘텐츠를 읽는 '취향'에 대한 문제인데요.
CF는 기본적으로 각 개인이 콘텐츠에 대한 취향이 있다는 전제를 하고 있습니다. 내가 BTS 기사를 봤다면 내가 BTS를 좋아한다고 생각하는 것이지요. 저도 취향이 있긴 있습니다. 전 개인적으로 종합격투기 팬이라 종합격투기 기사를 많이 보긴 하지요.
그런데 과연 저는 제가 종합격투기를 좋아한다고 해서 종합격투기 기사들이 나에게 추천되는 것도 좋아할까요? 더 근본적으로 사람들은 왜 뉴스가 콘텐츠를 볼까요?
자신의 관심 분야에 대한 지식을 더 깊게 하거나 해당 분야 뉴스를 보고 싶은 욕구도 있긴 있을 겁니다. 그러나 기본적으로 뭔가를 읽는다는 것은 자신이 모르는 것을 알고 싶을 때 읽는 경우가 많습니다. 더 나아가 사람들은 자신들이 뭘 모르는지도 잘 모릅니다.
그리고 좋아하는 게 특별이 없는 사람이, 특정한 관심분야를 갖고 있는 사람보다 더 많습니다. 이들은 그저 새로운 소식, 눈길 가는 콘텐츠를 보고 싶어 합니다. '새로운'과 '눈길 가는'에 대한 정의는 개개인마다 너무 달라서, 일반화 시키기가 힘듭니다. CF를 근간으로 한 콘텐츠 추천은 이같은 근본적인 질문에 대한 대답이 되지 못한다고 생각합니다.
정답은
누군가는 이런 질문을 할 수도 있겠습니다. "그러면 진토는 왜 성공했냐" 앞서 다른 글에서도 적었지만 저는 진토의 성공 요인을 개인화로 보지 않습니다. 진토의 성공 요인은 뉴스가 철저히 통제된 중국에서 수 많은, 그리고 자극적인 콘텐츠를 한데 모아서 볼 수 있게 했다는 데 있다고 봅니다. 실제로 한국에서 카카오의 '레이지', 네이버의 '디스코' 등이 진토를 거의 비슷하게 베꼈지만 이렇다 할 성과를 내지 못하고 있습니다.
그럼 개인 맞춤형 콘텐츠 추천은 무용지물이냐. 또 그렇게 생각하진 않습니다. 한계를 명확히 알고 이를 이용하면 충분히 미디어 혁신의 마중물이 될 수 있다고 봅니다. 큐레이션 미디어는 현재 포털의 한계를 극복할 수 있는 거의 유일한 대안입니다. (이에 대한 생각은 또 따로 적어 보겠습니다.)
그럼 어떻게 활용해야 할까요. 그 정답은....저도 모릅니다. 다만 아래와 같은 사례들이 효율적으로 보입니다.
1. Yes or No를 끊임없이 묻는 방법.
- 추천의 로직을 극단적으로 단순화 시키는 방법인데, 이게 의외로 유용해 보입니다. 대화형 큐레이션 앱을 운영하는 쿼츠나, 구글의 뉴스 추천 방식이 이 방법을 택하고 있습니다. 취향과 상관없이 일단 중요한, 좋은 콘텐츠를 보여주고 이에 대한 취향을 계속 묻는 것이지요. 특히 쿼츠의 앱은 다양한 정보를 눈으로 훑으면서도 내가 알고 싶은 정보는 깊게 알 수 있도록 설계돼 있습니다.
2. 알고 싶은 것과 알아야 할 것의 균형을 맞추는 법.
- 앞서 썼던 '업데이'가 취하는 방법입니다. 개인화 추천을 일부 해 주되, 필터버블의 함정을 극복하게 하기 위해 주요 이슈는 별도로 알려주는 방법이지요. 이에 대해서는 링크를 참조해 주세요.
결론
알고리즘에 의한 콘텐츠 추천은 분명 포털 중심의 뉴스 문화를 혁신하는 키가 될겁니다. 본질적으로 쓰레기 콘텐츠는 살아남을 수 없는 구조거든요. 다만 그것에만 의존해서는 살 수 없을 겁니다. 해답은 말씀드린데로 모르겠습니다. 저희는 저희 나름대로의 실험을 하고 있고, 그 1차적 결과물이 다음달에는 나올 겁니다.