추천시스템 톺아보기
지난 3월 16일 새벽에 일어난 일이다.
여느때 처럼 모바일 브런치앱에 접속해서 브런치가 추천해 주는 글들을 둘러보고 있었다.
그런데 평소에는 잘 눈에 띄지 않던 제목의 글들이 보였다.
키워드는 바로 '이혼'
브런치가 추천해준 글들은 아래와 같다.
1) 이혼일기 6. '이혼'단어의 무게
2) 차라리 이혼하라고 조언하는 3가지 경우
3) 아이에게 어떻게 이혼을 말할까?
첫번째는 심지어 나를 위한 브런치 pick이라고 한다.
그동안 브런치의 추천시스템이 꽤나 잘 맞았던 나로서는 내 눈을 의심하지 않을 수 없었다.
이정도 되면 정말로 브런치가 나에게 차라리 이혼하라고 조언하는게 아닐까 싶다.
삼인성호(三人成虎)라고 하룻동안에 같은 시간대에 특정 주제에 대해서 이렇게 까지
여러차례 추천을 받고나니 내가 이혼을 앞두고 있는 사람인가? 라는 착각이 들 정도였다.
그런데 이혼이란 나에게는 너무 먼 이야기다.
안타깝게도 아직 결혼이라는 제도의 근처에도 가지 못한 사람이니 말이다.
혹시 인구통계학적으로 나와 비슷한 연령대의 이혼율이 가장 높은가 하고 궁금해서 찾아보니
통계청의 보도자료에 의하면 연령별 이혼율은 남녀 모두 40대에서 가장 높게 나타났다고 한다.
이런 전통적인 Segmentation & Targeting관점에서도 이혼은 나와 크게 연관이 없는 주제다.
그렇다면 내가 평소에 읽었던 글들이 이혼이란 주제와 관련이 있었던 것은 아닐까?
위의 화면은 지난 3월 15일과 3월 16일에 브런치에서 읽은 글들의 일부이다.
위의 사진이 내가 읽는 모든 브런치 취향을 대변하지는 못하지만,
지금 다시 살펴보더라도 '이혼'에 관련된 글은 눈씻고 찾아봐도 보이질 않는다.
그리고 평소 나는 브런치로부터 좀 더 나의 취향에 맞는 글들을 추천받기 위해서
좋아하는 글이 있으면 적극적으로 좋아요를 누르고 표현하는 편이다.
그동안 읽은 글들 중에서 좋아요를 누른 글들은 대개 경제, 브런치자체에 관한글(최근 브런치에 브런치 관한 글 100개 쓰기 프로젝트를 하다보니 자주 읽고 있는 주제다) , 90년대생의 사회생활, 자기 계발 등등에 관한 것들이다. 물론 좋아요를 누른 글들이 모두 이 주제들로 한정되는 것만은 아니다.
공감각적 표현, 낯선 표현의 문장들을 담은 글, 특히 처연한 표현력을 담은 글도 좋아한다.
이렇게 나는 나름 브런치에게 나만의 기준에 대해서 힌트를 주었는데
때아닌 주제로 당혹스러움을 안겨준 것이다.
그렇다면 나는 앞서 추천 받았던 3편의 글을 읽었을까?
대답은 예상가능하다시피 '아니오'다.
왜냐면 나의 취향이 전혀 아니기 때문이다.
한마디로 말해 브런치의 추천시스템은 완전히 실패한 것이다.
적어도 이 날의 추천에 관해서는 말이다.
브런치가 나에 대해서 알고 있는 정보는 어디까지이며,
알지 못하는 부분은 또 어떤것들이길래 이런 결과가 나온 것일까?
카카오정책사업 연구팀에서 작성한 글을 보면
추천할만한 글을 찾은 타겟팅 조건은 크게 3가지라고 한다.
1. 글의 정보로 예측된 CTR이 높은 글
2. UX 편향 없는 인기글
3. 통계분석에 의해 추천할만한 글
아마도 2. UX 편향없는 인기글에 해당한 것이 아닐까 하는 추측을 해본다.
브런치의 추천 시스템에 대해서 자세히 알고 싶다면 아래의 글을 참고해 주시기 바란다.
https://brunch.co.kr/@kakao-it/333
요즘 학교에 와서 배우고 있는것들이 데이터 분석과 마케팅, 소셜네트워크 분석 등에
관한 것들이다 보니 추천시스템에 대해서 간단하게 살펴 보려고 한다.
바야흐로 우리는 Digital Transformation 시대에 살고 있다고 한다. 매일 매일 쏟아지는 엄청난 양의 데이터들을 활용해서 기업들은 좀더 정확한 고객 타케팅을 하고 수익을 창출할 수 있는 환경이 만들어진 것이다.
최근 인기를 끌고 있는 아마존, 유튜브, 넷플릭스, 왓챠등의 성공의 비결에도 바로 이 추천시스템이 있었다.
그렇다면 추천시스템이란 무엇일까?
추천 시스템
정보 필터링을 사용하여 사용자에게 흥미로운 정보 아이템을 제공하는 시스템. 정보 시스템은 사용자에게 개인 신상, 관심 분야, 선호도 등을 질의하여 사용자의 정보 프로파일을 획득하는 기법으로, 추천 시스템은 이러한 정보를 기반으로 고객의 심리 정보와 선호도 정보에 알맞은 정보 및 상품을 추천하거나 제공하는 방법이다. 영화, 음악, 뉴스, 책, 연구 주제, 탐색 질의, 상품 등 검색에 적용될 수 있다.
[네이버 지식백과] 추천 시스템 [recommendation systems, 推薦-] (IT용어사전, 한국정보통신기술협회)
쉽게 말해서 고객에게 어떤 물건을 구매한 고객에게 다른 물건을 추가로 추천해주는 기법을 말한다.
이 추천시스템에는 크게 2가지가 존재한다.
컨텐츠 베이스 추천은 고객이 구매한 물건을 기반으로 만들어지는 추천시스템이다.
예를 들어서 내가 코카콜라를 구매했다고 하면 이와 유사한 펩시 콜라도 추천해 주는 것이다.
이때 내가 이미 구매하지 않은 물건을 추천해 주는 것이 중요하다.
이 컨텐츠 베이스 추천에 따르면 내가 탄산 음료의 일종인 코카콜라를 구매 했으니 '탄산음료'라는 카테고리에 대해서 수요가 있다는 것을 알 수 있고, 코카콜라와 유사한 펩시콜라를 추천해주면 구매할 가능성이 높을것이라는 것이다. 이 방법은 어느정도 유효성을 갖고 있기는 할 거이다. 코카콜라는 구매한 사람에게 뜬금없이 페인트를 추천하는것보다야 같은 카테고리가 구매 의향이 더 있을테니까 말이다. 책이나 음악, 영화같은 경우엔 하나의 취향이 형성되는 분야기 때문에 이러한 추천 시스템이 유효할 것이다.
그런데 이 컨텐츠 베이스 추천의 맹점은 바로 제품의 유사성이 문제이기도 하다.
앞서 언급한 예에서 처럼 코카콜라를 구매한 사람에게 펩시콜라를 추천해주면 고객은 두 가지 제품을 모두 구매할 가능성 보다는 고민을 할 것이다. 코카콜라를 살 것인가, 펩시콜라를 살 것인가? 바로 경쟁이 발생하는 시점이다. 두 제품은 보완재가 아닌 대체재 관계이기 때문이다.
그리고 또 다른 예시가 있다. 의류의 경우 내가 이미 구매한 옷과 비슷한 것을 추가로 구매하고 싶지 않을 가능성이 더 크기 때문이다. 물론 마크 저크버그나 스티브 잡스처럼 한가지 스타일을 고수하는 사람들에게는 더할 나위없이 완벽한 추천시스템이겠지만, 어제와 같은 옷을 입고 등교 또는 출근한것 아니냐는 오해를 받고 싶지 않은 사람이라면 자신의 취향의 범위 내에서 variation을 하는것을 좋아할 것이다.
협업필터링 방법은 개별 고객 한 사람의 구매 패턴만을 파악하는 것이 아닌 고객과 유사한 선호도를 가진 사람과 비교하여 제품을 추천해 주는 방법이다. 이 방법은 컨텐츠 추천 시스템 알고리즘 가치가 1 billion 달러에 육박한다는 넷플릭스에서도 활용되고 있는 기법이다. 예를 들어서 A라는 사람이 피자와 샐러드 그리고 콜라를 구매 했고 이와 유사하게 B라는 사람이 피자와 샐러드를 구매한 경우 추가로 콜라 구매를 유도 하는 것이다. 협업 필터링에서 고객간의 유사도를 측정하는 방법으로는 Pearson Correlation(피어슨상관계수)를 활용한다. 이러한 협업필터링 기법은 content base 기법보다 성능이 좋은편이라고 알려져 있다. 기존 항목 간의 유사성을 단순하게 비교하는 것이 아니라 자료 안에 내재 된 패턴을 이용하기 때문이라고 한다. (한국콘텐츠 진흥원,콘텐츠추천알고리즘의 진화 참고)
https://help.netflix.com/ko/node/100639
최근에는 contents base와 collaborative filtering 두가지 기법을 혼합한 하이브리드 형태가 많이 사용되고 있다고 한다.
지난해에는 카카오 아레나를 통해서 '브런치 사용자를 위한 글 추천 대회'를 실시했던 것으로 알고 있다. brunch의 데이터를 활용하여 사용자의 취향에 맞는 글을 예측하는 대회로, 양질의 콘텐츠가 늘어날 수록 손쉽게 나에게 맞는 콘텐츠를 추천 받길 원하는 사용자의 needs를 충족시키기 위한 분석 대회였던 것이다.
카카오 브런치 팀에서는 이처럼 독자에게 더 좋은 글을 추천하는 시스템을 개선하기 위해 많은 노력을 하고 있는 것으로 보인다.