brunch

매거진 AI

You can make anything
by writing

C.S.Lewis

[카카오AI리포트]카카오I 추천 엔진의 진화

성인재 | 카카오 추천기술파트

2015년 6월, 카카오는 인공지능에 의한 뉴스 서비스 체계를 모바일다음에 전면 도입했다. 국내 인터넷 업계에서는 최초의 일이었다.그리고, 올해 4월 카카오는 PC(personal computer)에도 같은 인공지능 시스템을 도입했다. 이러한 확대 적용은 지난 2년 간 확인된 인공지능 체계의 성과가 반영된 결과다. 그리고 2017년 9월, 카카오는 뉴스 서비스에서 또 다른 혁신을 시도한다. 이용자가 실제 콘텐츠를 읽은 시간을 파악하는 지표를 기존 알고리듬에 결합시킨 것이다. 새로운 변화의 등장 배경, 그리고 결합 방식에 대한 상세한 설명을 이번 글에 담았다.



[카카오 AI 리포트] Vol. 7 (2017년 9/10월 합본호 ) 는 다음 내용으로 구성되어 있습니다. 


[1] A special edition : Kakao Mini - 카카오미니의 음성인식 기술

01. 이석영 : 세상을 바꿀 변화의 시작, 음성 인터페이스와 스마트 스피커

02. 김명재 : 카카오미니는 말하는 사람을 어떻게 인식할까?


[2] industry - AI 현장의 이야기

03. 성인재 : 카카오I의 추천 엔진의 진화, 뉴스 적용 사레를 중심으로

04. 신정규 : 딥러닝과 데이터

05. 이수경 : 알파고 제로 vs 다른 알파고


[3] learning - 최신 AI 연구 흐름

06. 김형석이지민이경재 : 최신 AI 논문 3선(選)

07. 안다비 : 최신 기계학습의 연구 방향을 마주하다, ICML 2017 참관기

08. 천영재 : 2013년과 2017년의 CVPR을 비교하다


[04] exercise - 슈퍼마리오 그리고 GAN

09. 송호연 : 강화학습으로 풀어보는 슈퍼마리오 part.1

10. 유재준 : Do you know GAN? (1/2)


[05] information 

11. 국내・외 AI 컨퍼런스 소개


[카카오 AI 리포트] Vol. 7_03. 다운받기 

[카카오 AI 리포트] Vol. 7 전체글 다운받기 



카카오I의 추천 엔진 : 뉴스 적용 사례(루빅스)

루빅스 시스템의 개요

루빅스(real-time user behavior-based interactive content recommender system, RUBICS)는 2015년 6월부터 다음모바일메인 뉴스에의 적용을 시작으로, 현재는 다음모바일메인의 뉴스/연예/스포츠를 비롯한 대부분의 탭, 다음PC메인의 뉴스/연예/스포츠, 카카오톡 채널 등에 적용되어 서비스 되고 있는, AI 기반의 콘텐츠 추천 시스템이다. 루빅스의 도입으로 이용자들은 동일한 뉴스 서비스 화면에 노출되는 것이 아니라 각 이용자의 관심사에 맞는 뉴스들로 이루어진 개인화된 뉴스 서비스 화면을 소비할 수 있게 됐다.

[ 그림 1 ] 루빅스의 개요

루빅스는 2015년 6월부터 다음 모바일 메인 뉴스에 처음적용됐다. 루빅스 도입 이후, 다음 뉴스의 이용량이 증가되었을 뿐만 아니라, 제공되는 뉴스의 다양성도 확대되었다. 루빅스를 통해, 뉴스 콘텐츠의 다양화, 뉴스 이용자 규모, 뉴스 체류 시간이 모두 증가하는 선순환 구조가 형성됐다고 볼 수 있다. 이에 카카오는 루빅스를모바일 다음 메인의 뉴스/연예/스포츠를 비롯한 대부분의 탭, 다음PC 메인의 뉴스/연예/스포츠, 카카오톡 채널 등까지 적용시켰다.


[ 그림 2 ] 루빅스 도입 효과

루빅스는 실제 콘텐츠 서비스에서 나타난 특성을 면밀히 분석한 결과를 기반으로, 다양한 추천 알고리듬을 앙상블(ensemble)하여 랭킹(ranking)된 추천 콘텐츠를 제공한다. 루빅스에 적용되어 있는 알고리듬은 크게 사용자 그룹 맞춤 추천과 개인화 추천의 두 부류로 구분될 수 있다. [표 1]


[ 표 1 ] 루빅스의 콘텐츠 추천 방식


루빅스의 추천 알고리듬에 대해서는 이미 문서*1로 공개된 바 있으므로, 여기서는 이 정도로 설명을 마치도록 한다. 다음 장에서는 루빅스에 최근 새롭게 도입된 지표 및 이를 이용한 알고리즘에 대해 주로 다루고자 한다.


DRI(Deep Reading Index)에 대한 설명

도입 배경

루빅스 적용 후 2년 넘게 사용자 선호도의 메인 지표는 CTR(click through rate)였다. CTR과 같은 클릭 지표는 루빅스뿐만 아니라,일반적으로 널리 알려진 콘텐츠 추천 알고리듬들의 메인 지표로 사용되고 있다.

하지만 클릭 지표는 컨텐츠의 "제목"에 대한 사용자의 반응 만을 반영하고 있고, 소비 선택 빈도 외에 콘텐츠가 어떻게 소비되는지는 반영하지 못한다. 따라서 클릭 지표만을 이용하여 콘텐츠를 추천하는 경우, 콘텐츠의 소비 양상과 태도를 온전히 반영하기는 어렵다.

실제 콘텐츠가 어떻게 소비되었는지에 대한, 즉 "본문"에 대한 사용자의 반응에 대한 측정은 지표 그 자체로서도, 추천 알고리즘에 이용하기 위해서도 절실히 필요하였다. 다양한 고민 끝에 결국 "사용자들이 본문을 열심히 읽은 정도"를 가늠할 수 있는 지표인 DRI(deep reading index, 열독률 지수)를 고안해냈다.


필요성 및 정의

이용자의 체류 시간은 같아도 취득하는 정보량이 다를 수 있기 때문에, 콘텐츠가 얼마나 열심히 읽혔는지를 체류 시간으로 바로 가늠하기는 어렵다. 예를 들어 본문 500자, 이미지 1개인 콘텐츠와 본문 1,000자, 이미지 5개인 콘텐츠의 평균 체류 시간이 모두 50초일 때, 이용자들이 두 콘텐츠를 동일한 수준으로 열심히 봤다고 하긴 어렵다. 모바일 다음의 뉴스/연예 스포츠 기사의 본문 길이에 따른 체류 시간 중앙값을 플로팅(plotting)한 [그림 3]을 살펴 보면, 콘텐츠의 정보량을 나타내는 값의 하나인 본문 길이가 체류 시간과 상관 관계에 있음을 알 수 있다. 이러한 경향성에 부합할 수 있도록 콘텐츠에 포함된 정보량에 따른 기대 체류 시간과 특정 콘텐츠 체류시간을 동시에 고려할 수 있는 새로운 지표로 개발된 것이 DRI이다. DRI는 기대 체류 시간 대비 해당 콘텐츠의 체류 시간의 상대적인 크기로 정의된다. 다시 말해, "상대적인 체류 시간"을 통해 사용자의 본문 선호도를 측정한다.

[ 그림 3 ] 콘텐츠 본문 길이에 따른 체류 시간


DRI 적용 효과의 예시

DRI는 콘텐츠가 본문에서 제목에서 예상되던 바를 충족시키지 못한 경우를 발견해 낼 수 있다. [그림 4]는 사용자들이 제목과 본문의 불일치를 체감한 경우가 많은 기사의 예이다. 야구 관련 기사로 예상하고 클릭을 했으나, 실제 본문 내용은 e스포츠라서 이탈하는 상황이 많이 발생하는 것으로 보이는 뉴스 기사이다. 이 기사의 DRI는 -97%로 매우 낮게 나타나는 것을 알 수 있다.


[ 그림 4 ] 콘텐츠 특성에 따른 DRI의 예


DRI-CTR 앙상블 기반 루빅스 추천

DRI-CTR 앙상블 소개 및 랭킹 방식 비교

기존 루빅스 추천의 기반이었던 CTR에 DRI가 추가된 루빅스 알고리듬을 소개하고자 한다. DRI를 CTR과 앙상블(ensemble)하여, DRI의 총합을 최대화하도록 목적함수(objective function)가 정의되었다. CTR 기반, DRI 기반, DRI-CTR 앙상블 기반으로 사용자 그룹 맞춤 추천을 한 경우는 각각의 특성은 [표 2]와 같이 정리된다.

[ 표 2 ] 랭킹 방식 비교

DRI-CTR 앙상블 기반은 제목과 본문에 대한 사용자 반응을 모두 반영할 수 있는 장점을 갖고 있다. DRI는 기대 체류 시간 대비 해당 콘텐츠 체류 시간의 상대적인 크기로 정의되고, DRI-CTR 앙상블 기반 추천 랭킹은 DRI의 합을 최대화하기 때문에, 결과적으로 체류시간의 간접적인 증가를 기대할 수 있다.


DRI 도입의 효과

CTR랭킹 대비 DRI-CTR 앙상블 랭킹으로 사용자 그룹 맞춤 추천시의 지표 변화를 알아보기 위해 실험을 진행한 결과, [그림5]와 같은 지표 변화를 보였다. 모바일 다음 메인의 뉴스 / 연예 / 스포츠전체를 대상으로 측정된 지표이다.

[ 그림 5 ] CTR 랭킹 대비 DRI-CTR 앙상블 랭킹의 지표 변화량


DRI가 랭킹 요소에 추가되면서, 끌리는 제목을 가진 기사들이 상대적으로 적게 추천되기 때문에 '1인당 평균 페이지뷰(pageview)'가 소폭 하락했다. 그러나, 사용자들이 보다 열심히 읽을만한 기사를 제공해 주기 때문에 "1뷰(view) 당 평균 체류 시간"이 상승하여, 결과적으로는 '1인당 평균 체류 시간'이 상승했다. DRI-CTR 앙상블 기반 추천 랭킹을 통해, 제목과 본문에 대한 사용자의 반응을 모두 기사 추천에 반영할 수 있게 되었으며, 더불어 총 체류시간도 증가하게 되는 것이다.


향후 목표 및 방향

지금까지 루빅스의 도입 배경과 추천 알고리즘, 그리고 DRI란 무엇인지, 루빅스 추천에 DRI를 도입한 후의 효과 등을 살펴보았다.현재도 사용자 반응 데이터를 기반으로 꾸준히 루빅스의 성능 평가가 진행되고 있으며, 그 결과에 따라 알고리즘 및 시스템 개선작업이 지속적으로 진행되고 있다.


2017년 9월부터, 기사 제목과 본문에 대한 사용자 반응을 모두 반영하여 추천하는 DRI-CTR 앙상블 알고리즘이 루빅스에 도입되었고, 다음 모바일 메인 뉴스/연예/스포츠에 적용되어 서비스 중이다. 향후 루빅스에 DRI를 도입함으로써 나타난 체류 시간 상승이 재방문률 상승으로 이어지는지에 대해 지속적으로 측정할 예정이다. 체류시간의 상승은 곧 사용자들의 서비스 만족도가 상승했다는 것을 의미할 수 있고, 만족도의 상승으로 인해 보다 더 자주 서비스를 방문하게 됨으로써, 결과적으로 재방문률의 상승이 나타날 수도 있다. 예상과 같은 결과가 나타난다면, 사용자에게 보다 높은 가치를 제공함으로써 재방문을 이끌어낸, 좋은 사례가 될 수 있을 것이다.


글 | 성인재 tevin.sung@kakaocorp.com


카카오I의 추천 엔진 프로젝트인 루빅스를 리딩하고 있습니다.SAP Labs Korea와 네이버를 거쳐 현재 카카오에 재직하면서, 콘텐츠 추천, 정답 추천, 문맥광고, 연관검색어 등의 프로젝트를 리딩하고 AI 및 머신러닝 알고리듬을 설계하였습니다.




참고문헌

*1 참고 | 박승택, 성인재, 서상원, 황지수, 노지성, 김대원. (2017). 기계학습 기반의 뉴스 추천 서비스 구조와 그효과에 대한 고찰: 카카오의 루빅스를 중심으로. 사이버커뮤니케이션학보, 34권 1호, 5-48.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari