[카카오 AI 리포트] 뉴스 추천 서비스를 구성하는 DRI 알고리즘
"이용자와의 신뢰 관계를 위해 기업 경쟁력을 훼손하지 않는 범위 내에서 알고리즘에 대해 성실하게 설명한다."
카카오가 2018년 1월 공표한 "카카오 알고리즘 윤리 헌장"의 조항 중 하나입니다. 이러한 다짐에 따라, 카카오는 주요 AI 서비스의 알고리즘을 가능한 범위 내에서 소상히 알려 왔습니다. 뉴스 서비스 알고리즘은 국내 논문, 학회, 그리고 카카오 AI 리포트를 통해, 서비스 혹은 알고리즘의 발전이 이뤄질 때마다 소개하곤 했습니다. 카카오의 정책 브런치는 앞서의 소개 내용을 다시 한 번 쉽게 정리, 전달하는 역할을 했습니다. 브런치 내 AI 매거진에서 관련 글을 쉽게 찾아 보실 수 있습니다.
알고리즘에 관한 사회와의 적극적 소통 철학은 카카오가 계속 이어가고 있는 철학입니다. 이러한 생각이 반영된 카카오 뉴스 추천 서비스를 구성하고 있는 Deep reading index (DRI) 알고리즘에 대한 기획 배경, 주요 구조 및 효과에 대한 설명을 담은 논문([Kakao Deep Reading Index: Consumption Time as a Key Factor in News Curation Algorithm]이 SCIE급 저널인 [The KSII Transactions on Internet and Information Systems]에 게재됐기에, 이번 브런치 글을 통해 해당 논문의 주요 내용 일부와 기획 배경을 간략하게 설명 드리고자 합니다.
학계에 뉴스 알고리즘의 주요 내용을 논문으로 공개하는 것은 이번이 처음이 아닙니다. 2017년 3월 국내 학술진흥재단 등재지인 '사이버커뮤니케이션학보'에 초기 뉴스 추천 알고리즘의 주요 내용을 소개한 바 있습니다.
박승택, 성인재, 서상원, 황지수, 노지성, 김대원 (2017). 기계학습 기반의 뉴스 추천 서비스 구조와 그 효과에 대한 고찰. 사이버커뮤니케이션학보, 34(1), 5-48.
위 논문의 내용은 간명하게 브런치에 정리하기도 했습니다.
1. 배경
인공지능의 경쟁력이 인터넷 산업에서의 성패를 가름하는 요인으로 부상하고 있습니다. 인공지능의 토대를 이루는 알고리즘은 새로운 서비스 시장을 창출해 낼 뿐만 아니라, 기존의 서비스를 고도화 하는 결정적 요인으로 기능하고 있습니다.
뉴스를 매개로 한 미디어 시장 역시 알고리즘의 역할이 점차 확대되고 있다. 알고리즘은 아이템의 발굴, 기사의 생산, 기사의 편집, 그리고 기사의 선별과 소비자로의 전달까지 이르는 거의 모든 기사 공정 과정에서 활약하고 있다. 발굴, 생산, 편집이 언론사에 속한 알고리즘에 의해 이뤄지는 과정이라면, 기사의 선별과 소비자로의 전달은 복수(複數)의 언론사의 기사를 매개하는 미디어 플랫폼에 의해 진행된다. 기사의 선별과 전달은 다른 말로 큐레이션(curation)으로 칭해지기도 합니다.
작금까지의 뉴스 큐레이션은 콘텐츠에 대한 소비자의 선택 빈도에 근거하여 이뤄졌습니다. 소비 빈도 중심의 알고리즘은 고도화 되면서, 스마트폰 확산과 더불어 뉴스 콘텐츠 서비스 개인화의 토대가 되는 진화 양상을 보입니다. 그럼에도, 이용자의 실제 소비 양상과 형태와는 거리가 먼 지표이며, 특히 내용의 품질에 대한 이용자의 평가를 담아내지 못한다는 측면은 한계로 지적됐습니다.
카카오의 deep reading index 기반의 알고리즘은 이러한 한계를 보완하고자 비롯됐습니다. 소비 빈도 외, 소비 시간을 주요 요인으로써 알고리즘을 만든 것입니다. 뉴스가 속한 분야, 본문의 길이, 사진, 카드 뉴스 여부 등 뉴스의 구성 요소를 기준으로 추정된 예상 시간에 비해 실제 이용자가 뉴스를 소비하는 데 소요한 시간의 평균값과의 비교를 통해 기사에 대한 이용자의 열독률을 평가하는 것이 DRI의 골간입니다.
DRI가 카카오의 뉴스 서비스에 적용된 실증적 결과에 따르면, 심층 보도 중심의 퀄리티 높은 기사를 제공하는 큐레이션 체계로서 역할을 할 수 있음이 확인됐습니다.
2. 주요 내용 및 DRI 성과
논문에서는 deep reading을 핵심 기제(key factor)로 넣은 뉴스 큐레이션 알고리즘을 서비스에 적용한 카카오의 도전과 효과(challenges and impacts)를 소개했습니다. 기존 뉴스 큐레이션 알고리즘은 이용자의 ‘선택’, 그 자체에 주목했습니다. 이용자 선택 행위 빈도인 Click through Rate (CTR) 혹은 page view에 기반을 두고 알고리즘은 구성됐습니다. 이는 비단 뉴스 서비스만의 일이 아닙니다. 선택 행위 빈도에 의존하는 큐레이션 알고리즘은 거의 대부분의 콘텐츠 서비스에서 채택되고 있습니다.
반면, DRI는 선택의 빈도가 아니라, 콘텐츠가 선택된 이후의 소비 시간에 집중했다. 구체적으로 DRI는 특정 요소에 대한 사전 분석을 통해, 개별 뉴스 콘텐츠의 예상 체류 시간을 구한 후, 실제 이용자들의 해당 콘텐츠를 소비하는 과정에서 측정되어 구해집니다.
선택 행위의 빈도가 아닌 콘텐츠를 실제 이용하는 양상과 태도를 측정하려는 시도의 결과인 DRI는 저널리즘 측면에서 주목받고 있습니다. 기존의 뉴스 큐레이션 알고리즘은 트래픽의 규모에 집중화 된 정량적 분석으로, 정성적 측면에 대한 접근이 전혀 이뤄지지 않았기 때문입니다. DRI는 선택 빈도로 분석하는 양적인 평가가 아니라, 콘텐츠에 대한 이용자의 소비 만족 양상을 톺아보는 질적 분석의 수단으로 볼 수 있습니다.
카카오는 DRI를 기준으로 한 별도의 섹션을 만들어, 작년 7월부터 이용자에게 서비스하고 있습니다. 이 섹션에서는 조회 수와 별도로 적지 않은 독자들로 부터 깊은 관심과 주목을 받은 뉴스를 소개하는 기능을 하고 있습니다. DRI가 체류시간을 기반으로 본문에 대한 만족도를 측정했으므로, DRI가 높은 기사는 다른 기사에 비해 실질적으로 읽을 가치가 더 높은 정보를 전해줬다고 할 수 있습니다. 이 결과는 이용자에게 ‘실제 읽을만 한, 도움이 되는, 유용한 뉴스’를 제공하는 알고리즘 체계가 DRI를 통해 확립됐음을 시사합니다. DRI는 예상 체류 시간에 비해 현저히 떨어지는 결과값을 근거로 해당 콘텐츠가 낚시 기사인지 여부에 대한 판별하게 하는 단초로서 기능할 수 있음이 확인된 것 입니다.
3. 논문의 의미
콘텐츠 추천 시스템은 일반적으로 콘텐츠가 선택된 빈도인 CTR에 의존합니다. CTR은 소비 만족도 등 콘텐츠가 소비된 이후에 발생하는 것들에 대한 파악이 어렵습니다. 이러한 한계를 해결하고자, 카카오는 선택한 콘텐츠의 체류 시간이라는 개념을 뉴스 추천 알고리즘의 기준으로 도입했습니다. 이러한 도전적인 시도가 서비스의 성과 개선으로 연결됐음을 정리해서, 설명한 논문입니다.
인공지능(artificial intelligence, AI)가 디지털 서비스 경쟁력 제고를 위한 주요 수단이 되면서, 관련 업계와 기업에게는 AI에 대한 설명 요구가 늘어나고 있습니다. 카카오는 2018년 1월, 카카오 알고리즘 윤리 헌장을 발표하며, AI와 관련하여 기업의 경쟁력을 훼손하지 않는 범위 내에서의 성실한 소통을 하는 자세를 보일 것임을 약속한 바 있습니다. 이번 논문은 카카오가 사회와의 약속을 성실하게 이행하는 모습으로 이해될 수 있습니다. 카카오는 논문 뿐만 아니라, 학회 발표, '카카오 AI 리포트', 브런치 글 등 다양한 채널을 통해 서비스를 구성하는 알고리즘을 설명드리고 있습니다.