brunch

You can make anything
by writing

C.S.Lewis

by 리플러스 Apr 20. 2023

사용자 그루핑과 컨텐츠 추천 시스템에 대한 가설 :

실제 서비스를 위한 사용자 그루핑과 컨텐츠 추천 시스템을 위한 정보정리



컨텐츠 추천 시스템을 설계할 때 필요한 정보들을 정리해보기로했다. 아직 이 부분을 100% 증명했다고 말하기에는 애매한 지점이 있기 때문에, 추천 시스템에 대한 가설이라고 봐도 무방할듯 하다.



1. 사용자 그루핑을 위한 기반정보


- 사용자의 나이 그룹 (예: 20, 30대)

- 사용자의 성별 그룹 (남성, 여성)

- 사용자의 국가별 분류

- 사용자의 주요관심 카테고리 (서비스에서 제공하는 특정 카테고리, 혹은 세부 메타태그)

- 사용자의 하루 기준, 기간별 사용시간, 컨텐츠 소모율

- 사용자의 사용 레벨 (초기탐색, 적극적 이용, 헤비유저 등)

- 사용자의 소비 패턴, 사용 금액량에 대한 단계별 분류




2. 컨텐츠의 만족도를 측정하기 위한 기반정보


- 컨텐츠를 업로드한 시점 대비 특정 기간까지의 view 카운트

- 컨텐츠에 대한 기간별 총 view 카운트

- 컨텐츠 하나에 대한 머무른 시간, 혹은 지속시청 시간에 대한 평균값

- 전체 view 카운트 대비 컨텐츠에 대한 좋아요 등의 기능이 사용된 비율 (%)

- 컨텐츠에 대한 미리보기 등의 기능이 있는 경우, 전체 view 카운트 대비 미리보기의 100% 완주율 (%)

- 컨텐츠에 대한 구매 등의 기능이 있는 경우, 전체 view 카운트 대비 구매전환율 (%)

- 브랜드나 제작자의 개념으로 묶이는 컨텐츠의 경우, 동일 제작자나 브랜드에 대한 선호도 체크

- 카테고리나 유사 태그 형태로 묶이는 컨텐츠의 경우, 동일 카테고리나 유사 태그에 대한 선호도 체크

- 검색시스템이 있는 경우, 검색어로 선택되는 횟수 카운트 (시기상 첫 검색, 최근검색의 기간확인 필요)

- 검색시스템이 있는 경우, 기간별 전체 검색결과수 대비 검색어로 선택되는 횟수 비율 (기간별 %) 

- 검색시스템 기반의 검색 후 실제 컨텐츠 소비가 일어났는가에 대한 비율 (%)




3. 기존 인기 컨텐츠를 바탕으로 '인기가 예상되는 컨텐츠'에 대한 가설수립


- 기존 인기도가 높은 컨텐츠를 제작한 '제작자'나 '브랜드'가 제작한 다른 컨텐츠

- 기존 인기도가 높은 컨텐츠와 동일한 (혹은 유사한) 메타태그, 카테고리 분류가 사용된 경우

- 기존 인기도가 높은 컨텐츠와 동일한 장르나, 유사한 분류로 볼 수 있는 정보를 담고있는 경우 (컨텐츠 유사도)


체크포인트

- 기존 인기도를 기반으로 유사한 상품, 컨텐츠를 추천하는 개념은 유튜브나, 쿠팡 등에도 존재함

- 다만 유사도의 정도에서 어느정도의 변형이 일어나도 만족도가 유지되는지. 상황별 A/B테스트가 필요함

- 기존 인기도 바탕으로 컨텐츠를 추천할 경우, 신규 컨텐츠에 대한 소비가 일어나지않아, 검증된 과거 컨텐츠만 우선적으로 추천되는 문제가 발생할 수 있음.

- 이런 이유로 인해 업로드 기준부터, 짧은 특정 시점까지 - 노출량 대비 만족도가 높은 초기 컨텐츠들을 우선선별하여 다른 사용자들에게 추천해보는 방식도 가능함. (예: 1시간 내 조회수 급상승 컨텐츠)

- 특별전 형태로 신규 컨텐츠들을 기준으로 다시 '개별 컨텐츠들을 조명해주는' 방식의 리그 분류가 유용할 수도 있음. (예시 : 커머스 서비스의 특별할인전, 테마관 개념)

- 이외에도 별도의 광고모델을 도입하여 '프로모션 형태의 노출'하는 방향도 다양한 신규 컨텐츠에 대한 노출을 확대시키는 방향도 가능.




4. 개인화된 컨텐츠 추천을 실험할 수 있는 지점


- 홈화면 기준, 공통 컨텐츠 노출 화면에서 '특정 카테고리'기준 + 세분화된 테마 기준의 컨텐츠 추천 가능 (예시 : 유튜브, 라프텔)

- 팔로우, 구독 형식의 Feed 화면에서 사용자가 시청한 컨텐츠 다시보기나, 연관 컨텐츠, 유사컨텐츠에 대한 추천 가능 (유튜브, 구글뉴스)

- 검색시스템 기준 검색어 추천노출 가능 (예시 : 쿠팡, 네이버 등의 검색시스템 포함사례)

- 컨텐츠 상세화면 기준, PC 우측 사이드바나, 컨텐츠 종료시점에 연관컨텐츠 추천 가능 (예시 : 네이버 웹툰, 쿠팡, 커뮤니티 베스트 게시글 등의 사례)

- 가입시 사용된 이메일 기반의 Feed 추천 안내 메일 (예시 : 위시켓, 프리모아, 앱레이더 등의 리마인더 메일 사례)

- 앱 알림 기반의 신규 컨텐츠 알림 (예시 : 유튜브의 구독중인 서비스 알림, Pixiv의 팔로우 인원 행사 업데이트 알림 등)





5. 수동 기반의 그룹별 컨텐츠 노출 -> 로직 실험 -> 자동화 과정


-첫 단계에서는 동일한 컨텐츠를 개인들에게 노출하여 기본적인 데이터를 확인

- 이후 좋아요나 지속시청율, 머문시간, 구매전환율 등을 통해 베스트 컨텐츠를 추출

- 베스트 컨텐츠들을 분석하여 특정 나이나 성별, 관심사 그룹에 차이점이 있는지 체크

- 대분류 카테고리를 바탕으로한 노출기준에 대한 가설수립, 실험 진행

- 이후 세부분류, 메타태그, 개별 커스텀 태그에 대한 인기도 연관비율(%)을 확인

- 메타태그, 커스텀 태그에 대한 연관비율을 실제 유사도가 높은 컨텐츠 추천노출에 적용

- 주기적인 테스트를 통해 전환율이 일어나는 주요 태그와 컨텐츠들과의 상관관계 확인

- 그룹별 추천 컨텐츠에 대한 자체랭킹을 분류하여, 전체랭킹과 별도로 주기별 인기도를 측정

- 그룹별 추천 컨텐츠의 자체랭킹에 미치는 개별 변수들 (구매전환율, 지속시청율 등)의 영향력 순위 체크

- 확인된 내용을 바탕으로 추천 컨텐츠 로직의 메인 변수를 확정. 이후 검색노출이나 홈화면, Feed창 노출 등에 적용

- 이후 컨텐츠 필터링 기간 (업로드 이후 특정 시점까지)이 지나면 해당 로직을 바탕으로 컨텐츠 추천목록을 두가지로 분류. (실제 검증된 인기도가 높은 컨텐츠 / 로직상 인기도가 높게 책정될 컨텐츠)

- 해당 컨텐츠들에 대한 실제 / 가설의 일치도를 확인하고 - 안정화된 로직을 실제 컨텐츠 자동화 추천에 적용





6. 관리자가 편안한 초기 컨텐츠 노출 관리에 대한 고민


- 초기에는 관리자가 직접적인 컨텐츠 추천 리스트를 관리하는 방식.

- 이후에는 인기 컨텐츠에 대한 가설을 세우고 특정 태그들의 인기도를 예측 / 실험해보는 방식

- 인기컨텐츠에 대한 가설이 정확도 7~80% 이상 수렴할 경우, 세부 변수나 유사변형 사례를 실험해보는 방식

- 추천 컨텐츠들 중, 특정 기간동안 인기도가 오르지않는 경우 - 자동으로 추천 컨텐츠 제외도 가능

- 주기적인 컨텐츠 실험을 통해 '특정 태그'와 시청시간의 상관관계를 확인시, 짧은 시간으로도 컨텐츠 성공여부를 예측 가능. 이후 해당 로직을 점수화하여 별도 태깅 가능 (성공가능성 높은 컨텐츠)

- 점수화 기준 노출기준을 잡을 경우, 기존 컨텐츠에 대한 주기적인 체크 + 버튼클릭만으로도 추천 컨텐츠에 대한 노출 설정이 가능함.






7. 가설에 대해 예상되는 가장 큰 문제점


- 실제 컨텐츠의 내용과 태그의 연관성이 거의 없다고 결론이 나는 경우, 태그분류는 카테고리 외에는 의미가 없어지는 문제가 발생함.

- 세부 태그, 메타태그의 경우 유사도 측정을 사용하더라도 실제 얼마나 유의미한 결과가 나올지 알수없음. 다만 특정 '핫한 태그'들이 존재할 것이라는 것은 유튜브나 SNS 를 보더라도 예측 가능한 지점.

- '핫한 태그'를 사용한 유사 태그 컨텐츠들이 남발될 경우, 태그 최대숫자를 제한하거나, 관리자가 직접 태그를 달아주는 형태로 진행되어야함. (물론 추후 AI 기반으로 컨텐츠에 대한 내용을 압축해서 자동태그화하는 방향이 나을수도 있음)

- 결국 초기 업로드 후 특정 시점까지, 얼마나 많은 사람들이 '지속시청'을 하는지. '구매전환율'이 어떤지. '얼마나 유명한 제작자, 브랜드인지' 를 바탕으로 측정하는 것이 가장 안정적인 방향일 것.

- 이 경우 초기에 가입한 고인물들만 인기가 높아지는 문제가 발생할 수 있으므로 신규 컨텐츠들에 대한 검증방안도 필요해짐.

매거진의 이전글 QR코드의 두가지 사용방식
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari