brunch

매거진 AI

You can make anything
by writing

C.S.Lewis

브런치 데이터의 탐색과 시각화

카카오 아레나 2회 대회(Part.1)

브런치 이용자의 취향을 분석하라


지난해 11월 개최된 카카오 아레나 1회 대회에 이어 카카오 아레나 2회 대회가 개최되었습니다. 첫 번째 대회는 쇼핑몰에 등록된 상품의 텍스트, 이미지 정보 등을 활용해 카테고리 분류의 정확도를 높이는 ‘쇼핑몰 상품 카테고리 분류’를 주제로 진행되었고, 다음(Daum) 쇼핑에 존재하는 수억 개의 상품을 더 정확하게 카테고리 화할 수 있는 기술을 만드는 것을 목표로 진행된 대회였습니다.

※ 1회 아레나 대회: https://brunch.co.kr/@kakao-it/321


2회 대회는 카카오의 콘텐츠 플랫폼인 브런치(brunch)의 데이터를 활용하여 사용자의 취향을 분석하여 취향에 맞는 글을 예측하고 추천하는 대회로, 브런치 이용자들의 과거 구독 데이터를 활용하여 향후에 이용자들이 읽을 만한 글을 예측하는 모델을 만드는 대회입니다. 이번에는 대회에 참여하시는 분들에게 조금이나마 도움을 드리고자 대회 데이터를 탐색 & 시각화하면서 발견한 몇 가지 내용들을 공유드리고자 합니다.




#브런치에 등록된 글 현황


metadata.json에는 브런치 작가님들이 작성한 글들의 메타데이터를 확인할 수 있습니다.

[그림 1] 월별 브런치에 등록된 글 추이


위 그래프는 일자별로 등록된 글의 개수를 시각화한 그래프로 브런치에 등록되는 글이 점차 증가하는 추세를 보이고 있습니다. 특히 등록되는 글이 눈에 띄게 증가하는 포인트가 몇 군데 보이는데, 해당 일자는 "브런치북 프로젝트(https://brunch.co.kr/brunchbookproject)" 기간의 참여 종료일자입니다.


특히 가장 최근에 진행되었던 브런치북 프로젝트 #6에 작가님들의 참여 열기가 뜨거웠던 것을 데이터로 느낄 수 있는 부분입니다. 브런치북 프로젝트 #6의 수상작은 3월 4일에 발표되었습니다. 수상작들의 소비 트렌드를 탐색해 보시는 것은 어떨까요?




#브런치 글의 소비 데이터 현황


브런치에서 소비가 가장 많은 글은 "브런치 작가가 함께 빨강머리 앤을 그리고 쓰다", 그리고 "

브런치 무비 패스, 영화의 진한 여운을 나누세요"입니다. 사실 두 글은 브런치 작가님들에게 이벤트를 알리는 공지성 글로써, 다른 일반 글 대비 소비수가 높아 특이값을 가지기 때문에 Scatter plot에서는 제외했습니다.


[그림 2] 브런치 글의 연도별 Box Plot 현황
[그림 3] 브런치 글의 연도별 Box Plot 현황


연도별 Box Plot과 Scatter Plot을 통해서 최근에 등록된 글의 소비수가 대체적으로 높은 것을 확인할 수 있습니다. Box Plot에서 2019년에 등록된 글들은 소비 기간이 최대 2개월이지만 다른 연도에 비해 전체적으로 높은 것을 확인할 수 있습니다. 이 결과에는 여러 가지 요인들이 작용했을 것으로 예상되는데, 브런치의 글 소비에 있어서 "최신성"이 중요한 요소 중 하나로 보입니다.


Scatter Plot에서는 추가적으로 다음과 같은 내용들도 유추해 볼 수 있습니다.    

개별 글보다는 매거진 글에서 소비수가 높다. (파란색 점이 매거진 글, 초록색 점이 개별 글)

소비수가 높은 글 중에는 전문적인 주제에 대한 글보다는 "운동, 다이어트, 패션, 연애, 인간관계"와 같이 누구나 관심 있을만한 주제 글이 많다.

18년 7월 30일부터 8월 12일까지 약 2주간 등록된 글들의 소비가 높다.




#브런치 글의 등록일 이후 경과일에 따른 소비 현황


개별 글 관점에서는 등록일 이후 경과일에 따라서 소비가 어떻게 변화할까요? 위에서 보신 것처럼 최신성이 브런치 글 소비에 중요한 요소라면 글 등록 직후 소비가 최고점을 찍고 점차 감소하는 형태의 그래프를 예상해 볼 수 있습니다. (아래 그래프에서는 브런치팀에서 작성한 글을 모두 제외했습니다.)

[그림 4] 브런치 글 등록 후 경과일에 따른 소비수 변화



글 소비 수 기준으로 5% 이내, 10% 이내, 25% 그룹으로 구분하여 그래프를 추출해 보았습니다. 그래프에서 하나의 라인은 한 글의 추이를 보여줍니다. 라인이 많아 복잡해 보이긴 하지만 대략적인 추이를 살펴보면 등록일 이후 일정 시간이 지나면 감소하는 경향을 확인할 수 있습니다. 당일만 소비수가 높은 글들은 Y축을 따라서 점으로 나타나고 있는데, 이 결과를 보더라도 앞에서 예측해 본, “최신성”의 중요성 가설과 일치하는 것 같습니다.


그런데 유독 상위 5% 글에서 등록일 이후 일정 기간 경과한 후에 소비가 굉장히 높아지는 글들이 빈번하게 보입니다. 브런치 작가님들은 어느 정도 예상할 수 있으실 것 같은데, 브런치 글은 브런치 플랫폼뿐만 아니라 다른 유통 채널을 통해서도 소비가 되고 있습니다. 다른 유통 채널에 브런치 글이 소개되면서 흥행에 성공한 글들의 소비가 급증한 경우라고 생각해 볼 수 있습니다.



[그림 5] 브런치 통계 예시 화면


위 그림은 브런치에서 작가분들에게 제공해드리고 있는 통계 화면입니다. 유입 경로에 검색, SNS, 브런치, 기타로 구분이 되어 있습니다. 실제로 발행 후 수일 경과 이후에 글 소비가 급증하는 글 몇 개의 소비 패턴을 확인해보니, SNS 경로를 통해서 유입되는 소비 비중이 굉장히 높았습니다

(참고로 유통 경로에 대한 데이터는 이번 대회에서는 제공되지 않습니다.)


아래 그래프는 2018년 10월 1일 이후 등록된 글을 대상으로 경과일에 따른 평균 소비수를 나타낸 그래프입니다. 평균 데이터를 보니 글의 최신성의 중요성을 좀 더 명확하게 알 수 있습니다. 공개 당일 소비수가 1일 경과 후 소비수 보다 2배 정도 높습니다. 평균 글 소비 수로 보면 경과일 7일 이내로 소비하는 비중이 약 58%입니다.


[그림 6] 등록된 글의 경과일에 따른 평균 소비수




#위클리 매거진의 주기성


[그림 6]그래프를 유심히 살펴보면 Weekly 주기성을 갖는 패턴을 발견할 수 있습니다. 브런치 메뉴 "위클리 매거진"에서 요일마다 등록되는 글들이 이러한 주기성을 갖고 있는데, 2개의 위클리 매거진의 글 소비 추이를 보겠습니다. (위클리 매거진은 19년  6월 20일에 종료되었습니다) 


[그림 7] 위클리 매거진의 주기성 현황


위의 그래프에서도 볼 수 있듯이 발행일에 글 소비가 가장 높게 나타나고, 덩달아 이전 글들의 소비도 함께 증가합니다. 신규 글 발행일에 이전 글들을 소비 수로 나열해보면 1화부터 순차적으로 정렬이 됩니다. 신규로 발행된 글을 읽은 유저가 만약 이전 글들을 읽지 않았다면 되돌아가 1화부터 순차적으로 글을 읽었을 것으로 생각해볼 수 있습니다.


[그림 8] 위클리 매거진 글의 소비 트렌드


위의 그래프는 위클리 매거진 전체 글들의 소비 트렌드입니다. 초기에는 글 등록 후 1~2주 차에는 주기성을 확인하기 어렵지만 3주 차부터는 Weekly 주기성이 뚜렷해짐을 확인할 수 있습니다.



#독자 구독 데이터 현황


마지막으로 users.json 독자 데이터를 살펴보겠습니다. 독자가 구독하고 있는 작가 정보와 최근 소비까지 이어진 검색어 정보를 확인할 수 있는데, 구독하고 있는 작가가 있는 독자는 전체 독자 중 98% 수준입니다. 대부분의 독자가 구독 중인 작가가 있고, 평균 9명의 작가를 구독하고 있습니다.


그렇다면 가장 많은 독자가 구독하고 있는 작가님들은 누구일까요?


[그림 9] 구독자수가 높은 작가 Top 10


브런치팀은 대부분의 독자들이 구독 중인 작가이고, 텐바디(@tenbody) 작가님은 글 수가 높은 다작 작가입니다. 구독 수가 높은 작가님들이 어떤 종류의 글을 게재하고 있는지는 각 글의 키워드의 총합이 가장 높은 5개 키워드로 유추해 볼 수 있습니다.


전체 소비 데이터 중 구독 중인 작가가 있는 독자가 소비한 데이터는 93%이고,  그 중 구독 중인 작가의 글을 소비한 데이터는 35%입니다. 독자가 읽은 글의 1/3 정도는 구독 중인 작가의 글이라고 볼 수 있습니다




마무리


지금까지 간단한 데이터 탐색 & 시각화를 작업을 통해서 브런치 글 소비 데이터의 특징을 확인해봤습니다. 앞에서 분석한 데이터에 의하면 아래와 같이 요약할 수 있을 것 같습니다.    


1. 글의 "최신성" 중요하다.

2. 유통 플랫폼을 통한 흥행으로 소비가 급증할 수 있다.

3. 위클리 매거진은 소비의 주기성을 갖는다.

4. 전체 소비 중 구독 중인 작가의 글 소비가 1/3 정도 차지한다.


아직 살펴보지 못한 데이터들이 많으니 데이터 탐색 & 시각화 작업을 통해 모델에 활용할 수 있는 다른 특징들도 찾아보시길 바랍니다.


이번 글에 소개된 브런치 데이터가 궁금하신 분들은 카카오 아레나 2회 대회 홈페이지에서 확인하실 수 있습니다. 대회의 마지막 날까지 많은 관심과 참여 부탁드립니다.

 ※ 아레나 2회 대회 웹사이트: https://arena.kakao.com/c/2




글 | 카카오 추천팀, 안승현  dean.an@kakaocorp.com

매거진의 이전글 AI 음성의 그럴싸함을 어떻게 평가할 수 있을까?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari