brunch

You can make anything
by writing

C.S.Lewis

by 최규민 Feb 12. 2016

구독자의 목소리가 보여@@

나의 브런치 구독자 데이터로 관심 작가 분석해 보기

브런치를 시작하며 타투인 행성의 비밀, Netflix 추천의 힘 10가지 2개의 글을 쓰고 구독자 100명을 넘었다. ^.^V(현재는 105명) 왠지  뿌듯해 하면서 나의 구독자들은 어떤 작가들을 좋아할까? 궁금하기도 하여 구독자의 관심작가 글을 훑어 가면서 좋은 글이 많네 하면서 든 생각이~

나의 구독자들이 좋아하는 작가는 나도  좋아할 것 같다.

그래서 이렇게 가정해 보았다.

1. 구독자 A는 나의 글을 좋아한다.
2. 구독자 A는 작가 B의 글을 좋아한다.
3. 고로, 나는 B작가의 글을  좋아할 수도 있다. (뭔가 이상하지만)
4. 또는, 나의 구독자 C도 작가 B의 글을 좋아할 수도 있다.

그리고 데이터로 이를 확인해 보고자 한다.


데이터 수집

-나의 구독자의 {관심작가리스트, 구독자리스트}
-관심 작가의 {작성글수, 구독자수}

위 데이터를 수집하기 위해 간단하게 https://brunch.co.kr/@{user-id}/{following}  URI로 HTML을 크롤링하고, HTML 파서(Beautiful Soup)로 아래 html소스에서 보는 바와같이 class = link_follow 이고 herf = '@****' 로 시작되는 아이디만 추출하면 되겠구나 생각했다.

그런데 브런치의 리스트 보기는 무한 스크롤 방식이다.(역시 데이터 랭글링 작업은 쉽게 넘어가는 적이 없다!!) 그래도 우리에겐 구느님이 있어 구글링을 해보니 셀리늄이라는 패키지를 이용하여 무한 스크롤 웹페이지를  크롤링할 수 있다고 하여 묻지도 따지지도 않고 copy&paste로 해 봤는데 잘된다. (이제 나는  Full Stackoverflow 개발자 의 완성형에 가까워 지는듯 하다)

참고로 셀리늄은 UX자동화를 위해 Webdriver로 웹브라우저를 컨트롤할 수 있는 파이썬 패키지이다. 나는 이 패키지를 이용하여  firefox를 자동으로 띄우고 스크롤 이벤트를 발생하여 데이터를 수집했다. (실제로 웹브러우져를 띄우기 때문에 크롤링 시간이 오래 걸린다.) 혹시 ipython 노트북 소스를 실행하실분은 mac에서 하길바란다.

이렇게 나의 브런치 구독자 105명의 데이터를 아래와 같이 모두 수집하였다.


이제부터 분석해 보자


나의 구독자들은?

구독자 105명은 평균 21명의 관심 작가를 등록하고, 평균 48명의 구독자를 가지고 있다. 평균 구독자수 48명은 유명 작가들에 의해 생긴 값으로 상위 인기 작가 3분이 무려 전체 구독자수의 95%(1354명)를 차지한다. 즉 나의 구독자 대부분은 글을 쓰는 작가가 아닌 글을 읽기만 하는 독자층으로 볼 수 있다.

이제부터 나의 구독자수, 전체 구독자수, 나의 구독자수 비율을 기준으로 Top 10 브런치 작가를 확인해보자.

나의 구독자수 : 나의 구독자 중 이 작가를 관심작가로 등록한 구독자수
전체 구독자수 : 해당 작가의 전체 구독자수
나의 구독자수 비율 : (나의 구독자수)/(전체 구독자수 + 10)
*참고로 분모에  '+10'을 한 이유는 전체 구독자수가 작은 경우, 값의 신뢰도가 낮기때문에 패널티를 주기 위한 보정값이다.

아래 각각의 Top 10 작가들은 나의 구독자 데이터를 기반으로 산출되었기 때문에 개인화된 추천이라고 볼 수 있는데 그 차이는 약한 개인화, 강한 개인화, 인기도를 고려 한 것으로 생각할 수 있다.


나의 구독자수 기준 Top 10 작가(약한 개인화)

전반적으로 나의 관심사와 유사한; IT 트렌드, 데이터 분석, 개발 문화, UX, 직장애환(?) 등에 관한 브런치 작가로 구성되어 있고 인문학, 감성등의 작가분은 찾아볼 수가 없다. 추가로 대상이 되는 작가 중에서도 구독자수가 많은 편의 작가들이 상위에 랭크됨을  확인할 수 있었다.

나의 구독자 수 기준 Top 10 작가

@brunchflgu, @lifidea@yoojs8512, @suyoung, @jimmyrim, @suhanjang, @insuk, @sooscape, @haneulalice, @mobiinside


전체 구독자수 기준 Top 10 작가(인기도 중심 개인화)

대상 작가 중에서 전체 구독자수 다시 말해 인기순으로 정렬을 해서 보니 나의 유사한 작가보다는 보편적으로 인기 있는 작가분들이 상위에 랭크됨을 볼 수 있다. 그리고 나의 구독자수 비율 또한 대부분 1% 이하이다.  

@brunchflgu, @suhanjang, @captaink, @rothem, @jimmyrim, @haneulalice, @2kija, @sooscape, @funder2000, @yoonash


나의 구독자수 비율 기준 Top 10 작가(강한 개인화)

나에게 브런치 작가를 추천해 준다면 위의 리스트 2개 보다 지금 리스트를 추천해 주었으면 좋겠다. 좀 더 기술 의존적인 토픽, 개발자 문화, 데이터 기반 사고에 대한 토픽이 주를 이루는 듯 보여서 이다

@aidenswmo, @manya, @genie7pe, @jaeseungmun, @lifidea, @alden, @madvirus, @yongjinjinipln, @wjchee, @yannheo


위에 언급된 작가 외에도 나의 구독자들이 보는 작가 40여 명 정도를  훑어보니 IT 트렌드, 데이터 기반 사고, UX,  개발자 문화, 직무 등 내가 관심 있어 할만한 컨텐츠가 두루두루 포진해 있는듯 했다.


유사한 작가끼리 군집화

나의 구독자 리스트를 특징 벡터로 대상 작가 30명에 대하여 계층적 군집화로 유사한 것 끼리 묶어 보았다. 대략적으로 5개의 부류로 묶여졌다. 그 결과는 내 예상보다 훨씬 의미 있는 결과가 아닌가 하다.

부류 1번 :  UX, 디자인이 주 토픽

@yunjungseo, @hmin0606, @suyoung, @meanimize, @sooscape


부류 2번 :  개발자 문화에 관련된 토픽 주로 전문 개발을 업으로 작가

(대체적으로 글수가 10개 이하로 적음)

@brunch4nrs, @brunchlftm, @insuk, @pelexus


부류 3번 : 스타트업 문화, 회사의 생활, 직무, 업무 멘토링 등과 관련된 토픽

@promise4u, @yoonash, @aboutheman, @jihoonjeong, @haneulalice, @suhanjang


부류 4번 : IT 트렌드, 칼럼, 사회 현상에 대한 토픽

@sclplus, @wjchee, @jsksoft, @borashow, @manya


부류 5번 : 4번 클러스터와 유사하게 IT/모바일 트렌드, 데이터 과학 등 저널의 성향 토픽

@genie7pe, @jaeseungmun, @sapu0000, @jimmyrim, @mobiinside, @yoojs8512, @lifidea


위의 군집화된 5개의 부류는 내가 글을 쓰는 성향, 내가 글을 읽는 성향, 내가 글을 참고할 성향, 그리고 내 글을  읽는 구독자의 성향을 잘 해석 해 주는듯하다.
이 5개의 부류중 나에게 추천을 해 준다면 지금은 부류1, 부류2의 작가를 추천해 주면 좋을듯하다.
(좋은 추천은 추천 정확도가 높은 것보다 Serendipity를 적절히 잘 활용하는것이 관건인것 같다.)


요즘 facebook에서 심심찮게 브런치로 쓰여진 좋을 글을 읽고, 글쓰기의 편리함을 몸으로 느끼고 있는것에 반해, 컨텐츠 추천은 조금 아쉬운 감이 있다. (대부분의 브런치글 트래픽이 외부에 유입되는점을 봐도 그렇다.) 좀더 내부에서 트래픽을 발생 시킬수 있는 개인화 추천 시스템이 잘 구현된다면 정말 좋은 글쓰기 플랫폼이 되지 않을까하는 생각이 든다. 끝.


다른 브런치 작가에 대하여 분석을 하고자하는 분은 이 파이썬노트북 의 소스를 참고 하시면 됩니다. 


참고로, 작가 네트워크 분석

나의 개별 구독자의 관심작가끼리 상호 연결관계를 만들어서 브런치 작가 네트워크를 그려 보았다.

나의 구독자수 Top 10의 작가분들이 네트워크의 중심부에 많이 보이며, 나의 구독자수 비율 Top 10 작가 분들은 2선 정도 위치에서 많이 보이는 것을 알 수 있다. 이처럼 추천은 단순 중심성 기준이 아닌 다양한 위치와 연결과 관계를 가지는 대상도 적절한 추천의 대안이 됨을 볼 수 있다.

상위 30 브런치 작가의 연결 네트워크








브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari