brunch

You can make anything
by writing

C.S.Lewis

by 지은 x NULL Nov 15. 2019

버즈 데이터로 펭수의 미래를 예측해보자

[생활 속 데이터분석] 자이언트 펭TV 크리에이터이자 EBS 연습생

TL;DR:

최근 추세대로라면 2019-12-02에 100만을 넘어서 101만 8천,

구독자수 증가에 한계가 있다고 보고 보수적으로 예측하면

2020-01-04에 100만을 돌파해 101만 9천을 기록할 것으로 예측된다.

그리고 1주년 시점에는 183만~716만이라는 수치가 나왔다.



몇해 전 실시간 댓글을 소재로 모 TV예능의 버즈분석을 시도해본 이후 오랜만인 생활 속 데이터분석 시리즈다.

데이터를 바탕으로 했으나 결과는 당연히 보증하지 않으며,

순수한 팬심으로 작성하는 분석을 가장한 응원글이다.


펭-하!





재료 준비

이번에는 더 다수 대중의 다중 데이터를 모아봤다.

처음 떠오른 건 구글 트렌드.

키워드를 통해 관심도 변화를 알아볼 수 있는데, 예상대로 인구에 회자되고 있었으며 뽀로로 대비 차이가 확연하다.

9월 27일 기점으로 엎치락 뒤치락.


다음은 국내판 구글 트렌드인 네이버 트렌드.

검색의 피크(peak)가 극심해서 뽀로로는 제외. 트렌드는 어느정도 보인다.


그리고 EBS 시청자 게시판과 디*, 더* 커뮤니티 사이트 게시판을 갈무리했다.

본문 내용까진 아니고 목록에 보이는 제목, 날짜, 조회수 등을 재료로,

각 게시글, 코멘트, 추천수, 조회수에 임의의 가중치를 두어 점수를 부여했다.


복잡한 기법을 사용한 건 없고 간단히 html 태그를 읽어들였다.

  content <- GET(sprintf('https://home.ebs.co.kr/giantpeng/board/5/10102759/list?hmpMnuId=101&c.page=%d', i))
  Sys.sleep(1)  
  x <- content %>% read_html() %>% html_nodes('#mform > table > tbody > tr > td') %>% html_text()
  y <- x[(5*2+1):length(x)] %>% #gsub("\n|\t", "", .) %>%
    matrix(ncol = 5, byrow = TRUE) %>%
    as_tibble()
  z <- rbind(z, y)

지속적으로 할 작업은 아니라서 코드를 정리하진 않았다.

(훗날 예측이 맞는다면(?) 한번쯤 다시 해볼 요량이다.)


회원정보가 삭제된 EBS에 재가입했다.



전처리

데이터를 가공할 수 있는 형태로 만들었다.

pengHistory <- data.frame(
  date=as.Date(c("2019-04-01",    "2019-08-08",    "2019-09-30",    "2019-10-19",    "2019-10-28",    "2019-11-10",    "2019-09-19")),
  note=c("start",    "펭수 생일",    "구독자 10만 달성\n(실버버튼!)",    "마리텔 생방송",    "영역 확장\n(타 방송 진출)",    "구독자 50만!",    "E육대"))

이런식으로 다른 데이터들도 짜깁기했다.


모두 bind 했더니 8488줄이 됐는데, 수천 건이 큰 데이터라고 할 수는 없지만 대중의 의견이 집약된 결과이니 빅데이터라고 하자.

어쨌든 이리저리 재가공하여 그 결과는 아래 차트로 플로팅했다.




톺아보기


커뮤니티별로 바이럴이 일어나는 시기가 다른 것은 유저층 차이때문이라고 생각하며, 미디어 노출(지상파, 유튜브, 인터뷰 등)에 따라 일정부분 시차가 발생한 것으로 판단된다.

뽀로로와 동일한 척도에 있는 게 맨 위에 올린 구글 데이터인데, 여타 데이터와 스케일을 일관되게 맞추긴 어렵지만 대체로 상승 추세에 있는 것만은 확실해 보인다.


과거부터 현재(11/14限)는 확인했고, 그 다음은 어떻게 될까?

위 데이터를 모두 합산해 버즈 수치를 만들었고 이를 토대로 자동(auto.arima) 모델을 이용했다.

4월 1일부터 228일간의 데이터가 input, 이후 138일을 n.ahead로 총 366일(내년은 윤년이다.)간의 추세를 시각화했다.


1-2. 미래라고 표시한 선은 매월 반복되는 seasonal 데이터로 입력했기 때문에 동일한 패턴을 갖고 점진적으로 상승하고, 이대로라면 1주년을 맞는 내년 4월 초에는 현재 대비 약 5~6배의 바이럴이 있을 수 있겠다.

input으로 사용한 데이터가 사회 전반을 대표하는 것은 아니며 정확한 수치보다는 상대적인 비교이기 때문에 구글 트렌드에서 뽀로로를 10배 차이로 앞선다는 뜻이고, 지금보다 각 커뮤니티가 대여섯 배쯤 활발해지지 않을까 하는 것이다.


반면 2-1~3. 구독자는 좀 더 명확한 숫자를 기반으로 한 것인데,

워낙 최근 가파른 성장세라 그대로 모형을 적용해보니 내년이면 무려 600만을 넘어선다는 결과가 나왔다.

도메인 지식으로, 누구나 알고 있는 우리나라 인구수와 유튜브 사용자층 등을 고려했을 때 사실 실현되기 쉽지 않은 숫자임이 자명하고

보수적으로 변수를 조절해보니 166만 정도가 될 듯싶다.


11월 14일 자정 이전, 완성되지 않은 수치(59만을 58만으로 input)로 계산한 오류가 있어서 집계가 완료된 15일까지를 넣어 재계산 해보니 183만~716만이 나왔다.

최근 일주일만 데이터로 넣고 돌리면 1500만도 가능할 기세였다. (11/16 업데이트)

자세한 예측치는 맨 아래에 추가했다.



아래는 오류가 포함된 차트지만 남겨둔다.

변수가 많이 부족하지만 예측 1과 2 사이에는 들지 않을까. (일부 오류)


그 결과는 100만을 언제 돌파하는지 지켜보면 될 것이다.

(아주) 빠르게는 12월 6일, 조금 성장세가 늦춰진다면 내년 1월쯤으로 예측됐다.

적고 보니 두 수치 모두 대단할 따름이다.



'빅데이터' 하면 빠지지 않는

스몰데이터 워드클라우드로 글을 마친다.

제작진 이름들이 곳곳에 숨어있다.




예측이 얼마나 맞을지 궁금하다.


228  590000.0 2019-11-14 2-1. 구독자 추이

229  621000.0 2019-11-15 2-1. 구독자 추이

230  642394.5 2019-11-16       2-2. 예측1

231  662334.0 2019-11-17       2-2. 예측1

232  681926.0 2019-11-18       2-2. 예측1

233  702224.1 2019-11-19       2-2. 예측1

234  721737.3 2019-11-20       2-2. 예측1

235  739637.4 2019-11-21       2-2. 예측1

236  759771.1 2019-11-22       2-2. 예측1

237  784333.9 2019-11-23       2-2. 예측1

238  811481.2 2019-11-24       2-2. 예측1

239  838926.8 2019-11-25       2-2. 예측1

240  866384.7 2019-11-26       2-2. 예측1

241  907780.2 2019-11-27       2-2. 예측1

242  931433.7 2019-11-28       2-2. 예측1

243  958550.1 2019-11-29       2-2. 예측1

244  978115.9 2019-11-30       2-2. 예측1

245  997813.9 2019-12-01       2-2. 예측1

246 1018006.5 2019-12-02       2-2. 예측1


230  640542.1 2019-11-16 2-3. 예측2(보수적)

231  659154.1 2019-11-17 2-3. 예측2(보수적)

232  674635.5 2019-11-18 2-3. 예측2(보수적)

233  682414.6 2019-11-19 2-3. 예측2(보수적)

234  684583.7 2019-11-20 2-3. 예측2(보수적)

235  686530.0 2019-11-21 2-3. 예측2(보수적)

236  689132.9 2019-11-22 2-3. 예측2(보수적)

237  694467.6 2019-11-23 2-3. 예측2(보수적)

238  701144.0 2019-11-24 2-3. 예측2(보수적)

239  708274.5 2019-11-25 2-3. 예측2(보수적)

240  715169.4 2019-11-26 2-3. 예측2(보수적)

241  730605.5 2019-11-27 2-3. 예측2(보수적)

242  735418.0 2019-11-28 2-3. 예측2(보수적)

243  742312.8 2019-11-29 2-3. 예측2(보수적)

244  744264.8 2019-11-30 2-3. 예측2(보수적)

245  746433.7 2019-12-01 2-3. 예측2(보수적)

246  748887.7 2019-12-02 2-3. 예측2(보수적)

247  752019.9 2019-12-03 2-3. 예측2(보수적)

248  755056.3 2019-12-04 2-3. 예측2(보수적)

249  783645.0 2019-12-05 2-3. 예측2(보수적)

250  787332.1 2019-12-06 2-3. 예측2(보수적)

251  790821.5 2019-12-07 2-3. 예측2(보수적)

252  794074.8 2019-12-08 2-3. 예측2(보수적)

253  798412.5 2019-12-09 2-3. 예측2(보수적)

254  802533.4 2019-12-10 2-3. 예측2(보수적)

255  806196.4 2019-12-11 2-3. 예측2(보수적)

256  809883.5 2019-12-12 2-3. 예측2(보수적)

257  834243.3 2019-12-13 2-3. 예측2(보수적)

258  839014.9 2019-12-14 2-3. 예측2(보수적)

259  847628.3 2019-12-15 2-3. 예측2(보수적)

260  859426.3 2019-12-16 2-3. 예측2(보수적)

261  868753.9 2019-12-17 2-3. 예측2(보수적)

262  876851.7 2019-12-18 2-3. 예측2(보수적)

263  883187.3 2019-12-19 2-3. 예측2(보수적)

264  888382.5 2019-12-20 2-3. 예측2(보수적)

265  893035.2 2019-12-21 2-3. 예측2(보수적)

266  899269.4 2019-12-22 2-3. 예측2(보수적)

267  906687.8 2019-12-23 2-3. 예측2(보수적)

268  914681.3 2019-12-24 2-3. 예측2(보수적)

269  923719.1 2019-12-25 2-3. 예측2(보수적)

270  932233.2 2019-12-26 2-3. 예측2(보수적)

271  947847.4 2019-12-27 2-3. 예측2(보수적)

272  956735.0 2019-12-28 2-3. 예측2(보수적)

273  965240.4 2019-12-29 2-3. 예측2(보수적)

274  969915.9 2019-12-30 2-3. 예측2(보수적)

275  975111.0 2019-12-31 2-3. 예측2(보수적)

276  980857.5 2020-01-01 2-3. 예측2(보수적)

277  987775.9 2020-01-02 2-3. 예측2(보수적)

278  995049.0 2020-01-03 2-3. 예측2(보수적)

279 1019533.1 2020-01-04 2-3. 예측2(보수적)


-.NULL



#펭수, #자이언트펭TV, #예측분석

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari