[코드스테이츠 PMB 11기] 데이터 시각화
누가 나에게 "너 웹툰 봐?"라고 이야기한다면 난 격렬하게 대답할 수 있다. YES!
실제 내 네이버 웹툰 첫 페이지와 관심 웹툰 페이지를 가져와 봤다. 내 관심 웹툰의 저장 수는 58개! 일주일은 7일밖에 되지 않는데 58개면 하루 평균 8개 정도를 보고 있다. 물론 요즘엔 과제에 치여서 몇 개 못 챙겨 보고 있지만...(눈물) 여기서 웹툰이 정확히 무엇인지 한번 짚고 가자. 위키백과에 따르면 웹툰(webtoon)은 웹(web) 카툰(cartoon, 만화)의 합성어로, 대한민국에 정착된 고유의 웹 만화 플랫폼을 통칭한다. 21세기 초반에 현재의 형식을 갖추기 시작하여 현재 대한민국에서 큰 규모의 독자층을 유지하고 있으며 스낵 컬처 문화를 보여주는 대표 사례이다.
나의 첫 웹툰은 '핑크레이디'라는 웹툰이었다. 이 웹툰이 처음 연재되기 시작한 것이 2007년이나 처음부터 본 것은 아니니 2008년 정도부터 봤다고 해도 웹툰 인생만 거의 14년 차다. 그럼에도 불구하고 이 웹툰을 처음 봤을 때의 느낌이 생생하다. 이렇게 예쁜 그림체인데 매주 나오면서 무료라고? 어떻게 이럴 수 있지 너무 좋아! 이런 생각과 감정을 느끼면서 나는 처음 웹툰에 입문하게 되었다.
아마 내가 처음 웹툰을 봤을 때의 감정을 지금 전 세계에서 느끼고 있다고 생각한다. 우리나라 웹툰 회사들이 계속해서 해외로 진출해 나가고 있기 때문이다. 단순히 진출을 넘어서 국가별 디지털 만화 앱 순위를 살펴보면 미국에서는 1위 3위를, 일본에서는 1위 2위를 모두 우리나라가 차지하고 있다는 것을 확인할 수 있다. 이 자료를 통해 해외 사람들도 웹툰을 즐기기 시작했다고 볼 수 있을 것 같다.
네이버 웹툰은 북미 최대 웹소설 플랫폼인 왓패드를 인수했다. 왓패드의 이용자는 전 세계 9000만 명으로 막강한 이용자 규모에 네이버 웹툰의 기술력과 비즈니스 노하우를 더해 콘텐츠 사업을 미래의 동력으로 키울 계획을 가지고 있다고 한다. 미국 시장의 위상을 살펴봐도 만화 앱 수익 1위에 특히 Z세대의 비율이 69%에 달한다는 것은 눈 여겨볼 법하다.
오늘은 북미에 진출한 네이버 웹툰에 대한 가설을 세우고, 직접 데이터를 시각화하여 가설이 맞는지 확인해보려 한다.
Kaggle이라는 무료 데이터 사이트에서 네이버 웹툰 데이터 세트를 찾을 수 있었다. 사실 오늘 앞에서 북미에 진출한 네이버 웹툰에 대한 자료를 이야기 한 이유도 이 자료가 북미 네이버 웹툰의 자료이기 때문이다...(머쓱) 이 데이터에 있는 변수는 다음과 같았다.
id(자체 식별 아이디)
Name(웹툰 제목)
Writer(웹툰 작가)
Likes(좋아요 수)
genre(장르)
rating(별점)
Subscribers(구독자수)
Summary(웹툰 내용 요약)
Update(업데이트 일)
Reading Link(웹툰 링크)
위 변수들 데이터를 통해서 3개의 가설을 세우고 데이터 시각화를 통해 검증해보고려 한다.
좋아요 수와 구독자 수가 정비례 관계일 것이라고 가설을 세웠고, 분산형 그래프와 추세선을 이용하여 데이터를 시각화했다. 그 결과를 살펴보면 구독자수 1,000,000 이하와 좋아요 수 10,000,000 이하에 많은 데이터가 몰려있긴 하지만, 추세선으로 봤을 때 우상향하고 있는 모양으로 가설과 결과가 일치한다고 할 수 있다.
장르별 평균 좋아요 수와 장르별 평균 구독자 수를 막대그래프로 표현했다. 이 가설을 세웠던 이유는 대충 네이버 웹툰 북미 페이지를 훑어봤을 때 로맨스 웹툰이 많다고 느껴졌기 때문이다. 그렇다 그냥 내 뇌피셜 가설이라는 말이다.(...) 아무튼 그 결과를 살펴보니, 평균 구독자 수는 로맨스가 월등히 많다는 결과가 나왔다. 평균 좋아요 수는 로맨스 장르가 1등이긴 하지만 평균 구독자 수와는 다르게 일상물이 좋아요 수가 로맨스에 버금갈 정도로 많다는 것을 확인할 수 있었다. 왜 일상물의 좋아요 수가 많을까? 이 부분에 대해서도 생각해보면 좋을 것 같다. 지금 당장은 왜 그런지 잘 추측이 되지 않는다! 결과적으로 두 번째 가설도 일치한다고 할 수 있다.
완결 웹툰의 평균 구독자 수와 현재 연재 중인 웹툰의 구독자 수를 막대그래프로 비교했다. 눈에 띄게 정기 연재되고 있는 작품들의 구독자 수가 많다는 것을 확인할 수 있다. 이를 통해 나의 가설과 데이터가 일치한다고 할 수 있다.
하지만 내가 오늘 분석한 데이터 결과를 가지고 함부로 다음 단계를 예측하기는 쉽지 않다. 예를 들어 마지막 가설 같은 경우 정기 연재가 구독자가 많으니 정기 연재하는 콘텐츠를 늘려서 구독자를 늘려야 된다!라고 말할 수는 없다. 왜냐하면 원래 구독자였던 사람이 작품이 완결이 되고 나면 이탈할 수도 있기 때문이다. 나는 오늘 다른 변수는 고려하지 않고 단순히 데이터 시각화를 위해 자료를 시각화하는 것에 집중했을 뿐 실제로는 더 많은 데이터를 가지고 하거나, 가설 검정을 거치는 등 여러 단계가 더 필요하다! 그리고 그렇게 할 수 있는 나의 능력 또한 필요...! 데이터 공부하자!
참고자료