17년간 유튜브의 역사적 영상을 한눈에
유튜브에는 정말 볼 게 많다. 올리는 사람도 많고 보는 사람도 많다. 강남스타일은 2012년 7월에 게재된 이후 38억 번이나 재생되었는데, 현재 인구가 78억임을 감안하면 거의 인구의 절반이 한 번씩 이 영상을 본 셈이다. 물론 이 중에는 수천번을 돌려본 사람 (혹은 컴퓨터)가 있겠지만, 인구의 모든 사람이 스마트폰을 가지고 있진 것도 아니므로 38억 뷰라는 숫자는 실로 어마어마하다. 그렇다면 강남스타일은 전 세계 유튜브의 영상 중 몇 위를 차지할까?
전체 8위다. 대단한 실적이다. 위 도표를 통해 강남스타일의 순위뿐만 아니라, 2004년부터 지금까지 게재된 모든 영상 중 가장 뷰가 많은 영상들을 한눈에 볼 수 있다. 위의 [데이터와 상호작용하기] 링크를 클릭하면 각 점을 마우스로 눌러서 영상 재생이 가능하다. 흥미로운 점은 거의 절반 가량의 영상이 아동 영상이라는 점이다. 음식점에 가면 스마프폰이나 아이패드로 핑크퐁의 영상을 시청하는 아이들을 자주 볼 수 있다. 재밌고 중독성 있는 영상으로 아이들의 시선을 빼앗는 건 비단 우리나라만의 이야기는 아닌 것 같다.
이번 시각화 자료에는 크게 세 단계의 방식을 거쳐 만들어졌다. 첫 번째는 위키피디아의 통계자료다. 그리고 이 자료를 기반으로 파이썬을 활용했다. 위키피디아 사이트의 텍스트를 엑셀로 옮긴 후, 주피터 노트북을 통해 python으로 xlsx파일을 읽은 후 유튜브 사이트 크롤링을 했다. 아직 실력이 부족해 꼬박 3일이 걸릴 만큼 만만치 않았지만, 그래도 결국 검색어를 기반으로 유튜브 데이터를 추출하는 데에 성공했다. 그리고 마지막으로 태블로를 통해 시각화했다.
홍수가 나면 가장 부족한 게 물이라고 한다. 인터넷은 정보의 홍수라는 다소 진부한 인용을 빌자면, 우리를 둘러싸고 있는 정보라는 물은 더 이상 사막의 오아시스처럼 소중하지 않다. 오히려 익사할 판이다. 훌륭한 큐레이터와 센스 있는 인플루언서가 생산하는 결과물을 취향껏 선택하는 것도 좋다. 하지만 직접 생수를 만들어 보는 것도 소중한 경험이다. 마치 <정글에서 살아남기>에서 페트병과 자갈, 흙으로 빗물을 정화해 마시는 것처럼, 직접 데이터를 구하고 정제해서 이해하는 일이 가치 있다고 나는 믿는다.
출처 : 위키피디아 (https://en.wikipedia.org/wiki/List_of_most-viewed_YouTube_videos)
유튜브 크롤링 (https://github.com/deepamine/Tableau/blob/master/yt_url_crawring.ipynb)