Melon 음악 차트 크롤링을 통한 분석
#R을 이용한 텍스트 분석
얼마 전 페이스북 계정을 통해 아이돌 산업을 Product Life Cycle의 개념으로 해석한 짤막한 조각글을 썼습니다. 그 글을 시작으로 음악 산업과 관련하여 수집 가능한 데이터가 있다면 제가 어떤 부분을 관찰할 수 있을지 고민해보다 가벼운 분석을 진행해보았습니다.
데이터 수집에는 Melon 덕분에 큰 어려움 없이 정보를 수집할 수 있었습니다. 분석 대상은 Melon 시대별 차트에 히트곡을 기록한 아티스트 중 1990년대(1997년~1999년), 2000년대(2000~2009), 2010년대(2010~2017년)에 탄생했던 아이돌에 한해 별도 분석을 진행하였습니다.
**********************************************************************
* 데이터 수집
- Melon 시대별 차트 1위~100위(출처: Melon)
- 가수별 소속사, 데뷔년도 수집(출처: Google)
* 데이터 정제 내용
- 아이돌/비아이돌 분류의 명확한 기준은 없기에 분석가의 기준에 따라 결정
- 가사 분석 시, 혼돈을 피하고 보다 표현력 있는 단어를 얻기 위해 1글자(나,너 등) 단어 혹은 영어 단어는 제외
- 반복성이 있는 단어 제외(야야야, 나나나, 랄랄라 등)
**********************************************************************
1997년 이후의 국내 히트곡 보유 아이돌 총 103팀의 정보를 이용해
1) 등장과 동시에 뜬 아이돌 vs. 무명 시절을 보유한 아이돌에 대한 비교 분석
2) 무명 시절을 보유한 아이돌의 특징
3) 키워드 분석을 통한 1990년대 vs. 2000년대 vs. 2010년대 아이돌 가사의 변화
1년 안에는 떠야 브랜드 네임으로 4년은 더 먹고 살 수 있다.
아래의 표는 1990년대, 2000년대, 2010년대 아이돌의 데뷔년도부터 첫 히트곡을 세우기까지 걸린 시간에 따른 아티스트 수 및 그 비중(percent)이다. 한 마디로 혜성같이 등장한 아이돌과 무명 시절을 겪은 아이돌의 비교 분석이다.
'평균곡히트유지기간'은 아이돌의 평균 히트곡 기록 기간이다. 예를 들어 2013년에 데뷔한 아이돌이 2014년, 2015년, 2017년의 해에 노래가 멜론 차트 top100 안에 들어갔다면 '히트유지기간'은 3년으로 책정하였다. 즉 그들의 인기가 얼마나 지속되었는지를 보려는 컬럼이다. (*데뷔한지 오래될수록 해당 칼럼의 숫자는 큰 값을 가지지 않나라는 의문을 가지겠지만 기본적으로 아이돌의 브랜드명(그룹명)을 10년 이상 지속하는 경우는 거의 없기 때문에 이는 크게 우려하지 않아도 되겠다.)
1990년대 아이돌 리스트:
[1] "구피" "김원준" "듀스"
[4] "디바" "룰라" "박지윤"
[7] "베이비 복스 1기" "샵" "신화"
[10] "언타이틀" "엔알지 (NRG)" "영턱스클럽"
[13] "원타임" "유피" "이지훈"
[16] "이효리" "제이워크" "젝스키스"
[19] "지누션" "컨츄리 꼬꼬" "클론"
[22] "클릭비 (Click-B)" "태사자" "터보"
[25] "플라이 투 더 스카이" "핑클" "한스 밴드"
[28] "god" "H.O.T." "KYT (코요태)"
[31] "R.ef" "S.E.S."
(*‘type’ = 첫 melon top100 진입년도 - 데뷔년도)
1990년대의 type은 6:4의 비율을 보이며, ‘평균곡히트유지기간’도 type별로 큰 차이가 없는 걸로 봐서 당시에는 등장과 동시에 대중에게 어필하는지 여부는 그들의 흥행과 큰 상관관계가 없었다. 하지만 ‘아이돌’이라는 정의가 생기고 시스템도 체계화 되기 시작한 2000년부터는 극단적인 양상을 보인다.
2000년대 아이돌 리스트:
[1] "2AM" "2NE1"
[3] "2PM" "4minute"
[5] "동방신기 (TVXQ!)" "레인보우"
[7] "문차일드" "보아 (BoA)"
[9] "브라운아이드걸스" "비"
[11] "비스트" "샤크라"
[13] "세븐" "소녀시대 (GIRLS` GENERATION)"
[15] "시크릿" "써니힐"
[17] "씨야" "아이유"
[19] "악동클럽" "애프터스쿨"
[21] "엠블랙" "오션 (5TION)"
[23] "원더걸스" "유엔"
[25] "유키스" "쥬얼리"
[27] "카라" "테이크 (TAKE)"
[29] "티아라" "하이라이트 (Highlight)"
[31] "BIGBANG" "CNBLUE (씨엔블루)"
[33] "f(x)" "FTISLAND"
[35] "SHINee (샤이니)" "SS501"
[37] "SUPER JUNIOR (슈퍼주니어)"
인기곡을 보유하고 있는 아이돌의 84%가 데뷔 후 1년 안에 차트권에 진입하였다. 그들의 흥행은 그 후로도 4~5년은 지속된다. 슬픈 현실이지만 인기몰이를 하기까지 다소 시간이 걸린 16%의 아이돌은 인기곡을 보유한다해도 그 ‘약빨’은 2년이면 끝이 났다.
2010년대 탄생 아이돌을 보자.
2010년대 아이돌 리스트:
[1] "걸스데이" "달샤벳"
[3] "러블리즈" "레이디스 코드"
[5] "마마무" "미쓰에이"
[7] "방탄소년단" "블락비 (Block B)"
[9] "비투비" "선미"
[11] "씨스타" "아이오아이 (I.O.I)"
[13] "악동뮤지션" "여자친구 (GFRIEND)"
[15] "이하이" "인피니트"
[17] "청하" "크레용팝"
[19] "틴탑" "AOA"
[21] "Apink (에이핑크)" "B1A4"
[23] "BLACKPINK" "EXID"
[25] "EXO" "EXO-K"
[27] "F-ve Dolls" "iKON"
[29] "JUNIEL" "PRODUCE 101"
[31] "Red Velvet (레드벨벳)" "TWICE (트와이스)"
[33] "Wanna One (워너원)" "WINNER"
2010년대 탄생 아이돌도 비슷한 양상을 보이긴 한다. 여전히 등장과 동시에 인기몰이를 한 아이돌의 비중이 높고 그들은 꾸준히 차트 안에 진입하고 있다. 아직 2010년이 끝나지 않았기 때문에 정보가 수치적인 측면에서 다소 부족하지만 현재까지의 결과를 본다면 2000년대 대비 조금의 변화가 있다. 자고 일어나보니 스타가 되어있는 아이돌과 오랜 기다림 끝에 결실을 본 아이돌의 비율이 8:2에서 7:3으로, 후자의 비중이 조금 늘어났다. 요즘에는 뒤늦게 뜬 아이돌의 비중도 늘어나고, 평균곡히트유지기간은 1.5배차이 밖에 나질 않는다. 2010년대는 데뷔와 동시에 바로 뜨지 않는다 하더라도 아직까지 기회가 있다라는 것일까?
2000년대와 2010년대에 차트권에 진입하기까지 2년 이상 걸린 아이돌은 누구일까?
(하이라이트는 기존 비스트의 멤버들이 새롭게 이름을 지은거기 때문에 논외로 치겠다.)
2세대 아이돌로 동방신기와 쌍벽을 이뤘던 SS501이 데뷔 이후 4년만에 첫 히트곡을 기록했다는 것이 조금 놀랍다. 2000년대 아이돌을 십대 때 경험했던 내 기억을 더듬어 보면 SS501은 김현중, 쥬얼리는 박정아와 서인영이, 카라는 한승연이 그룹을 대표하여 예능, 케이블, 드라마 등에 다수 출연하여 그룹 인지도를 높였다.
2010년 아이돌도 마찬가지다. 특정 멤버의 하드캐리가 돋보였을 시점에 각 그룹은 그 해 melon Top100차트에 진입하였다.
(EXO-K는 EXO의 유닛 버전이기 때문에 논외로 한다.)
비투비는 멤버 육성재가 2015년 ‘복면가왕’, ‘우리결혼했어요’ 출연하면서 대중에 얼굴을 알리기 시작하였다. 2015년 비투비는 1위 후보에 오르더니 2016년에는 첫 공중파 1위를 달성하였고, 2017년 ‘그리워하다’가 드디어 top100에 들어온 것이다.
B1A4의 경우에는 2013년 말 방영했던 '응답하라1994'에서 멤버 바로의 출연으로 대중은 B1A4라는 그룹을 인지하게 되었다.(당시에는 ‘바로’라는 이름보다 ‘빙그레’라는 극 중 별명이 대중에게 더 익숙했을 것이다.) 그리고 B1A4는 2014년 'Lonely'로 차트에 진입하였다.
에이핑크는 2012년 중반에 멤버 정은지가 ‘응답하라1997’로 팬층을 넓힌 이후 2013년 'NoNoNo', 14년 상반기 'Mr. Chu', 14년 하반기 'LUV'까지 세 곡이 연달아 빅히트를 기록하였다.
2012년에 데뷔한 EXID는 2014년 10월 그 유명한 ‘위아래 직캠’으로 음반 역주행이 시작되었고 무명 생활도 벗어나게 되었다.
데뷔한지 2년이 지나도 인기곡이 없다면 그룹의 끼 있는 멤버를 최전방에 내세우는 것이 기획사의 전략이겠다.
노래 가사는 시대상을 반영한다고 한다. 아이돌은 10대를 대표하는 가수로, 10대들의 마음을 가장 잘 대변하지 않았을까라는 물음에서 분석을 시작하였다. 이 분석을 위해서 시대별 키워드 TF-IDF를 산출하였는데 간단히 설명하자면 점수가 높은 단어일수록 다른 시대에는 많지 않고 해당 시대에서는 자주 등장하는 단어를 의미한다.
**********************************************************************
*Reference 및 참고 패키지: RmecabKo
https://junhewk.github.io/text/2017/11/03/rmecabko-update-to-version-0161/
- 단어 분석에는 RmecabKo를 활용하였습니다. 활용하기도 쉬워 텍스트 분석을 처음 시도하시는 분들에게 추천드립니다.
**********************************************************************
1990년대 아이돌은 '말세', '찌든', '변화', '항해', '부질없', '부딪쳤' 등 억압시키는 무언가에 대항하는 가사가 많다. 노래 가사는 보통 사랑에 관련된 단어가 많은데 신기하게도 1990년대는 그런 단어가 많지 않다.
2000년대 아이돌부터는 관심사가 사회가 아닌 이성으로 바뀌기 시작하였다. '줄래', '차근', '소원', '두근' 등 누군가에게 조심스럽게 다가가는 표현, 풋풋한 감성이 느껴지는 단어가 많이 쓰였다.
2010년대 아이돌은 2000년 대비 적극적으로 이성에게 어필한다. '취향', '저격', '난리', '찌릿', '철없', '와요' 등 활동적이고 통통 튀는 단어가 많이 쓰였다. 또 하나 특이한 것은 1990년대부터 2010년대까지 화자의 변화가 있다. 1990년대는 '사나이'가 말하는 남성적인 단어가 많았고, 2000년대는 상대방을 '누나'라 부르며, 2010년대는 '오빠','언니'라는 단어의 등장으로 화자가 여성임을 짐작할 수 있는 단어가 많아졌다.
(2010년대 아이돌이라고 사회 비판 노래를 하지 않은 것은 아니다. 그들의 앨범에는 수록되어 있긴 하나, 그 곡이 대중에게 인기를 끌진 못한 듯 싶다.)
다음 분석편에서는 작곡가/작사가/프로듀서가 아이돌에게 미치는 영향을 보려 한다. 더불어, 아이돌의 가사와 비아이돌 가사를 비교 분석해 보겠다.