brunch

You can make anything
by writing

C.S.Lewis

by 강한별 Oct 19. 2016

데이터 분석가의 걸그룹 데이터 분석하기

부제 : 공부하는 데는 덕심이 최고시다

나는 아이돌에 관심이 많다. 정확히는 무엇인가를 열심으로 좋아하는 사람들(a.k.a 덕후)에 대해 흥미를 가지고 있다. 아이돌, 게임, 만화, 코스메틱 가리지 않고 덕후들의 생태와 그들이 좋아하는 것에 대해 관심이 있어서 이 부분에 대해 분석해보고 싶은 생각이 있었다. 사실 허울 좋은 명분이고 python을 공부해야 하는데 원체 외우는 것도 싫어하고 오버워치만 하고 싶은 생각이 3달 가까이 이어졌다. (근데 왜 경쟁전 점수는 8:45 하늘나라로..?) 계속 넋 놓고 있으니 일중독자인 남자친구가 구박하기도 하고 나도 내 자신이 너무 머저리같이 느껴져서 스스로가 재밌을 만한 주제로 도전해봐야겠다고 결심했다. 좋아하는 노래를 기상 음악으로 맞추면 그 노래가 싫어진다는 불길한 말이 생각났지만 어쨌든 이런 단순한 마음으로 시도했다.


내가 관심있는 걸그룹끼리 어떤 차이가 있는지 텍스트 분석을 해봐야겠다
그걸로 공부 하면 의욕이 좀 나겠지



걸그룹은 숙고한 끝에 소녀시대, 원더걸스, 2NE1, f(x), 여자친구 총 다섯 그룹을 선택하였다.  대중적이면서도 그룹별 색깔이 강하다고 생각되는 결정하였다. 참고로 나는 python도 jump to python 하나만 설렁설렁 봤고, pandas나 matplot은 tutorial 위주로 보고 하여간 다 설렁설렁 봤다. 빡시게 하겠다는 생각이 없었기 때문에 에러가 나면 아예 멈추고 놀기도 하다보니 전체적으로 시간이 많이 걸렸다. 실제적으로 들인 시간은 길지 않다.


이 분석에서 이루고자 하는 것, 확인하고 싶었던 바는 다음과 같다.


가설1. 걸그룹마다 어필하는 이미지가 있는데, 그 이미지는 많이 사용하는 어휘에도 반영될 것이다. 가설 1은 가설 1-1과 1-2로 확인한다.
가설1-1. 걸그룹마다 많이 사용하는 품사군이 다를 것이다.
ex. 명사, 동사, 형용사 중 특정 품사군의 비중이 높다
가설1-2. 걸그룹마다 품사별로 단어의 빈도가 다를 것이다. (어휘의 반영)


위 내용을 파악하기 위해  나는 이런 형태로 데이터를 수집해야겠다고 생각했다.


미묘하게 기억 안 나는 '오늘부터 우리는'의 가사


네이버 뮤직은 각 아티스트마다 아티스트 번호가 부여되어 페이지가 구분된다. 가사의 url이 곡번호가 바뀌는 형식이어서 곡번호를 크롤링 하고, 또 다시 아티스트 번호를 바꿔 곡 번호를 크롤링한 후, 그 곡번호가 무엇을 의미하는지 말해줄 타이틀, 분석의 주 재료인 가사를 크롤링했다. 가사가 등록되지 않은 MR의 경우는 크롤링 이후에 'null' 값으로 대체하였다.


이 캡쳐만 보고도 어떤 걸그룹인지 알 수 있다면 당신도 훌륭한 걸그룹 덕후입니다


원래는 이렇게 데이터를 딱 수집해서 텍스트 분석해서 걸그룹별로 추구하는 이미지를 비교해봐야지 하고 생각했는데 막상 데이터 프레임을 만들고 나자 가볍게 비교할만한 게 생겼다.


우선 각 그룹별 발매곡 수이다. 발매곡 수는 네이버 뮤직에 등재된 곡을 기준으로 했다.



단순히 그룹별 발매 곡수만 뽑은 것이지만 소녀시대의 관록이 느껴진다. 여자친구는 10배 이상 곡을 더 내야 소녀 시대를 따라잡을 수 있는 것이다. 원더걸스는 소녀시대와 비슷한 시기에 데뷔한 것 같은데 박진영의 미국병 때문인지 곡수가 적다. 2NE1도 야심차게 데뷔했던 것 같은데 후배 그룹은 f(x)보다 곡수가 적다. 데뷔일 기준으로 곡수가 얼마나 차이나는지 보면 이 차이가 극명해질 것 같아 그 부분도 뽑아봤다.



단순하게 오늘(작성일 2016. 10. 17)을 기준으로 데뷔일로부터의 시간을 계산한 값(days_since)로 곡수를 나눈 것이다. 정규 발매라면 일정 텀을 두고 한꺼번에 여러 곡이 나오는 형태이지만 러프하게 살펴볼 수 있다고 생각했다. 예상대로 2NE1의 평균 곡 발매일이 60일로 다섯 그룹 중에서 가장 평균 곡 발매일이 길었다.


YG 기획사 아티스트의 팬들끼리 하는 말로 양현석이 소속 가수들 앨범을 안 내주고 '현석이의 보물상자'에 넣어둔다고 하는데, 그 현상을 반영하는 것 같다. 그에 반해 가장 짧은 그룹은 소녀시대로, 계산한 값에 따르면 10일마다 한 곡씩 낸 수준이었다. 그 다음으로 텀이 짧은 여자친구로 소속사인 소스뮤직이 열일하고 있다는 것을 알 수 있다. 소녀 시대와 같은 소속사의 f(x)는 소녀 시대만큼 앨범을 많이 혹은 자주 내는 것은 아닌 듯 하다.


현석이의 보물상자라고 구글링하면 나오는 짤...


그럼 이제 본론으로 들어가서 가사를 분석해보았다. 첫번째로 여자친구를 살펴봤다.


별 의미 없어 보이는 결과 ㅠㅠ

품사를 구별하지 않고 다 넣으니까 이런 결과가 나온다. 별 의미가 없어 보이는 결과가 나온다. 하지만 여기서 실망은 이르다. 애초에 그룹별로 사용하는 품사군의 비중에도 차이가 있을 거라고 생각했기 때문에 품사별로 사용 비중을 뽑아서 비교해보았다. 이 뒤에서부터는 matplot 방법이 복잡해지는 것 같아 pandas로 groupby 정도만 하고 엑셀로 빨리 돌렸다(..)


차이가 느껴지나요?

다른 그룹들과 비교했을 때, 여자친구는 명사의 비중이 높았고 소녀시대나 f(x)는 구두점(하이픈이라든가 물음표 등)의 비중이 높으며 원더걸스와 2NE1은 영어의 비중이 높았다. SM 소속사의 가사가 일본인 작사가가 많아서 그런 건지 일본의 영향을 받아서 그런 건지 구두점이 많은 것 같다. 원더걸스는 미국 진출(..)을 꿈꾸며 만든 영어 노래가 있어서 영어의 비중이 높게 나오는 것 같고, 2NE1은 대표곡인 Fire나 I'm so lonely만 봐도 영어 후렴구가 반복되어서 영어의 비중이 높게 나오는 듯 하다. 이것으로 가설1-1을 확인했고 한 단계 더 나아가서 많이 사용하고 있는 단어의 랭크를 30위까지 뽑아 확인해보기로 했다.


제일 왼쪽의 숫자는 데이터 프레임 전체에서의 번호이므로 무시해야 한다. 이 사진은 명사만 대상으로 한 것

먼저 명사의 경우 모든 그룹에서 공통적으로 상위 랭크에 사랑이 있었다. 가사의 공통 주제가 사랑에 관한 것이어서 그런 듯 싶다. 다음으로는 일반적으로 많이 사용되는 명사를 제외하고 다른 그룹에 비해 랭크가 높은 단어들을 골라 색칠해보았다. 여자친구(하늘색)는 '우리'에 대해서 이야기 하고 있고 '마음'과 '바람', '꿈'에 대해서 전체적으로 희망차고 소녀적인 느낌을 준다. 소녀시대(분홍색)의 경우 '너'라는 2인칭 대명사 외에도 '그대'라는 대명사를 많이 사용하고 있으며 '세상과 '소원'에 대해서 이야기 하고 있다. f(x)(초록색)는 다른 그룹보다도 '나'('날' '내' 등 변용 포함)의 언급이 많아 자기 감정 표현이 가사에 더 많지 않을까 싶다. 2NE1(주황색)에서 비교적 상위 랭크를 차지하는 '이제', '지금' 등 시간을 나타내는 단어들은 과거와 현재를 비교하는 가사에서 온 것 같다. 원더걸스(보라색)에서 색칠한 '왜', '다른', '여자'는 박진영의 가사가 날 버리고 다른 여자에게로 간 남자에 대한 류여서 그런 것 같다. 이제 동사도 살펴봐야지.


여자친구는 '주다', '비추다', '어리다', '꿈꾸다' 등 명사에서 본 것처럼 희망차고 밝은 느낌의 동사가 상위에 있다. 소녀시대는 '싶다', '되다', '해보다' 등 앞으로 자신의 행동이나 상태를 다짐하는 동사도 상위에 있고 '웃다'라는 긍정적인 동사(다짐과 웃음이 연결되는 걸까?)의 순위가 높다. 버리다의 랭크도 높은데, 과거의 자신을 버리고 싶은 것인지 목적어는 잘 모르겠다. 이런 걸 확인하고 싶으면 연관어 분석을 해봐야 할 것 같다. f(x) 역시 '싶다'라는 동사가 상위에 있는데 이 부분은 미래지향형이라고 해야할까, SM에서 공통적으로 밀고 있는 이미지인 것 같다.


그리고 좀 재밌다고 생각했던 부분이 f(x)의 동사 상위 순위에서는 '알다', '모르다'가 있었던 것이다. '모르다'의 경우는 그래도 순위가 좀 낮더라도 다른 그룹에서도 나타나는데 '알다' 같은 동사는 거의 있는 그룹이 없다. 내 생각엔 f(x)가 데뷔 당시 미성년자가 성인이 되어가는 미성년자가 많은, 그래서 사랑이라는 감정을 몰랐다가 알아가는 느낌의 가사가 꽤 있어서 이런 결과가 나왔을 것 같은데 확실히는 모르겠다.


2NE1은 앞의 결과들과 확연하게 다르게 '버리다', '잊다' 라는 동사가 위에 있어 주로 이별 노래를 불렀구나 하는 느낌이 왔다. 원더걸스도 2NE1과 비슷한데 더 과격하다. 빈도가 좀 낮긴 하지만 '꺼지다'라는 말이 있다. 다른 여자 때문에 떠나간 남자에게 부르는 노래인데 고운 말이 나올 수가 없겠지.


마지막으로 형용사이다.



여자친구는 '파랗다', '영원하다', '소중하다' 등 따스한 이미지의 형용사로 일관하고 있고, 소녀시대는 '밉다'(그대가 밉다는 거겠지?)라는 말과 동시에 '달콤하다', '수줍다' 등 달달한 분위기의 단어가 함께 상위에 있다. 곡의 분위기가 다양하게 있어서일 것 같다. f(x)와 2NE1, 원더걸스는 공통적으로  '없다'가 1위이다. f(x)는 '없다' 외에는 '멋지다', '아프다', '특별하다'가 눈에 띄는데 이거 약간 중2 감성..? 아무튼 미성년자에서 성인이 되어가는 특별한 감정을 많이 이야기 한 그룹이긴 하다. 2NE1은 '아프다', '아니다', '차갑다' 등 위의 동사 파트에서 봤던 것처럼 부정적인 형용사가 많았고 원더걸스 역시 '싫다' 하고 크게 방점을 찍었다. 이렇게 해서 가설 1-2에서 생각했던 대로 그룹마다 단어 사용에 특색을 보인다고 나는 결론을 내렸다.


정리하자면 소녀소녀한 감성의 여자친구,


사진부터 소녀소녀해!

좀 더 성숙한 느낌이면서 긍정적인 소녀시대,

여자친구 사진을 보고 소녀시대를 보니 성숙한 느낌이 물씬

뭔가 멋진 나의 감성에 포커스를 맞춘 것 같은 f(x),

사진이 이미 몽환적이다

이별의 정한(..)을 노래하는 2NE1(현석이의 보물상자로 들어간),

민지의 탈퇴로 이 대형은 더 이상 보기 힘들 것 같은 2NE1

나쁜 남자에게 영어로 꺼져버리라고 하는 원더걸스 정도로 생각해볼 수 있었던 것 같다.

사진에서부터 포스가 장난 아니야!


후기.

하면서 좋았던 점은 내가 관심있는 분야여서 에러가 떠도 '아 이게 안 되지 빨리 결과 보고 싶은데' 마음으로 (그나마) 열심히 할 수 있었고, 확실히 이거 저거 코드를 많이 써볼 수 있어다. 그리고 대략 '어떤 그룹은 이런 이미지지' 생각했던 것들이 데이터로 드러나서 재밌었다. 아쉬웠던 점은 다 하고 나니 좀 더 효율적으로 코드를 짤 수 있었을 텐데 라는 생각이 든다. 다음에 좀 더 정돈해보고 싶다. 트위터의 한국어 분석기를 사용했는데 분석 정확도가 좀 떨어지는 것 같아서 아쉽다. 오분류하는 것들을 발견하고 나니 마음이 아팠다. 그리고 사실 이 내용이 걸그룹을 좋아하는 사람이 아니라면 얼마나 재밌을지 모르겠다. 다른 분들이 이 결과에 대해서 어떻게 생각하는지, 특히 덕후분들이 어떻게 생각할지 궁금해졌다.


여기까지 긴 글 읽느라 고생 많으셨습니다. 감사합니다!

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari