버즈분석으로 미래 예측이 가능할까?
이전 글에 이은 후속 분석(?)입니다.
※ 방송 내용과는 크게 관계없는 '잡담' 데이터에 대한 주관적인 분석 내용입니다.
프로그램 관련 정보를 찾아서 오신 분들은 공식 홈페이지에서 더 자세한 내용을 :)
방송 직전인 목요일(28일) 오후 10시까지 2만 건의 버즈 분석입니다.
- 수집 기간 : 2017-04-23 15:54:45 ~ 2017-04-28 22:11:54
- 데이터 수량 : 중복 제외 11,203건 (총 183,694자)
그리고 대망의 방송 후반부 & 직후!
(방송 시작 시각부터 수집하려고 했으나 데이터가 폭증하는 바람에 실패)
- 수집 기간 : 2017-04-29 00:38:02 ~ 2017-04-29 01:12:51
- 데이터 수량 : 33,230건 중 중복 제외 16,116건
아직까지 출연자가 굉장히 많고 방송에 모두가 다 나오는 것도 아니라서 큰 의미는 찾기 어렵겠지만,
왼쪽에서 오른쪽 그림으로 변했습니다.
방송에서 나온 에피소드에 대한 이야깃거리와 인물 이름이 늘었네요.
<방송 전>
[('투표', 1309), ('데뷔', 1107), ('진짜', 1028), ('휘', 1024), ('픽', 989), ('박우진', 820), ('콘서트', 786), ('애', 714), ('동한', 705), ('영상', 639), ('김', 637), ('주원', 626), ('탁', 593), ('실력', 564), ('다니엘', 548), ('하자', 536), ('우진', 512), ('조', 503), ('너무', 485), ('엠넷', 468), ('연습생', 461), ('좀', 446), ('지훈', 439), ('이대', 437), ('피디', 420), ('직캠', 398), ('박지훈', 379), ('위', 372), ('분량', 366), ('안', 363), ('응원', 360), ('강', 352), ('우리', 352), ('화이팅', 340), ('순위', 339), ('꼭', 328), ('하성', 326), ('운', 323), ('왜', 311), ('사람', 306), ('윤지성', 303), ('고정', 297), ('분', 288), ('제발', 285), ('거', 284), ('더', 282), ('임', 279), ('지금', 269), ('저', 265), ('뭐', 263), ('한번', 262), ('센터', 259), ('말', 259), ('보고', 258), ('사무엘', 257), ('명', 256), ('때', 256), ('배진영', 247), ('주', 241), ('요', 238), ('여러분', 235), ('노래', 234), ('그냥', 232), ('상남자', 231), ('학년', 226), ('내', 223), ('방송', 221), ('영민', 217), ('조진형', 216), ('친구', 209), ('정세운', 198), ('이', 195), ('춤', 185), ('준영', 184), ('팬', 183), ('그', 183), ('김성', 182), ('년', 182), ('이번', 179), ('오늘', 178), ('수', 178), ('시간', 172), ('리', 167), ('표', 166), ('정말', 163), ('성우', 162), ('편집', 162), ('옹', 160), ('무대', 159), ('봐', 158), ('보시', 158), ('방출', 156), ('얼굴', 149), ('노태현', 147), ('시', 144), ('팀', 144), ('프듀', 143), ('평가', 142), ('등', 141), ('나', 141), ('제', 141), ('만세', 139), ('김태민', 139), ('것', 139), ('차', 138), ('욕', 137), ('해', 136), ('매력', 130), ('못', 130), ('자기', 129), ('맘', 128), ('생각', 126), ('너', 123), ('쏘리쏘리', 122), ('일', 121), ('민호', 120), ('아이', 118), ('계속', 118), ('브랜뉴', 116), ('니', 115), ('언제', 113), ('김용국', 113), ('점', 113), ('콜미', 112), ('동안', 112), ('아이돌', 112), ('개인', 110), ('아직', 110), ('김재환', 110), ('지성', 109), ('현', 109), ('다른', 109), ('돈', 109), ('주진우', 108), ('때문', 106), ('섭', 105), ('개', 104), ('악편', 103), ('소년', 103), ('임우혁', 102), ('소속사', 102), ('이우진', 101), ('관린', 101), ('중', 101), ('하', 98), ('유진', 98), ('기사', 98), ('랩', 97), ('화', 97), ('장난', 96)]
<방송 후반>
[('휘', 1083), ('조', 1081), ('조가', 885), ('진짜', 784), ('왜', 613), ('실력', 608), ('동호', 606), ('상남자', 470), ('박지훈', 468), ('더', 463), ('지훈', 448), ('이대', 412), ('다니엘', 400), ('너무', 382), ('인지도', 382), ('관린', 365), ('와', 362), ('현빈', 360), ('좀', 355), ('투표', 342), ('사무엘', 331), ('애', 326), ('강동호', 315), ('권', 307), ('등', 293), ('우담', 286), ('얼굴', 286), ('뭐', 279), ('노래', 276), ('우진', 266), ('인기', 262), ('영민', 260), ('임', 255), ('켄타', 241), ('거', 232), ('배진영', 224), ('데뷔', 215), ('분량', 211), ('윙크', 210), ('표', 198), ('라이', 194), ('어벤져스', 191), ('개', 184), ('팀', 174), ('세운', 173), ('별로', 165), ('그냥', 158), ('제발', 148), ('학년', 146), ('만세', 144), ('안', 143), ('쏘리쏘리', 143), ('하자', 136), ('사람', 130), ('빨', 125), ('인기투표', 122), ('명', 121), ('말', 120), ('순위', 117), ('아이돌', 117), ('욕', 116), ('춤', 116), ('무', 114), ('오', 112), ('현장', 112), ('존잘', 111), ('운', 108), ('하성', 105), ('햇', 105), ('강', 104), ('우리', 104), ('--', 101), ('보고', 100), ('봐', 100), ('픽', 98), ('오늘', 98), ('때', 97), ('무대', 95), ('응', 93), ('정세운', 93), ('위', 92), ('얘', 90), ('역시', 90), ('태동', 89), ('보컬', 88), ('주', 88), ('대박', 87), ('함', 87), ('데', 87), ('박', 85), ('누가', 85), ('너', 84), ('화이팅', 84), ('짱', 82), ('목소리', 82), ('인정', 81), ('나', 81), ('난', 80), ('산적', 80), ('이', 77), ('문복', 77), ('성우', 75), ('누구', 74), ('외모', 74), ('진영', 74), ('어', 73), ('여기', 73), ('편집', 73), ('관', 72), ('방탄', 72), ('진심', 71), ('못', 70), ('고음', 70), ('이제', 69), ('고정', 69), ('실화', 67), ('링', 67), ('성운', 66), ('듯', 66), ('어벤저스', 66), ('더블', 66), ('인성', 65), ('생각', 64), ('느낌', 64), ('엠넷', 64), ('훨', 64), ('섹시', 64), ('김', 63), ('점수', 63), ('얼', 63), ('수', 62), ('해', 61), ('서은광', 61), ('니', 61), ('쟤', 61), ('저', 61), ('이건', 60), ('김용국', 60), ('안보', 60), ('린아', 59), ('내', 57), ('표정', 56), ('용국', 56), ('또', 56), ('다녤', 54), ('것', 53), ('매력', 52), ('섭', 51), ('응원', 51), ('어차피', 51)]
방송이 막바지에 다다르는 가운데.. 방송 중의 반응도 추가로 확인해서 글을 업데이트할 예정입니다.
(업데이트 04:00)
사람 이름이 일반명사로 오인식 되는 경우가 많아서 완벽하진 않지만 이름이나 별명을 나타내는 단어들에 대해 별도로 확인해봤습니다.
오랜 시간(약 5일)에 걸친 이야기와 단 시간에 올라온 내용이 사뭇 달라 보이죠.
엠넷 공식 사이트에 올라온 현재 순위와는 약간(?) 다른데 결과를 어느정도 맞혀줄지 궁금하네요.
※ 이름과 애칭, 별명을 전부 매칭할 수 없고 토큰화 과정에서 유실된 단어들이 있어서 순위를 매기진 않았습니다. 아래는 raw데이터 정도로만 참고해주세요. :)
4화 방송 전(5일간)
휘:1024, 박우진:820, 동한:705, 주원:626, 다니엘:548,우진:512, 지훈:439, 이대:437, 박지훈:379, 하성:326,윤지성:303, 사무엘:257, 배진영:247, 학년:226, 영민:217,조진형:216, 정세운:198, 준영:184, 성우:162, 옹:160,노태현:147, 김태민:139, 민호:120, 김용국:113, 김재환:110,지성:109, 주진우:108, 임우혁:102, 관린:101, 이우진:101,유진:98, 황민:95, 라이:86, 장문:85, 진영:83, 세운:81, 현빈:78, 성운:76, 이유진:73, 김태동:68, 윤희석:67,원탁:61, 태동:58, 문복:55, 인수:54, 켄타:52, 강동호:51, 홍은기:50, 김종현:47,김태우:46, 정정:41, 형섭:39, 태현:32, 재환:30, 박성우:29, 윙크:29, 최태웅:27, 김동현:26, 정원:26, 현우:25, 유선호:25, 윤재찬:24, 김동빈:23,이기원:22, 선호:21, 이인수:21, 은기:21, 대현:19, 윤용:18, 최민:18, 용국:17, 이광현:17, 의웅:17, 동하:17, 김현우:16, 동명:16, 옹성:16, 건희:15, 김예현:14, 우담:14, 재찬:14, 이건희:14, 하민호:13,성리:12, 동호:11, 종현:11, 기원:10, 김용진:9, 태민:9, 환웅:9, 진원:9, 정중:9, 민현:9, 권협:8, 김상균:8, 이준우:8, 저스틴:8, 동수:8, 최준영:8, 동빈:7, 무엘:7, 연국:7, 성혁:7, 유호연:6, 태웅:6, 김남형:5, 태우:5, 치발:5, 유회:5, 이의웅:5, 김상빈:4, 우혁:4, 규민:4, 조용근:4, 민기:4, 타카:4, 현민:3, 후림:3, 최재우:3, 동현:2, 박희석:2, 민혁:2, 광현:2, 정시:2, 효준:2, 최동:2, 남형:1, 예현:1, 용진:1, 김찬:1, 경목:1, 용빈:1, 건민:1, 스틴:1, 조성욱:1, 주진:1, 진우:1, 최승혁:1, 재우:1
4화 방송 후반(30분간)
휘:1083, 동호:606,박지훈:468, 지훈:448, 이대:412, 다니엘:400, 관린:365,현빈:360, 사무엘:331, 강동호:315, 우담:286, 우진:266,영민:260, 켄타:241, 배진영:224, 윙크:210, 라이:194,세운:175, 학년:146, 하성:105, 정세운:93, 태동:89,문복:77, 성우:75, 진영:74, 성운:66, 김용국:60, 용국:56, 박성우:48, 옹:47, 장문:47, 의웅:46, 무엘:38, 박우진:38, 지성:35, 형섭:29, 종현:27, 윤지성:26, 김상빈:25,김종현:25, 이우진:25, 김태동:19, 유회:17, 재환:16, 황민:15, 치발:14, 윤희석:14, 동한:13, 인수:12, 환웅:11, 김재환:10, 회승:10, 주원:10, 상빈:9, 이기원:9, 유진:9, 이인수:8, 저스틴:8, 동수:8, 상균:7, 노태현:7, 이유진:6, 원탁:6, 최재우:6, 동현:5, 김예현:5, 유선호:5, 동하:5, 민기:5, 민호:5, 니엘:4, 김상균:4, 김남형:3, 김동현:3, 예현:3, 성혁:3, 이의웅:3, 중지:3, 최민:3, 김용진:2, 태현:2, 박희석:2, 동명:2, 윤용:2, 이건희:2, 이광현:2, 정정:2, 준영:2, 희수:2, 홍은기:2, 민현:2, 남형:1, 성리:1, 연국:1, 김태우:1, 태우:1, 옹성:1, 선호:1, 진원:1, 건민:1, 건희:1, 기원:1, 임영:1, 대현:1, 정중:1, 규민:1, 조진형:1, 주진우:1, 진우:1, 타카:1, 하민호:1, 은기:1
[How to 문제해결]을 위한 오늘의 snippet입니다.
지난주와 같이 '명사(noun)'에 불필요한 내용들이 많아 이름의 빈도만 확인하고자 아래와 같은 방법을 써봤습니다.
파이썬 고수라면 간결하게 정리할 수 있었겠지만 그렇지가 못해서.. 매우 고지식한 방법으로 해결했습니다.
비슷한 고민을 하실 때에 참고가 됐으면 좋겠네요.
from collections import Counter
from konlpy.tag import Twitter
t = Twitter()
# konlpy로 데이터를 토큰화
pos = t.morphs({파일로부터 읽어온 데이터})
# 단어별 숫자를 세어서
count = Counter(pos)
# 딕셔너리 생성 후
freq = {}
# names 리스트에 찾고자 하는 이름과 별명을 일일이(...) 넣어서 활용, file은 탭으로 분리된 리스트 파일임
namelist = file.readlines()
names = str(namelist).split('\\t')
# 루프를 돌고 나면 freq = {'이름A': 123, '이름B': 456} 형태로 추가됨
for name in names:
if count[name] is not 0:
freq[name] = count[name]
-.NULL