brunch

You can make anything
by writing

C.S.Lewis

by 루퍼트 Nov 17. 2019

ㅋ와 ㅋㅋㅋ는 다르다 (데이터맛)

그녀는 고백을 받아줄까

Ch1. 분석의 시작 - 그녀의 ㅋ 는 무슨뜻일까?


며칠 전 '수요일은 음악프로' 라는 방송을 보았고, 장기하의 'ㅋ' 이라는 곡에 대해 토론이 진행되었다. 좋아하는 여자가 나의 고백에 'ㅋ'라는 답장을 보냈는데, 무슨 의미겠느냐 하는 토론이었다.

앨범 정보>멜론




그리고 이 토론 중간에 전화연결한 장기하씨가 생각하는 ㅋ개수마다의 의미는 아래와 같았다.


나 또한, ㅋ 마다의 의미를 내 나름대로 정의하며 쓰고 있었는데, 다음과 같다.

ㅋ - 놀림, 귀찮지만 안 붙이면 딱딱해 보일까 봐
ㅋㅋ - 긍정, 밝게 얘기하는 중임
ㅋㅋㅋ - 긍정을 넘어선 공감, 현실에서 웃으며 얘기하는 것과 비슷
ㅋㅋㅋㅋ 4개 이상 - 웃기다, 생각지도 못한 격공(격하게 공감)

그런데 ㅋ 단어가 내가 생각하는 대로 사용되고 있을까?

데이터를 보고, 분석하는 일을 하고 있는 사람은 항상 데이터를 근거로 얘기해야 한다고 배웠기 때문에, 블로그에 떠도는 ㅋ에 대한 추측성 글이 아닌, 실제 데이터를 근거로 ㅋ 단어의 의미를 찾아보고, 좌표로 표현해보기로 했다.




분석에 대한 실 데이터로, 친구들과 몇 년 동안 나눈 130만 건의 대화 데이터를 가지고 ㅋ 단어를 분석해보려 한다.

채팅 데이터의 특징은 다음과 같다  

10명 이상의 채팅 참여자

이들은 20대 후반~30대 초반으로 구성됨

1년 이상 대화가 이뤄짐


우선 ㅋ가 포함된 메시지만 추려보니 5,5만건 (전체의 4.08%)를 차지하고 있었다.
생각보다는? ㅋ 사용 비중이 적어 보인다.

그럼 이중에 어떤 ㅋ 단어를 많이 사용하는지도 확인해 보았다.


Best ㅋ 단어

ㅋㅋ와 ㅋㅋㅋ가 1, 2등으로 가장 빈번하게 사용되었다.
또한, 순차적으로 개수가 늘어나는 것 같지만 ㅋ는 5번째로 많이 사용되었다.

입력하기에 가장 간편하지만 짧다고 무조건 많이 쓰는 건 아님을 알 수 있다.


Ch2. 어떤 단어가 ㅋ단어와 쓰일까?

이제 ㅋ단어와 어떤 단어를 불여서 사용하는지 워드 클라우드를 통해 알아보자


ㅋ (1개)  

‘올ㅋ, 우왕ㅋ, 굳ㅋ’ 처럼 약간은 놀리거나 빈정대는, 또는 성의표시 단어와 사용

‘엌ㅋ, 아닠ㅋ’ 처럼 ㅋㅋ를 쓰려다 하나가 받침으로 들어간 경우




ㅋㅋ (2개)  

‘오ㅋㅋ, 오잉ㅋㅋ, 아ㅋㅋ’ 등 약간 놀람 단어와 함께 사용

‘응응ㅋㅋ, 이거ㅋㅋ, 넹ㅋㅋ, 감사감사ㅋㅋ, 그냥ㅋㅋ’ 등 일상 단어에 가벼운 느낌 부여

‘왘ㅋㅋ, 엌ㅋㅋ, 아닠ㅋㅋ, 아니앜ㅋㅋ’ 등 웃겨서 ㅋㅋㅋ를 쓰려다 하나가 받침으로 들어간 경우




ㅋㅋㅋ (3개)  

‘아ㅋㅋㅋ, 와ㅋㅋㅋ, 엌ㅋㅋㅋ, 아닠ㅋㅋㅋ, 진짜ㅋㅋㅋ’ 등 웃겨서 감탄사와 사용

‘그냥ㅋㅋㅋ, 그거ㅋㅋㅋ,뭐지ㅋㅋㅋ,감사합니다ㅋㅋㅋ’ 등 일상 단어에 가벼운 느낌 부여

‘그러게ㅋㅋㅋ, 그러네ㅋㅋㅋ, 좋네ㅋㅋㅋ, 좋다ㅋㅋㅋ’ 등 공감 단어에 함께 사용



ㅋㅋㅋㅋ (4개)  

‘개웃기네ㅋㅋㅋㅋ, 아니ㅋㅋㅋㅋ,진짜ㅋㅋㅋㅋ, 헐ㅋㅋㅋㅋ,앗ㅋㅋㅋㅋ,미치겠네ㅋㅋㅋㅋ’

ㅋㅋ와 ㅋㅋㅋ 보다 생각지 못하게 웃겨서 감탄사와 사용



ㅋㅋㅋㅋㅋ+ (5개 이상)  

‘아닠ㅋㅋㅋㅋㅋ, 엥ㅋㅋㅋㅋㅋ, 개웃기넼ㅋㅋㅋㅋㅋ, 진짜ㅋㅋㅋㅋㅋ’

의미 있는 표현은 찾기 어렵고, 감탄사와 함께 매우 웃김을 표현






Ch3. 서로 비슷한 ㅋ 문장들은?

이제 각 ㅋ 단어와 사용되는 단어와 그 의미 해석까지 진행해 보았다.

ㅋ이 들어간 5.5만 건의 문장들을 LDA 모델을 통해 8개의 토픽으로 나눠 보았고, PCA(주성분 분석)으로 차원을 축소하여 토픽 간 거리를 2차원 좌표로 시각화하였다.


아래와 같이 토픽들이 제각각 차원 값을 가지고 시각화되었다.


만들어진 좌표를 주관적으로 (ch2의 분석 결과에 근거하여) 토픽을 재정렬하였다.



Ch3. 그래서 그녀의 답변은?

말머리에서 언급했던 장기하 씨의 노래 'ㅋ'에서의 그녀의 답장으로 둘이 잘 될 확률을 예측하며 글을 정리해보자. ㅋ이라는 단어와 자주 쓰이는 단어의 유형은 크게 3가지이다.  

당황 (41.7%)

조롱/부정 (33.3%)

긍정 (25.0%)

당황을 제거하고 조롱과 긍정만을 비교하면 고백 성공률은 42.9% 로 희망을 져버리긴 아직 이를 수 있다고 예측하면서 글을 마무리한다.


Ch x. 한계점  

데이터의 성별, 연령층, 사는 환경이 편중되어 정확도에 영향을 줄 수 있음

데이터의 생생함을 위해 형태소분석기를 사용하지 않아, 같은 단어가 집계에 활용되지 않았을 수 있음

애매한 단어의 뜻은 분석가의 직관에 따라 다르게 풀이될 수 있음


Extra. 참조

‘넵’ 병은 실재했다 - 토픽을 좌표화 하는데 인사이트를 얻음

GitHub - amueller/word_cloud: A little word cloud generator in Python 

    ㄴ word cloud를 그리는 데 사용함 (필자가 PR 기여한 오픈소스)

PySpark, SparkSQL로 데이터 집계 및 Jupyter Notebook을 함께 사용 테스트를 위한 토이 프로젝트

매거진의 이전글 5. 로지스틱 회귀
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari