brunch

You can make anything
by writing

C.S.Lewis

by 아이엠 Jul 06. 2024

중국에서 선업튀는...

문화 콘텐츠, 데이터로 분석하기

오늘은 데이터를 가지고 시각화를 해봤다. 데이터를 시각화하기 위해서는 수치로 된 데이터가 있어야 하는데 그래도 최근 형태소 분석을 가장 자신 있게 또 많이 해 봤기 때문에 형태소 분석 후 상대빈도를 계산해서 그 수치로 그래프를 그려봤다. 


그래프는 D3.js를 사용해서 만들어 보고 싶었지만 오늘 나의 목표는 최대한 빠르고 간단하게 만드는 것이기 때문에 내 친구 ChatGPT에게 만들어 달라고 부탁했다. 


어찌 됐든 수치화된 데이터가 필요하기 때문에 어제에 이어 오늘도 드라마 선업튀의 데이터를 사용했다. 이번에는 드라마 데이터가 아닌 중국 douban(豆瓣, 영화 평점 사이트)에서 선업튀와 관련된 댓글을 가져와서 형태소 분석을 진행했다. 댓글은 줄평에 있는 댓글만 가져왔고 스크래핑을 진행한 결과 총 220개의 댓글이 수집됐다. 많은 수는 아니었지만 그래프를 만들어 보기 위한 테스터용이기 때문에 상관없었다. 


형태소 분석은 예전에 교수님이 만들어 주신 코랩 코드를 사용했다. 이 코드가 아니더라도 이제 다양한 방법으로 형태소 분석이 가능하지만 아직 나는 이 코드를 사용하고 있다. '이제'라는 건 예전에는 코드를 만드는 것이 전문가만 가능한 일이어서 형태소 분석이 힘들었지만 지금은 누구나 다양한 방법으로 형태소 분석을 할 수 있게 되었다는 말이다. ChatGPT4o의 도움을 받으면 바로 분석하거나 어렵지 않게 코드를 만들 수 있다. 어쨌든 나는 예전에 사용하던 코랩 코드를 사용해서 형태소 분석을 진행했고 명사를 중심으로 상위 30개의 단어를 추출했다. 




그리고 태블로나 D3.js가 아닌 챗 친구에게 그래프를 그려달라고 부탁했다. 그렇지만 매일 코드를 달라고 했던 나의 명령 때문인지 이 친구가 습관처럼 파이썬 코드를 뱉어 냈다. 난 분명히 그래프를 그려달라고 말했는데 말이다. 그래서 하는 수 없이 빠른 작업을 위해 이번에는 코랩이 아닌 VSCODE를 사용해서 그래프를 만들었다. 그런데 여기에서 생각지도 않던 문제가 나왔다. 바로 폰트 이슈. 하나의 언어로 콘텐츠를 만들거나 데이터를 시각화할 때는 전혀 문제가 되지 않는 폰트 문제, 중국어와 데이터를 하는 사람들 또는 중국어와 웹 콘텐츠를 만드는 사람들은 무한 공감할 것이다. 한국어 폰트가 깨지지 않으면 중국어 폰트가 깨지고, 중국어 폰트가 깨지지 않으면 한국어 폰트가 깨지는 경우가 허다하다. 구글도 이 문제를 알고 있었는지 몇 년 전, Noto Sans CJK라는 폰트를 제공했던 적이 있다. 이 폰트 하나면 한국어, 중국어, 일본어 모두 문제없이 나타났다. 하지만 이 폰트가 언젠가부터 보이지 않는다는 슬픈 소식.... 어쨌든 이번에도 폰트가 문제였다. 중국어가 보이지 않길래 폰트 설정을 바꿨더니 이번에는 한국어가 보이지 않았다. 결국 쉽고 빠르게 그래프를 만들겠다는 나의 다짐은 물거품이 됐고 짧지 않은 시간을 폰트 수정에 쏟아부어야 했다. 


그래도 결론은 성공, 한국어 중국어 모두 문제없이 나타났다. 물론 날것의 그래프이긴 하지만 나의 목적은 쉽고 빠르게 그래프로 만들어 내는 것이었으므로 이 정도에 만족하도록 나를 타일렀다. 더 나가지 말자.

 


하지만 인간의 욕심은 끝도 없는 법. 꾸미기는 포기했지만 이 그래프를 동적으로 만들고 싶다는 생각이 들었다. 여기에 Java만 추가하면 되지 않을까라는 단순한 생각으로 복잡하지 않게 간단하고 빠르게 만들겠다고 다짐했다. 한번 집착하기 시작하면 끝이 없으니까. 


해당 코드를 챗 친구에게 공유하고 Html과 CSS, Java를 활용해서 클릭이 가능한 그래프로 만들어 달라고 부탁했다. 이런 부탁을 할 때는 이 친구만 한 친구가 없는 것 같다. 챗 친구는 나를 위해 빠르게 파일을 만들어 줬고 나는 VSCODE를 사용해서 약간의 수정을 한 후 완벽하진 않지만 빠르게 클릭 가능한 동적 그래프를 만들 수 있었다. 브런치가 임베드 기능이 없다는 것이 아쉬울 뿐이다. 



이렇게 간단하게 시각화를 완료했다. 


douban에서 선업튀에 대한 한줄평 댓글 데이터를 확인해 본 결과 상대빈도에서 1, 2위 비율을 차지한 어휘는 '남주(男主)'와 '여주(女主)'였다. 이 결과를 보고 선업튀는 주인공이 차지하는 비율이 많은, 주인공 중심의 드라마라는 생각이 들었다. 상황이나 주위에 있는 인물들의 스토리 보단 주인공이 차지하는 비율이 크기 때문에 아무래도 주인공에 대한 평가가 많았던 것 같다. 우리나라와 다른 점이 있다면 우리나라는 '남주'나 '여주'라고 하지 않고 '선재', '솔이' 등으로 댓글을 쓸 것 같은데 여기는 '남주', '여주'가 높은 빈도수로 나온 것이 눈에 띈다. 아마도 이 한줄평에는 그다음으로는 '스토리(剧情)', '연기(演技)', '시나리오(编剧)', '마지막(最后)', '비주얼(颜值)', '배우(演员)' 등이 나왔다. 한줄평이라서 그런가 내용보다는 드라마 자체에 대한 평이 많아 보였다. (참고로 douban은 짧은 평가가 있고 작품 평가가 있다. 작품 평가는 댓글이 좀 긴 편이지만 이번에는 빠른 분석을 위해 짧은 평가로 진행해서 생각과 다른 결과가 나온 것일 수도 있다.)


이번 분석은 텍스트 데이터를 가지고 쉽고 빠르게 형태소 분석 후 시각화를 목표로 진행했기 때문에 데이터에 대한 자세한 내용은 확인하지 않았다. 그렇기 때문에 저 어휘들이 긍정적인지 부정적인지는 확실하게 알 수 없었다. 물론 드라마 최종 점수 자체가 8.6으로 높은 편이기 때문에 긍정적인 내용이 더 많을 것으로 예상되기는 한다. 


그렇다면 다음 분석은 문장에 대한 감정분석을 해야 하는 걸까....


덧1. 

중국어로 선재는 善宰(Shànzǎi)인데 댓글 중에 이 단어와 같은 발음인 善哉(shànzāi)가 있어서 오타인가? 하고 봤더니 '좋다, 옳다'라는 뜻이 있는 표현이었다. 


善宰, 善哉!


덧2. 

재밌고 공감했던 한줄평

谢谢韩国还没放弃制作精良纯爱,绝了。

아직 웰메이드 로맨스를 포기하지 않아줘서 고마워요 한국, 대박입니다.

 

자극적이고 어려운 드라마들이 많아지고 있는 요즘, 목숨을 건 '사랑' 중심 이야기라는 것이 인기 요인 중 하나였지 않나 싶다. 












작가의 이전글 선재와 솔이 가장 많이 한 말은?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari