brunch

You can make anything
by writing

C.S.Lewis

by 여운 Mar 02. 2023

모두가 무시한 데이터에서 찾아낸 인사이트

책 <단어의 사생활>

 자연어처리에서 가장 먼저 만나게 되는 힘든 부분은 바로 전처리다. 수집한 데이터에서 쓸모없는 문장 부호나 오타를 없애고, 의미 없는 문장이나 단어를 필터링하는 과정이다. 이때 불용어(stopwords)를 필터링하는 경우가 많은데, 영어의 불용어는 “I, she, he, it, there”, 한국어의 불용어는 “이, 그, 저, 은, 는” 등으로 주로 문법적 기능만 수행하는 대명사나 조사다. 그런데 이러한 불용어에서 인사이트를 찾아낸 사람이 있다. 불용어를 통해 화자의 성별, 지위, 심리 등을 알아냈다. 


 가장 흥미로웠던 것은 ‘나’라는 1인칭 대명사였다. 일반적으로 남성보다 여성이, 사회적 지위가 높은 사람보다 낮은 사람이, 행복한 사람보다 우울한 사람이 ‘나’라는 대명사를 많이 사용한다고 한다. 이들은 불안해하고, 남의 시선을 의식해서 자신에게 초점을 많이 맞춘다. ‘내 생각엔’과 같은 회피성 어구도 많이 사용한다. 예를 들어, 날씨를 설명할 때 그냥 “추워”가 아니라 “내 생각엔 추워”라고 말하면서, 춥다는 자신의 판단이 사실이 아니라 하나의 의견에 불과하다는 점을 전달한다.


 이외에도 재밌는 분석이 많았다. 사회적 지위가 높은 사람일수록 청자는 포함하지 않고 화자와 화자의 친구들만을 의미하는, 배타적 의미의 ‘우리’를 많이 사용한다. 영어의 정관사 ‘the’를 사용하면 청자와 화자가 이미 공유하고 있는 지식이 있다는 것을 암시한다. 예를 들어 “그 반지(the ring)”라고 말하면 두 사람이 특정 반지에 대해 공통적으로 아는 바가 있음을 추론할 수 있다. 


 이 책의 내용은 LIWC라는 프로그램으로 구현되었고, 다양한 연구에 활용되었다. 딥러닝이 발전하기 전의 연구라 부정 표현이나 신조어를 반영할 수 없고, 단순히 특정 단어의 유무로 판단한다는 한계가 있으나 나도 활용해보고 싶었다. 아쉽게도 한국어 데이터에 활용할 수 있는 LIWC는 현재 없다. 


 모두 삭제부터 하고 보는 불용어에서 의미를 찾아낸 것이 재밌었고, 탐정이 된 기분이어서 더 재밌게 읽은 책이었다! 

매거진의 이전글 딥러닝과 완벽주의
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari