인터넷 밈으로 보는 형태소 분석의 중요성

"나 차였어.. I was a car"와 형태소 분석

Oct 30. 2022

인터넷 밈 중에 형태소 분석의 중의성을 활용한 말장난이 많이 있다.

대표적인 예로 "나 차였어"를 "I was a car"로 표현하는 말장난이 있는데,

"차였어"를 "차/동사 + 이/피동접미사 + 었/선어말어미 + 어/종결어미"로 분석할 수 있지만, "차/일반명사 + 이/계사 + 었/선어말어미 + 어/종결어미"로도 분석할 수 있다는 중의성을 활용한 것이다. 후자로 분석한 문장을 영어로 번역하면 "I was a car"가 된다.

유명한 '제노예요' 시리즈도 마찬가지다. '제노'라는 아이돌의 이름을 알려주는데 형태소 분석의 오류로 의미 전달이 되지 않았다. 답해준 사람은 "제노/고유명사 + 이/계사 + 에요/종결어미"로 분석될 것을 의도했지만, 답을 들은 사람은 "저/대명사 + 의/관형격조사 + 노예/일반명사 + 이/계사 + 에요/종결어미"로 분석했다.

형태소 분석은 자연어처리, 언어 데이터 처리의 가장 기본적인 작업 중 하나다. 가장 간단하게는 텍스트에 사용된 명사를 추출하여 글의 주제를 파악하는 식으로 활용할 수 있다.

그런데 위의 밈들과 같이 형태소 분석에 중의성 또는 오류가 나타나면 글의 주제를 이상하게 파악할 수 있다. 실연의 아픔에 대해 말하고 있는 글을 자동차에 관한 글로 분류하거나, '제노'라는 아이돌에 대한 글을 노예에 관련된 글로 분류할 수 있다.

기본적인 작업이지만 매우 어려운 작업이기도 하다. 특히 한국어와 같은 교착어를 다룰 때 매우 까다롭다. 영어와 같은 (거의) 고립어는 간단하게 어절 단위로만 잘라도 명사를 추출할 수 있는 경우가 많다. "I was a car"는 [I, was, a, car]로 분리되고 이 중 'car'는 따로 어떤 작업을 하지 않아도 명사 그 자체다. 하지만 "나 차였어"를 공백 단위로 자르면 [나, 차였어]로 분리되고 이 중 '차였어'는 명사가 아니다. 여기서 어미들을 제외해내야 비로소 '차'라는 명사를 얻어낼 수 있다.

명사의 경우 영어는 기껏해야 복수형 정도만 처리해주면 되지만, 한국어는 '차였어', '차였다', '차다', '차지', '차를', '차가', '차는', '차일걸', '차냐?' 등등 무한한 명사+어미 조합이 가능하다.

게다가 띄어쓰기까지 하지 않으면 한국어 형태소 분석의 난이도는 최고로 치솟는다.

이렇게 형태소 분석이 어렵지만, 그래도 어렵고 복잡해서 이런 말장난이 가능한 게 아닐까?

형태소 분석 때문에 고통받을 때마다 말장난 시리즈 하나씩 보면서 웃기!

Thumbnail Photo by Shubham Dhage on Unsplash

keyword

영원히 헷갈리지 않을 precision과 recall매거진의 다음글