한글 맞춤법과 기계번역

- 국어국문학과 한글 맞춤법 전공 교재에서는 알려주지 않는 이야기

Feb 4. 2021

맞춤법 규정, 우리가 그것 조금 손만 보면 한국어 처리 인공지능은 금방 바보된다??

구글 번역기를 써 본 적이 있는가? 의외로 성능이 좋아서 놀란 적도 있는가? 구글 번역기는 인공지능(AI) 기술을 이용한 자동번역기로 알려져 있다. 구글 번역기가 처음 소개되었을 때 구글 번역기에 몇 문장 넣어 보고는 '이건 뭐 제대로 작동하지 않는데?' 하며 실망했던 기억이 난다. 그때 넣어 봤던 문장이 아래의 6 문장이다. 오늘 2021년 2월 4일 기준으로 여전히 번역이 매끄럽지 않다(^^;;).

구글 번역 예 1

구글 번역 예 2

구글 번역 예 3

구글 번역 예 4

구글 번역 예 5

구글 번역 예 6

자연 한국어 처리에서 겪는 어려움이 여러 가지가 있지만, 학부 수준의 교재에서 흔히 다루는 문제가 형태소 분석의 문제이다. 한국어의 경우, 위 예문에서 보듯이 문장 내에 있는 '나는'을 1인칭 대명사 '나' + 조사 '는'으로 분석할 것인지 아니면 '날다'의 활용형인 '날으는(飛, flying)'으로 분석할 것인지가 쉽지 않은 문제이다. 학부 교재에서는 이 문제를 '형태소 분석'의 문제라고 한다.

인공 신경망이 이 문제를 처리하는 방법에 관한 공학적인 이야기는 설명하기도 어렵고 이해하기도 어려우니 일반인들의 관심 밖 문제일 거다(요즘 들어서, 문어에서도 '것이다' 대신 '거다'를 자유롭게 쓰고 싶은 욕망이 강하다). 상당히 어려운 문장도 번역이 꽤나 잘 되는데 왜 저런 간단한 문장의 번역도 잘 안 될까? 일반인들은 그렇게 한번 슥 보고 혹은 코웃음 한번 하고 지나면 그만인데 이런 처리를 업으로 하는 사람들은 식겁한다. 한국어학자들에게는 한국어 화자에게는 너무나 쉬운 일이고 당연한 일인데 컴퓨터가 이 문제를 제대로 처리하도록 만들려는 전산언어학(computational linguistics) 연구자들은 이런 문장을 테스트 데이터로 받으면 당황스러워할 수도 있다.

최근의 인공지능 연구는 확률 기반의 수학적 처리를 기초로 한 소위 '인공 신경망'에게 학습 데이터를 주고 알아서 처리하라고 한 후, 가장 좋은 결과물을 내놓는 신경망을 채택하여 다른 업무에 활용한다. (범용 업무에 활용할 수 있도록 구글에서 공개한 '텐서플로(Tensor Flow)'도 그런 인공지능이다.) 신경망이 어떻게 한국어를 영어로 번역하는지에 대해서는 어느 누구도 정확하게 설명하지 못한다. 한국어학자들은 문법 규칙을 가지고 설명하려고 하지만 인공지능 분야에서는 그런거 쓰지 않는다. 언어 규칙을 통한 자연언어처리 기법은 한물간 지 오래다. 학제 간 융복합이 어쩌고, 인지과학이나 인공지능 분야의 융복합적 특성이 어쩌고 하지만 정작 인공지능 자체를 개발하는 일은 공학자들의 고유 영역이 되어가고 있는 추세이다.

그런데 이런 문제를 해결하는 일이 한글 맞춤법과 관련될 수도 있다는 생각은 잘 안 해 봤을 것이다.

한글 맞춤법 규정에 의하면 원칙적으로 단어는 띄어 써야 한다. 그리고 중고등학교 국어 시간(문법 시간인가?) 혹은 국어국문학과 학생이라면 한국어 문법 시간에 한국어의 조사는 단어라고 배운다. 그런데 조사는 단어이기는 하지만 자립성이 약해서 앞말에 붙여 쓴다는 사실도 배운다. 학교에서 배우는 동안에는 이게 자연스러워 보였을 거다.

그런데 생각해 보자. 위에서 예로 든 문장에서 단어를 엄격하게 띄어서 써 보자. 번역 문제의 핵심 부분을 생각하면, 문제가 되는 부분은 '나 는 나는 새도 떨어뜨리는 ~' 혹은 '나는 새도 떨어뜨리는 ~'처럼 써야 한다. 우리가 쓰는 글이 모두 이런 식으로 되어 있고, 자동번역 연구자들이 그런 데이터를 인공지능에게 학습하도록 한다면 적어도 위에서 예로 든 문제는 쉽게 해결될 것이다. (물론 예상치 못한 다른 어떤 문제가 발생할 수도 있으니 함부로 그렇게 할 일은 아니지만!

(뭐, 생각하는 데 돈 드는 것도 아니고 위험한 일이 생기는 건 아니니 얼마든지 해 보자.) 맞춤법을 잘 모르는 초등학생이 영어 일기 숙제를 하려고 꾀를 내서 번역기를 쓰는데 번역기에 '나랑 아빠는 서로 달맜다' 또는 '나랑 아빠는 서로 다마따'라고 쓰면 어떤 번역이 나올까? 2021년 2월 4일 현재, 이렇게 된다.

역시 어른들은 쉽게 이해할 수 있는 문장인데도 스마트한 인공지능에게는 어려운 문장이다.

인공지능이 발달하면서 감정 분석, 작곡, 그림 그리기, 기사 작성, 바둑, 게임 등등 다양한 분야에서 인간의 능력을 뛰어넘는 인공지능이 소개되고 있다. 미래를 전망하는 여러 지식인들도 자신의 영역이 인공지능에게 밀려날까봐 걱정하는 목소리가 나온다. 인문학자나 예술가들은 인간의 창의성이 발현되는 일은 그래도 살아남을 가능성이 있다고 하면서 안도의 한숨을 내쉬면서도 인문학자의 역할 축소를 걱정하는 사람들도 없지 않은 것 같다. 국어국문학과 학부생이라면 졸업 후 미래를 걱정하는 이야기로 걱정이 가득할 게다.

요즘말로 '존버'하는 심정으로 버텨 보자. 인공지능은 아직 사람을 따라오려면 한참 멀었다. (ㅁㅏㅈㅊㅜㅁㅂㅓㅂ ㄱㅠㅈㅓㅇ, ㅇㅜㄹㅣㄱㅏ ㄱㅡㄱㅓㅅ ㅈㅗㄱㅡㅁ ㅅㅗㄴㅁㅏㄴ ㅂㅗㅁㅕㄴ ㅎㅏㄴㄱㅜㄱㅇㅓ ㅊㅓㄹㅣ ㅇㅣㄴㄱㅗㅇㅈㅣㄴㅡㅇㅇㅡㄴ ㄱㅡㅁㅂㅏㅇ ㅂㅏㅂㅗㄷㅗㅣㄴㄷㅏ(맞춤법 규정, 우리가 그것 조금 손만 보면 한국어 처리 인공지능은 금방 바보된다). 우리가 실컷 만들어 놓은 인공지능을 무용지물로 만들고 앞 문장처럼 풀어쓰기로 데이터를 구축해서 다시 학습시키는 그런 바보같은 짓을 할 리가 없겠지만...

이쯤이면 우리가 아무렇지도 않게 하는 한국어가 얼마나 심오하고 복잡한지, 아니 한국어를 아무런 힘도 들이지 않고 사용하는 우리 인간이 얼마나 심묘막측한 존재인지 생각해 보게 되지 않나? 한국어 문법 연구자들이 인문학적 담론을 펴고자 한다면 이런 상상력에 익숙해질 필요가 있지 않을까 싶다. 인공지능 연구의 목표가 사람처럼 행동하는(또는 말하거나 쓰는) AI의 개발이라고 하면, 우리 인간은 너무가 많은 오류와 시행착오를 아무렇지도 않게 범하면서도 그런 정도는 신경도 쓰지 않는 그런 관대한 존재임을 잊지 말자. 존버~

-------------------------

갑자기 드는 생각 하나. 우리는 학자들이 죽어라 매달리는 문제는 아무렇지도 않게 관대하게 지나치면서도 아무것도 아닌 일에 목매는 정치 공방 담론에서는 상대를 죽어라 물어뜯으려고만 하는지도 모른다. AI를 연구하시는 분들은 최종 모델에서는 이런 오류가 안 생기도록 잘 만들어 주시길...

------------------------

keyword

매거진의 이전글워딩- 'fact'의 힘을 잃지 않기를...문법의 파격매거진의 다음글