brunch

You can make anything
by writing

C.S.Lewis

by 전송현 Oct 29. 2024

글로벌 발음기호로서 훈민정음의 가능성(5)

인공지능의 언어 훈련에 한글 이용 가능성

위 주장이 그냥 언어 교육적인 측면에만 중요한 것은 아닙니다. 나이가 들고 직업이 프로그래머이다 보니, 눈이 쉽게 피로해져서 요즘은 자기 전에 오디오북을 자주 듣습니다. 미국에서 살다 보니 한국어에 노출되는 것은 이렇게 책을 읽는 시간이 거의 대부분을 차지합니다.

한글을 읽어주는 기능은 과거에 비해 비약적으로 상승했습니다. 하지만 아직도 수많은 단어들을 제대로 읽지 못합니다. 문장에 따라, 문맥에 따라 똑같은 글자들이 다르게 발음되기 때문입니다. 토요일마다 한국학교에 가서 아이들을 가르치는 것과 더불어 인공지능에 대해 공부하면 할 수록 이러한 문제는 더욱 안타깝게 다가옵니다.

외국인들이 입을 모아서 얘기하는 한국어의 어려움은 비단 한국어의 형용사, 조사, 어미의 복잡성에서만 기인하는 것은 아닙니다. 수많은 예외는 정말 설명하기도 어렵고 배우기는 그것보다 더 어려울 것입니다. 사람도 이렇게 힘든데, 인공지능이라고 다를까요?

하지만 조금만 생각해 보면, 한글이 수학과 아주 비슷한 구조를 가지고 있다는 것을 알 수 있습니다. 정확하게는 "훈민정음"이 수학과 아주 비슷하지요. 수학에 가깝다는 것은 컴퓨터가 그만큼 더 일을 잘 할 수 있다는 것을 의미하기도 합니다. 그런데 왜 아직까지 인공지능은 거기에 이르지 못했을까요? 영어가 압도적인 학습량으로 그 한계를 극복한 것에 비해 한국어를 사용하는 인구가 그리 많이 않은 한국에서 한국어 읽기 모델은 대체 어떻게 개선해야 하는 걸까요?

여기에 국가 차원에서 한국어가 교정되어야 할 당위성이 나올 수 있습니다. 일부의 학자들이 아무리 주장하고, 저 같은 보통 사람이 아무리 주장한다고 해도 이러한 일개 의견이 국가의 교육에 영향을 미치는 건 거의 불가능에 가깝습니다. 국가도 기업과 같이 이득이 되지 않으면 투자를 하지 않으니까요.

하지만 그것이 장기적으로 한국에 엄청난 이득을 안겨줄 수 있다면 어떨까요?

인공지능 시대에 한글이 인공지능 언어모델을 훈련시키는 데 지대한 역할을 한다면, 한국의 위상이 높아짐과 동시에 수많은 사람들이 한글 자막을 읽을 수 있는 시대가 오고, 자연히 한국어 컨텐츠의 소비도 높아질 겁니다. 한국어를 가르치는 교사들의 위상은 세계적으로 높아질 것이고, 한국어와 한국 문화를 배우기 위해 한국을 방문하는 사람들도 많아질 겁니다.

그렇게 되기 위해서 한글은 일정 부분 수술이 필요합니다. 많이도 필요 없습니다. 단지, 세종대왕께서 처음 한글을 창제하실 당시 한글에 넣어 두었던 의도만 우리가 "발전" 시키면 되는 겁니다. 좁은 공간에서 같은 종끼리 교배하다가 유전성 다양성을 상실하고 멸종의 길에 다다르는 생물과 같이 지금까지 한글은 오히려 퇴보를 하고 있었지만, 이제 다양한 DNA를 받아들여 더 강력하게 진화해야 할 시기가 되었다고 생각합니다.


그래서, 인공지능 언어 훈련에 한글을 어떻게 이용하냐고요?


한글의 모든 자음/모음에 입모양과 발성에 대한 힌트가 있다는 것을 이미 알고 계실겁니다. 세상 어떤 글자도 글자에 입모양 자체에 대한 힌트를 가지고 있지 않습니다. 이 말은, 글자 자체가 조음에 대한 정보를 갖고 있다는 것을 뜻하고, 이는 인공지능 훈련에서 입력과 출력의 결과가 이미 존재한다는 것을 뜻합니다. 

인공 뇌신경망 훈련에서 가장 어려운 것이 입력에 대한 결과값이 맞는지, 아닌지 결정하는 것입니다. 수많은 정보로 뇌신경망 학습의 입력을 넣을 수는 있지만, 그것에 맞는지 아닌지 결정하는 labeling작업은 엄청난 자본과 수작업이 들어갑니다. 그런데 한글은 이미 어떤 소리가 날 지 알고 있다는 겁니다.

다시 말해, 소리가 입력으로 주어졌을 때, 가상의 입모양/성대에 주어지는 변수를 조정하여 여기에서 발생하는 출력과 입력의 소리를 대조할 수 있게 되는 겁니다. 


목소리 -> 한글 생성 모델
한글 -> 목소리 생성 모델

여기에서 추가로 예외사항에 대한 추가 학습만 해 주면 각 언어에 대한 학습이 마무리 되는 겁니다. 여기에서 핵심은 굳이 어떤 단어에 대한 학습 데이터가 따로 필요 없다는 것입니다. 여러 가지 목소리로 변조하는 것은 기본 음성 모델에서 tone을 변경하는 것으로 가능하고, 반대로 tone이 다른 음성에 대해서는 이 tone을 알고리즘 적으로 모델이 기본 사용하는 tone으로 먼저 변경 후 입력값으로 사용하면 오류를 최소화 할 수 있다는 것입니다. 


다음 글은 이 주제의 결론에 대해 말해 보겠습니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari