brunch

You can make anything
by writing

C.S.Lewis

by 카카오 Apr 11. 2019

형태소를 분류하면
이야기의 맥락이 들린다

Kakao Hangul Analyzer iii : 앞뒤 맥락을 아는 AI


“저 친구는 팥으로 메주를 쑨다 해도 곧이들을 사람이야” 

“우스갯소리를 곧이들으면 쓰나?” 


정해진 틀에서 한치의 벗어남이 없을 때, 융통성이 부족한 모습을 봤을 때 우린 “곧이 (곧대로) 듣는다”는 표현을 씁니다. 상대방의 말(입력값(input))이 품고 있는 다양성을 헤아리지 못하고 단순한 반응(출력 값(output))을 내보이는 상황을 빗댄 얘기죠. 인공지능이 탑재되기 전 대부분의 기계는 ‘곧이곧대로’ 움직이는 게 보통이었습니다. 미리 입력해 둔 값과 정확하게 일치하지 않는 질문이나 명령을 던지면 한치도 움직이지 않았으니까요. 



하지만 생활 곳곳에 AI가 적용되면서

기계는 학습을 통해 융통성을 발휘하고 있습니다.


같은 글자라 할지라도 앞뒤에 놓인 단어에 따라 전혀 다른 의미로 해석될 수 있음을 감지하는 모습은 꽤 인간적이랄까요. AI를 구성하는 여러 기술 중 형태소 분석기가 이 역할을 합니다. 딱 떨어지는 문어체가 아닌 자연스럽게 주고받는 대화의 맥락을 짚어낼 수 있게 해주는 메커니즘이죠.


카카오에서 개발한 세 번째 형태소 분석기 khaiii는 ‘Kakao Hangul Analyzer III’의 첫 글자들을 모아 만든 이름입니다. 직전 버전의 형태소분석기 이름은 dha2(Daumkakao Hangul Analyzer 2)였는데, 연속성 있는 네이밍이기도 해요. dha2는 사전과 규칙에 기반해 분석을 했지만, khaiii는 머신 러닝 기반의 알고리즘을 통해 분석을 합니다. 천만 어절 이상을 학습해두고 신경망 알고리즘(CNN. Convolutional Neural Network, 합성곱신경망)을 통해 음절 기반으로 형태소를 분석해내죠. 보통의 딥러닝에는 GPU(그래픽 처리장치)가 사용되는데 khaiii는 C++ 언어로 빠른 분석 속도를 구현할 수 있었습니다. 



형태소는 일정한 의미가 있는 가장 작은 말의 단위입니다. 더 작게 나누면 뜻이 없어지는 말의 단위죠.


형태소분석기는 단어를 보고 형태소 단위로 분리해내는 소프트웨어입니다. 두 개 이상의 글자로 이뤄진 단어나 문장을 가장 작은 단위인 형태소 단위로 자동 분리하는 역할을 하죠. ‘학교에 간다’라고 입력하면’ 학교(명사)+에(조사)+가(동사)+ㄴ다(어미)’로 형태소 단위와 품사를 파악해 분류해내는 식입니다. 영상 속 형태소분석기 Khaiii는 “그리고”라는 표현이 그림을 그린다는 의미인지, 앞뒤 문장을 이어주는 접속사인지 구분해내는 역할을 했죠. 자연어 처리 기술이 좋은 성능을 내기 위한 ‘기본기’이기도 합니다. 구문 분석이나 의미 분석을 제대로 해내기 위해 가장 먼저 이루어져야 하는 과정이니까요.


한국어는 같은 표기에 전혀 다른 뜻을 가진 단어가 많고, 띄어쓰기를 지키지 않아도 의미가 통하는 등 형태소 분석이 어려운 특징을 갖고 있습니다. 영어만 하더라도 단어별로 띄어 쓰는 법칙이 아주 단순해서 한국어보다 형태소 분석이 용이하다고 해요. 기술이 고도화되면 복잡하고 풍부한 감정까지 분석할 수 있겠죠. 이를 통해 AI가 정서적 위로나 설득까지 해 내는 모습을 상상해봅니다. 




카카오는 지난해 11월부터 khaiii를

깃허브(GitHub)에서 오픈소스로 제공하고 있습니다.


딥러닝 기술 기반의 형태소 분석기를 오픈소스로 제공하는 국내 첫 사례죠. 오픈소스 공개를 통해 한국어 연구자, 챗봇/자연어 처리 응용기술 개발 등 한국어를 활용하는 여러 분야에서 형태소 분석을 위한 비용과 시간을 줄일 수 있게 됐습니다.


kakao i 기술동영상 해석 목차

 [멀티미디어 처리 기술]
라이언의 코, 어떻게 내 코를 따라다닌거지? (Face Alignment 기술)
벚꽃과 살구꽃, 구분할 수 있나요? (Convolutional Neural Networks 기술을 활용한 꽃검색)
유명해야만 '얼굴이 명함'일까요? (얼굴 인식 기술)
“그 옷 어디서 샀어?”라는 질문, 사라질 수도 있다 (유사이미지 검색 기술)

 [음성 처리 기술]
‘응, 나 불렀어?’ AI가 목소리에 반응하는 원리 (핵심어 검출 기술)
너의 목소리만 들려! AI가 목소리 주인을 알아내는 법 (화자 인식 기술)
공부 많이 한 AI가 '좋은 귀'를 가진다 (음성 인식 기술) 
인공지능이 맥락과 운율을 살려 이야기한 비결 (음성 합성 기술)

[
자연어 처리 기술]
용건이 있어야만 대화할 수 있을까요?((kakao i minimi)
목 축이다”와 “물 마시다”를 같은 뜻으로 이해하는 AI (kakao i simpson)
- 형태소를 분류하면 이야기의 맥락이 들린다 (Kakao Hangul Analyzer iii)_이번 글
매거진의 이전글 용건이 있어야만 대화할 수 있을까요?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari