brunch

You can make anything
by writing

C.S.Lewis

by 카카오 Nov 26. 2018

공부 많이 한 AI가 ‘좋은 귀’를 가진다

Voice Recognition : 음성 인식 기술의 작동 원리

kakao i Voice Recognition 소개 영상

때론 사람보다 나은 ‘인공 청각’


영상 속 내비게이션은 전형적인 키보드 입력 방식 대신 음성 인식 기술을 채택했습니다. 운전자의 손은 한결 편해졌죠. 카카오 내비게이션이나 카카오맵, 다음(Daum), 카카오미니에서 널리 쓰이는 음성 검색의 원천 기술입니다. 


이처럼 사람의 언어를 컴퓨터가 해석해
문자 데이터로 전환하는 행위를 두루 일컬어
‘음성 인식 기술’이라고 부릅니다. 


Voice Recognition 혹은 STT(Speech-to-Text) 기술, 더 쉽게는 인공 청각이라고도 표현하죠. 모두가 아나운서처럼 정확한 발음을 구사한다면 이 기술은 그다지 특별해 보이지 않을겁니다. 하지만 발음이 부정확한 사람들도 있고 같은 한국어 안에서도 사투리 같은 여러가지 변형이 있기에 최근 정확도가 높아진 음성 인식 기술은 “사람보다 말귀를 잘 알아듣는다”는 평가를 받기도 합니다.


사람이 마주 앉아 대화할 때와 전화 통화를 할 때를 비교해 보죠. 누구나 얼굴을 마주보며 대화할 때 상대방의 의도를 보다 정확하게 파악할 수 있습니다. 듣는 이에게 특정 고유명사나 신조어에 대한 배경지식이 없더라도, 발음이 정확치 않더라도 시각 정보나 대화의 맥락을 통해 좀 더 많은 정보를 얻을 수 있기 때문입니다. 음성을 인식하는 컴퓨터에게 이런 부가 정보가 전혀 주어지지 않는다는걸 감안하면 ‘사람보다 낫다’는게 과한 평가는 아니겠죠.




배경 지식 많이 쌓은 인공지능이 ‘좋은 귀’ 가진다


인공지능은 어떤 원리로 음성을 인식하길래 여러 한계점들을 극복할 수 있을까요? 우선 듣기 전에 충분한 학습을 통해 배경지식을 쌓아야합니다. DNN(Deep Neural Network)은 수 만 시간의 음성 데이터를 학습해 둡니다. 카카오의 경우 여러 생활 밀착형 서비스들이나 포털사이트 Daum이을 통해 자연스러운 언어의 맥락을 익혀두기도 합니다. 


음성 명령 신호가 주파수 스펙트럼으로 변환 돼 입력되면 각 발음에 대한 음소(Phoneme, 音素) 확률이 0.01초 마다 계산됩니다. 낱소리라고도 불리는 음소는 한 낱말의 뜻을 바꿀 수 있는 최소 단위입니다. ‘물’과 ‘불’은 ㅁ과 ㅂ이라는 음소에 의해 전혀 다른 뜻을 품게 되는 식이죠. 언어가 실제로 쓰이는 상황에서 어떤 자모음이 서로 결합할 확률이 높은지를 판단하는 과정입니다.


'개떡같이 말해도 찰떡같이 알아듣는다'는 관용구 처럼
배경 지식이 많은 사람이
말귀를 잘 알아듣는 것과 같은 이치입니다

각각의 단어를 파악한 인공지능은 다시 수백만개의 어휘들로 구성된 방대한 단어 네트워크에서 가장 확률이 높은 최적의 단어 조합을 구합니다. 비로소 한 문장으로 고스란히 인식하게 되는 것이죠. 




음성 인식 기술, 자동차와 집에서 확산 분수령 맞이할 것


1990년대까지만 해도 컴퓨팅 파워의 부족과 높은 오인지율로 인해 세간의 관심을 모으지 못했던 음성 인식 기술. 2000년대 들어 컴퓨터의 연산 능력이 급속도로 발전하고 애플의 Siri나 아마존의 Echo가 일상속으로 들어옴에 따라 키보드와 마우스의 뒤를 잇는 입력 도구로 각광받게 됐습니다. 


음성 인식 기술은 가까운 미래에 어떤 풍경부터 변화시킬까요? 카카오 AI Lab 음성처리파트 에서는 자동차와 집, 두 공간에 주목하고 있다고 합니다.


일상적으로 가장 긴 시간을 보내는 공간인 자동차와 집에서
카 인포테인먼트와 홈 IOT를 정확히 작동하게끔 돕는
‘인공 청각’이 바로 음성 인식 기술이기 때문이죠


오랜 시간을 보내는 두 곳에서의 편리한 경험이 쌓이면 다른 상황에서의 음성 명령도 더 자연스럽게 여겨질 것이기 때문입니다.


카카오는 자체 음성 인식 엔진을 보유하고 있어서 버그를 발견하면 직접 즉시 디버깅 할 수 있고 필요에 따라 튜닝하기도 합니다. 타사의 툴을 쓴다면 할 수 없는 영역이죠. 외부 개발자들이 음성 인식-합성 기술을 마음껏 응용해 볼 수 있도록 하루 2만건 수준의 API도 무료로 개방하고 있습니다. 통상적인 개발 뿐만 아니라 시장 초기 단계의 상용 서비스까지 소화할 수 있는 많은 건수죠. 기술의 완성도를 추구하면서 개발자 생태계에도 기여하고자 하는 의지입니다.


음성 인식 기술을 체험해 보고 싶다면 '클릭'

음성 인식 기술에 관한 보다 전문적인 내용이 궁금하다면 '클릭'





kakao i 기술동영상 해석 목차

 [멀티미디어 처리 기술]
라이언의 코, 어떻게 내 코를 따라다닌거지? (Face Alignment 기술)
벚꽃과 살구꽃, 구분할 수 있나요? (Convolutional Neural Networks 기술을 활용한 꽃검색)
유명해야만 '얼굴이 명함'일까요? (얼굴 인식 기술)
“그 옷 어디서 샀어?”라는 질문, 사라질 수도 있다 (유사이미지 검색 기술)

 [음성 처리 기술]
- 공부 많이 한 AI가 '좋은 귀'를 가진다 (음성 인식 기술) _ 이번 글
인공지능이 맥락과 운율을 살려 이야기한 비결 (음성 합성 기술)


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari