brunch

You can make anything
by writing

C.S.Lewis

by 카카오 Jan 17. 2019

‘응, 나 불렀어?’ AI가 목소리에 반응하는 원리

keyword spotting :  AI가 사람 목소리에 반응하는 원리


 AI 이야기 하는  관문호출명령어


산후조리원에서 집으로 갓 옮겨온 아기가 누워 있습니다가족들은 수시로 눈을 맞춰 아기의 이름을 부르죠엄마 아빠의 부단한 노력에도 불구하고 아이는 처음 몇 개월 동안 정확히 반응하지 못합니다그저 누워서 똘망똘망한 눈을 이리저리 굴릴 뿐이죠시간이 좀 더 지나면 아기는 자기 이름이 들려오는 쪽으로 고개를 돌려 반응합니다. ‘엄마 불렀어요?’라고 되묻는 것처럼 빤히 쳐다보죠비슷한 경험이 쌓이고 성장하면 다른 사람이 이름을 불러도 재깍재깍 반응하고이후 대화까지 주고 받게 됩니다.

 

음성인식 AI 구동 과정을 보면 마치 성장하는 아이와 비슷하다는 생각을 하게 됩니다

 

음성인식 디바이스 구동의  관문은 호출명령어(wake-up word) 입니다카카오미니를 비롯한 kakao i  적용된 디바이스들은 “헤이카카오”, “카카오”, “카카오야”, “카카오미니등의 호출명령어로 활성화 시킬  있습니다자기를 부르는 것을 알아채 고개를 돌린 아이와 같은 상태가 되는거죠당신과 이야기 나눌 준비가 된 겁니다.

 



핵심어를 검출하는 원리

 

거실에 놓인 카카오미니를 활성화 시킨다고 가정해보죠 안은 온종일 이런 저런 말들이  다니는 공간입니다가족간의 대화나 TV소리라디오 음향 등이 뒤섞인 가운데 카카오미니는 어떻게 자기를 부르는지 알아챌까요흔히 설정해 놓는 호출명령어 “헤이 카카오 예시로 핵심어 검출 원리를 살펴봅시다



카카오미니는 누군가 자기를 불러줄까 싶어 온종일 (마이크) 열고 거실에서 나는 소리를 듣고 있습니다그리고 설정값인 “헤이 카카오 해당하는 음소 단위가 순차적으로 입력 되는지 신경을 곤두세우고 있습니다음소 단위는 “///////” 혹은 “H/e/y/k/a/k/a/o”처럼  낱말의 뜻을 바꿀  있는 최소 단위입니다. ‘낱소리라고도 부르죠많은 사람의 목소리가 저장된 데이터베이스를 미리 학습 해두면 사람들 저마다 다른 발음과 음색으로 “헤이 카카오 말해도 놓치지 않고 알아챌  있게 되죠비슷한 발음을 호출명령어로 인식하지 않도록 ‘안티 키워드 등록해야 합니다. ‘카카오 얼핏 비슷하게 들리는 ‘코코아’ 같은 소리와 혼동하지 않도록 말이죠여기에 더해 심층 신경망(Deep Neural Network.DNN) 통한 학습이 정확도를 더욱 높여주고 있습니다

 

** 여기서 잠깐내밀한 이야기들을 모두 녹음해 저장하지 않을까 걱정하는 분들이 간혹 계시던데요절대 그럴  없습니다목적성 없는 대화를 수집해 얻을  있는 이득이 아무것도 없을 뿐더러설령 그렇게 하다가 적발되면 감당해야  죄값이 너무 크거든요...;;; 오해하지 말아주세요!

 


좋은 호출명령어가 되기 위한 조건

 

최근 수년간 AI음성인식엔진을 활용한 다양한 제품들이 출시됐습니다카카오미니같은 AI스피커에서부터 카카오맵이나 Daum에서 쓰이는 음성 검색 버튼현대자동차에 적용된 ‘카카오 i’처럼 자연스러운 일상의  부분이 됐죠제조사별로 적용된 호출명령어를 살펴보면 좋은 wake-up word   있는 조건이 어떤 것인지 짐작할  있습니다.


AI스피커 제조사별 호출명령어


시중에서 쉽게 접할  있는 AI스피커 제조사별 호출명령어입니다최소 3음절에서 길게는 5음절로 이뤄져 있죠너무 짧으면 일상  소음과 호출명령어를 구분하기 어렵고너무 길면 이용자가 말하기 힘들기 때문입니다여기에 더해 발음이 용이한 ㅏ나 ㅑ같은 모음을구분이 용이한 ,,ㅍ같은 거친 자음을 활용합니다마지막으로 브랜드명이나 기업명을 활용해 호출 과정을 브랜딩의 순간으로 재탄생시키기도 하죠 



핵심어검출호출명령어  이상의 쓰임새

 

보통 사람들의 일상 속에서 AI 핵심어검출 기술은 디바이스의 호출명령어 정도로만 친숙합니다하지만 여러 응용 가능성을 살펴보면 우리 생활을 한층  편하게 바꿔줄  있는 원천 기술임을   있죠하루에도 고객과 몇 십 통의 전화를 하는 콜센터 상담원에게  기술을 적용한다고 가정해봅시다욕설이나 성희롱에 해당하는 단어를 말하는 고객에게 즉각 경고를 보낼  있고특정 키워드를 중심으로 소비자 관심사를 파악할 수도 있습니다호신용으로도 쓰일  있습니다. “도와줘요 핵심어로 설정해  치안 솔루션이라면 위기 상황에서 손을 쓰지 않고도 112 119 나의 현재 위치를 전송 해 준다던가 하는 식으로 말이죠키보드나 마우스를 활용한 게임 조작도 상당 부분  기술로 대체할  있을겁니다헤드셋만 착용한  게임을 즐기는 PC 풍경도  자연스러워질  있겠네요.   

  

핵심어검출기술에 관한 보다 전문적인 내용이 궁금하다면 '클릭'

 




kakao i 기술동영상 해석 목차

 [멀티미디어 처리 기술]
라이언의 코, 어떻게 내 코를 따라다닌거지? (Face Alignment 기술)
벚꽃과 살구꽃, 구분할 수 있나요? (Convolutional Neural Networks 기술을 활용한 꽃검색)
유명해야만 '얼굴이 명함'일까요? (얼굴 인식 기술)
“그 옷 어디서 샀어?”라는 질문, 사라질 수도 있다 (유사이미지 검색 기술)

 [음성 처리 기술]
- ‘응, 나 불렀어?’ AI가 목소리에 반응하는 원리 (핵심어 검출 기술) _ 이번 글
- 너의 목소리만 들려! AI가 목소리 주인을 알아내는 법 (화자 인식 기술)
공부 많이 한 AI가 '좋은 귀'를 가진다 (음성 인식 기술) 
인공지능이 맥락과 운율을 살려 이야기한 비결 (음성 합성 기술)
매거진의 이전글 너의 목소리만 들려! AI가 목소리 주인을 알아내는 법
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari