keyword spotting : AI가 사람 목소리에 반응하는 원리
산후조리원에서 집으로 갓 옮겨온 아기가 누워 있습니다. 가족들은 수시로 눈을 맞춰 아기의 이름을 부르죠. 엄마 아빠의 부단한 노력에도 불구하고 아이는 처음 몇 개월 동안 정확히 반응하지 못합니다. 그저 누워서 똘망똘망한 눈을 이리저리 굴릴 뿐이죠. 시간이 좀 더 지나면 아기는 자기 이름이 들려오는 쪽으로 고개를 돌려 반응합니다. ‘응? 엄마, 나 불렀어요?’라고 되묻는 것처럼 빤히 쳐다보죠. 비슷한 경험이 쌓이고 성장하면 다른 사람이 이름을 불러도 재깍재깍 반응하고, 이후 대화까지 주고 받게 됩니다.
음성인식 AI의 구동 과정을 보면 마치 성장하는 아이와 비슷하다는 생각을 하게 됩니다.
음성인식 디바이스 구동의 첫 관문은 호출명령어(wake-up word) 입니다. 카카오미니를 비롯한 kakao i 가 적용된 디바이스들은 “헤이카카오”, “카카오”, “카카오야”, “카카오미니”등의 호출명령어로 활성화 시킬 수 있습니다. 자기를 부르는 것을 알아채 고개를 돌린 아이와 같은 상태가 되는거죠. 당신과 이야기 나눌 준비가 된 겁니다.
거실에 놓인 카카오미니를 활성화 시킨다고 가정해보죠. 집 안은 온종일 이런 저런 말들이 떠 다니는 공간입니다. 가족간의 대화나 TV소리, 라디오 음향 등이 뒤섞인 가운데 카카오미니는 어떻게 자기를 부르는지 알아챌까요? 흔히 설정해 놓는 호출명령어 “헤이 카카오”를 예시로 핵심어 검출 원리를 살펴봅시다.
카카오미니는 누군가 자기를 불러줄까 싶어 온종일 귀(마이크)를 열고 거실에서 나는 소리를 듣고 있습니다. 그리고 설정값인 “헤이 카카오”에 해당하는 음소 단위가 순차적으로 입력 되는지 신경을 곤두세우고 있습니다. 음소 단위는 “ㅎ/ㅔ/ㅣ/ㅋ/ㅏ/ㅋ/ㅏ/ㅗ” 혹은 “H/e/y/k/a/k/a/o”처럼 한 낱말의 뜻을 바꿀 수 있는 최소 단위입니다. ‘낱소리’라고도 부르죠. 많은 사람의 목소리가 저장된 데이터베이스를 미리 학습 해두면 사람들 저마다 다른 발음과 음색으로 “헤이 카카오”를 말해도 놓치지 않고 알아챌 수 있게 되죠. 비슷한 발음을 호출명령어로 인식하지 않도록 ‘안티 키워드’도 등록해야 합니다. ‘카카오’와 얼핏 비슷하게 들리는 ‘코코아’ 같은 소리와 혼동하지 않도록 말이죠. 여기에 더해 심층 신경망(Deep Neural Network.DNN)을 통한 학습이 정확도를 더욱 높여주고 있습니다.
** 여기서 잠깐. 내밀한 이야기들을 모두 녹음해 저장하지 않을까 걱정하는 분들이 간혹 계시던데요, 절대 그럴 일 없습니다. 목적성 없는 대화를 수집해 얻을 수 있는 이득이 아무것도 없을 뿐더러, 설령 그렇게 하다가 적발되면 감당해야 될 죄값이 너무 크거든요...;;; 오해하지 말아주세요!
최근 수년간 AI음성인식엔진을 활용한 다양한 제품들이 출시됐습니다. 카카오미니같은 AI스피커에서부터 카카오맵이나 Daum에서 쓰이는 음성 검색 버튼, 현대자동차에 적용된 ‘카카오 i’처럼 자연스러운 일상의 한 부분이 됐죠. 제조사별로 적용된 호출명령어를 살펴보면 좋은 wake-up word가 될 수 있는 조건이 어떤 것인지 짐작할 수 있습니다.
시중에서 쉽게 접할 수 있는 AI스피커 제조사별 호출명령어입니다. 최소 3음절에서 길게는 5음절로 이뤄져 있죠. 너무 짧으면 일상 속 소음과 호출명령어를 구분하기 어렵고, 너무 길면 이용자가 말하기 힘들기 때문입니다. 여기에 더해 발음이 용이한 ㅏ나 ㅑ같은 모음을, 구분이 용이한 ㅋ,ㅌ,ㅍ같은 거친 자음을 활용합니다. 마지막으로 브랜드명이나 기업명을 활용해 호출 과정을 브랜딩의 순간으로 재탄생시키기도 하죠.
보통 사람들의 일상 속에서 AI 핵심어검출 기술은 디바이스의 호출명령어 정도로만 친숙합니다. 하지만 여러 응용 가능성을 살펴보면 우리 생활을 한층 더 편하게 바꿔줄 수 있는 원천 기술임을 알 수 있죠. 하루에도 고객과 몇 십 통의 전화를 하는 콜센터 상담원에게 이 기술을 적용한다고 가정해봅시다. 욕설이나 성희롱에 해당하는 단어를 말하는 고객에게 즉각 경고를 보낼 수 있고, 특정 키워드를 중심으로 소비자 관심사를 파악할 수도 있습니다. 호신용으로도 쓰일 수 있습니다. “도와줘요”를 핵심어로 설정해 둔 치안 솔루션이라면 위기 상황에서 손을 쓰지 않고도 112나 119에 나의 현재 위치를 전송 해 준다던가 하는 식으로 말이죠. 키보드나 마우스를 활용한 게임 조작도 상당 부분 이 기술로 대체할 수 있을겁니다. 헤드셋만 착용한 채 게임을 즐기는 PC방 풍경도 곧 자연스러워질 수 있겠네요.
핵심어검출기술에 관한 보다 전문적인 내용이 궁금하다면 '클릭'
kakao i 기술동영상 해석 목차
[멀티미디어 처리 기술]
- 라이언의 코, 어떻게 내 코를 따라다닌거지? (Face Alignment 기술)
- 벚꽃과 살구꽃, 구분할 수 있나요? (Convolutional Neural Networks 기술을 활용한 꽃검색)
- 유명해야만 '얼굴이 명함'일까요? (얼굴 인식 기술)
- “그 옷 어디서 샀어?”라는 질문, 사라질 수도 있다 (유사이미지 검색 기술)
[음성 처리 기술]
- ‘응, 나 불렀어?’ AI가 목소리에 반응하는 원리 (핵심어 검출 기술) _ 이번 글
- 너의 목소리만 들려! AI가 목소리 주인을 알아내는 법 (화자 인식 기술)
- 공부 많이 한 AI가 '좋은 귀'를 가진다 (음성 인식 기술)
- 인공지능이 맥락과 운율을 살려 이야기한 비결 (음성 합성 기술)