brunch

You can make anything
by writing

C.S.Lewis

by 카카오 Jan 17. 2019

너의 목소리만 들려! AI가 목소리 주인을 알아내는 법

Speaker Recognition : AI가 화자를 인식하는 법



일편단심 인공지능의 조건화자인식 기술 

 

AI스피커 춘추전국시대라는 수식어가 자연스러울 만큼 인공지능 디바이스에  거는 모습이 더이상 낯설지 않은 요즘입니다. AI 스피커 뿐만 아니라 스마트폰 OS 여러 어플리케이션들도 사용자와의 소통을 위해 음성 인터페이스를 이용하고 있죠. “헤이 카카오 “시리야” 같은 호출명령어는 잠들어 있던 기기를 깨워줍니다누구나 함께 쓰는 공용 기기라면 아무 문제가 없겠지만나만을 위한 기기가 모든 사람의 호출명령어에 반응한다면 곤란한 상황도 생기기 마련이죠실제로 2017  미국에서는 TV 아나운서의 목소리를 명령어로 인식한 여러 가정의 인공지능 스피커가 다량의 주문을 넣은 사건도 있었습니다


☞사건 알아보기  https://news.v.daum.net/v/20170115214637378

 

이런 일을 미연에 방지하려면 ‘화자인식(Speaker Recognition) 기술 필요합니다화자인식은 인공지능이 미리 저장된 음성 데이터와 비교해  하는 사람이 누군지 알아채는 기술입니다음성에서 화자의 인물 정보를 찾는 기술이죠앞서 언급한 미국 사례에  기술이 적용 됐었다면  가정에서 지정된 사람만 인공지능 스피커를 통해 주문을   있었을 겁니다.

 



화자인식 기술의 구동 원리

 

영상 속 사람들은 카카오미니에게 “오늘  스케줄 어떻게 ?”라고 묻습니다이때 AI 어떤 사람의 캘린더를 읽어줘야   판단해야 합니다이를 위해 개인화된 서비스를 요청할 만한 사람들은 AI 미리 목소리를 입력해 내가 누구인지를 각인 시켜 둬야 하죠


특징벡터를 통한 화자인식모델


먼저 각 개인의 목소리에서 특징 벡터(feature vector)를 뽑아 냅니다. 추출된 특징 벡터는 음향 공간(acoustic space)의 한 점으로 표현할 수가 있습니다. 이러한 각 개인별 목소리 분포에 대해 통계적 분석과 차원 변환을 통해 저마다의 목소리 특성이 잘 구분되도록 화자인식 모델을 학습 합니다. 이후 누군가의 음성이 입력되면 화자인식 모델에서 가장 가까운 사람을 찾아주게 되죠.

 

인공지능은 비로소 “모르는 사람이  열어 달라고 하면 열어주지 라는 엄마 아빠의 명령을 인식한 어린이와 유사한 상태가 되는 거죠

 


화자인식 기술의 장점과 응용

 

화자인식 기술은 인증과 명령을 동시에   있다는 장점을 갖고 있습니다최근 들어 널리 쓰이는 패턴 인식이나 지문 인식홍체 인식을 이용한다면 인증  별도의 명령 단계를 수행해야 하는 것에 비해 차별화 되는 점이죠.

 

지난 10 11일부터 카카오미니는 ‘보이스프로필기능을 제공하고 있습니다. “헤이 카카오 안녕 같은 문장을   보라고  화자가 누구인지 인식하죠이렇게 되면 카카오 계정을 기반으로 이름이나 생일나이 등을 구분해 카카오톡 읽어주기와 같은 개인화 서비스를 경험할  있습니다향후 kakao i 활용한 다양한 추천 서비스나 보안 장치가 연이어 등장할  있는 맥락입니다목소리만으로 이뤄지는 송금·결제나만을 위한 음성 뉴스 브리핑을  경험할  있겠죠.

 


극복해야할 과제

 

음성 인식 센서의 민감도말하는 사람의 거리와 목소리 크기에 따라 화자 인식률은 달라질  있습니다감기에 걸리거나 컨디션 문제로 목소리가 달라지는 경우도 걸림돌이   있죠음성인증 방식으로 출입 장치를 만들었는데 감기에 걸린 직원이 문을 열지 못하는 곤란한 상황은 막아야 하니까요.

 

주변 잡음이나 타인의 목소리에 영향을 받지 않고 화자만을  식별해내기도 해야합니다녹음을 통한 대리 인증도 경계 해야겠죠실재 음성과 녹음된 소리를 구분하는 기술이 있지만완벽한 수준은 아니기 때문입니다아직까지는 강력한 보안을 필요로 하는 분야에 단일 인증 도구로 적용하기는 어렵고복합 수단  하나로 쓰일 때 응용 가치가 있다는 평가입니다.

 

소유욕이  사람이라면 이런 명령어를 입력해 둘수도 있겠네요. “헤이카카오 말고는 다른 사람과 이야기 나누지 말아줘   

 


 

화자인식기술에 관한 보다 전문적인 내용이 궁금하다면 '클릭'

 




kakao i 기술동영상 해석 목차

 [멀티미디어 처리 기술]
라이언의 코, 어떻게 내 코를 따라다닌거지? (Face Alignment 기술)
벚꽃과 살구꽃, 구분할 수 있나요? (Convolutional Neural Networks 기술을 활용한 꽃검색)
유명해야만 '얼굴이 명함'일까요? (얼굴 인식 기술)
“그 옷 어디서 샀어?”라는 질문, 사라질 수도 있다 (유사이미지 검색 기술)

 [음성 처리 기술]
- 너의 목소리만 들려! AI가 목소리 주인을 알아내는 법 (화자 인식 기술) _ 이번 글
- 공부 많이 한 AI가 '좋은 귀'를 가진다 (음성 인식 기술) 
인공지능이 맥락과 운율을 살려 이야기한 비결 (음성 합성 기술)


매거진의 이전글 인공지능이 맥락과 운율을 살려 이야기한 비결
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari