brunch

매거진 쉽게 읽는 카카오 인공지능 기술

라이킷 8 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 카카오 Jan 17. 2019

너의 목소리만 들려! AI가 목소리 주인을 알아내는 법

Speaker Recognition : AI가 화자를 인식하는 법

일편단심 인공지능의 조건, 화자인식 기술

AI스피커 춘추전국시대라는 수식어가 자연스러울 만큼 인공지능 디바이스에 말 거는 모습이 더이상 낯설지 않은 요즘입니다. AI 스피커 뿐만 아니라 스마트폰 OS나 여러 어플리케이션들도 사용자와의 소통을 위해 음성 인터페이스를 이용하고 있죠. “헤이 카카오”나 “시리야” 같은 호출명령어는 잠들어 있던 기기를 깨워줍니다. 누구나 함께 쓰는 공용 기기라면 아무 문제가 없겠지만, 나만을 위한 기기가 모든 사람의 호출명령어에 반응한다면 곤란한 상황도 생기기 마련이죠. 실제로 2017년 초 미국에서는 TV속 아나운서의 목소리를 명령어로 인식한 여러 가정의 인공지능 스피커가 다량의 주문을 넣은 사건도 있었습니다.

☞사건 알아보기 https://news.v.daum.net/v/20170115214637378

이런 일을 미연에 방지하려면 ‘화자인식(Speaker Recognition) 기술’이 필요합니다. 화자인식은 인공지능이 미리 저장된 음성 데이터와 비교해 말 하는 사람이 누군지 알아채는 기술입니다. 즉, 음성에서 화자의 인물 정보를 찾는 기술이죠. 앞서 언급한 미국 사례에 이 기술이 적용 됐었다면 각 가정에서 지정된 사람만 인공지능 스피커를 통해 주문을 할 수 있었을 겁니다.

화자인식 기술의 구동 원리

영상 속 사람들은 카카오미니에게 “오늘 내 스케줄 어떻게 돼?”라고 묻습니다. 이때 AI는 어떤 사람의 캘린더를 읽어줘야 할 지 판단해야 합니다. 이를 위해 개인화된 서비스를 요청할 만한 사람들은 AI에 미리 목소리를 입력해 내가 누구인지를 각인 시켜 둬야 하죠.

특징벡터를 통한 화자인식모델

먼저 각 개인의 목소리에서 특징 벡터(feature vector)를 뽑아 냅니다. 추출된 특징 벡터는 음향 공간(acoustic space)의 한 점으로 표현할 수가 있습니다. 이러한 각 개인별 목소리 분포에 대해 통계적 분석과 차원 변환을 통해 저마다의 목소리 특성이 잘 구분되도록 화자인식 모델을 학습 합니다. 이후 누군가의 음성이 입력되면 화자인식 모델에서 가장 가까운 사람을 찾아주게 되죠.

인공지능은 비로소 “모르는 사람이 문 열어 달라고 하면 열어주지 마”라는 엄마 아빠의 명령을 인식한 어린이와 유사한 상태가 되는 거죠.

화자인식 기술의 장점과 응용

화자인식 기술은 인증과 명령을 동시에 할 수 있다는 장점을 갖고 있습니다. 최근 들어 널리 쓰이는 패턴 인식이나 지문 인식, 홍체 인식을 이용한다면 인증 후 별도의 명령 단계를 수행해야 하는 것에 비해 차별화 되는 점이죠.

지난 10월 11일부터 카카오미니는 ‘보이스프로필’기능을 제공하고 있습니다. “헤이 카카오 안녕”과 같은 문장을 말 해 보라고 해 화자가 누구인지 인식하죠. 이렇게 되면 카카오 계정을 기반으로 이름이나 생일, 나이 등을 구분해 카카오톡 읽어주기와 같은 개인화 서비스를 경험할 수 있습니다. 향후 kakao i를 활용한 다양한 추천 서비스나 보안 장치가 연이어 등장할 수 있는 맥락입니다. 목소리만으로 이뤄지는 송금·결제, 나만을 위한 음성 뉴스 브리핑을 곧 경험할 수 있겠죠.

극복해야할 과제

음성 인식 센서의 민감도, 말하는 사람의 거리와 목소리 크기에 따라 화자 인식률은 달라질 수 있습니다. 감기에 걸리거나 컨디션 문제로 목소리가 달라지는 경우도 걸림돌이 될 수 있죠. 음성인증 방식으로 출입 장치를 만들었는데 감기에 걸린 직원이 문을 열지 못하는 곤란한 상황은 막아야 하니까요.

주변 잡음이나 타인의 목소리에 영향을 받지 않고 화자만을 잘 식별해내기도 해야합니다. 녹음을 통한 대리 인증도 경계 해야겠죠. 실재 음성과 녹음된 소리를 구분하는 기술이 있지만, 완벽한 수준은 아니기 때문입니다. 아직까지는 강력한 보안을 필요로 하는 분야에 단일 인증 도구로 적용하기는 어렵고, 복합 수단 중 하나로 쓰일 때 응용 가치가 있다는 평가입니다.

소유욕이 큰 사람이라면 이런 명령어를 입력해 둘수도 있겠네요. “헤이카카오, 나 말고는 다른 사람과 이야기 나누지 말아줘”

화자인식기술에 관한 보다 전문적인 내용이 궁금하다면 '클릭'

kakao i 기술동영상 해석 목차

[멀티미디어 처리 기술]
- 라이언의 코, 어떻게 내 코를 따라다닌거지? (Face Alignment 기술)
- 벚꽃과 살구꽃, 구분할 수 있나요? (Convolutional Neural Networks 기술을 활용한 꽃검색)
- 유명해야만 '얼굴이 명함'일까요? (얼굴 인식 기술)
- “그 옷 어디서 샀어?”라는 질문, 사라질 수도 있다 (유사이미지 검색 기술)

[음성 처리 기술]
- 너의 목소리만 들려! AI가 목소리 주인을 알아내는 법 (화자 인식 기술) _ 이번 글
- 공부 많이 한 AI가 '좋은 귀'를 가진다 (음성 인식 기술)
- 인공지능이 맥락과 운율을 살려 이야기한 비결 (음성 합성 기술)

keyword

카카오 IT 분야 크리에이터 소속 카카오 직업 에디터

일상에 스며든 카카오의 다양한 이야기를 전합니다. 카카오 공식 브런치.

구독자 1만

매거진의 이전글 인공지능이 맥락과 운율을 살려 이야기한 비결 ‘응, 나 불렀어?’ AI가 목소리에 반응하는 원리 매거진의 다음글

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari