brunch

You can make anything
by writing

C.S.Lewis

by HMG 저널 Mar 28. 2024

진화한 음성인식 기술, 더 뉴 카니발 멀티존 음성인식

한 단계 진보한 음성인식 기술의 현주소를 살펴봤다.

“시리야, 오늘 날씨 어때?”, “하이 빅스비, 주변 맛집 추천해 줘!” 일상에서 보편화된 음성인식 기술이 우리의 삶을 편리하게 바꾸고 있다. 몇 단계로 구성된 사용자 환경(UI, User Interface)을 한 번의 음성명령으로 대체할 수 있기 때문이다. 그렇다면 자동차에 적용된 음성인식 기술은 어떨까? 자동차에서의 음성인식 기술은 비교적 이른 1990년대에 상용화됐다. 빠르게 이동하는 주행 환경에서 사용자 부주의를 최소화해 운전에 대한 집중력을 유지하고, 각종 사양을 안전하고 직관적으로 사용할 수 있는 음성인식 기술의 이점에 자동차 업계가 주목한 것이다.

하지만 1990년대 당시의 자동차 음성인식 기술은 숫자, 다이얼 등 단순한 단어 수십 가지만 인지하고 관련 기능을 실행하는 기초적인 단계에 그쳤다. 2000년대부터는 문장 형태의 발화를 인지할 만큼 기술 진전을 이뤘지만, 정형화된 문장만을 인식한다는 점에서 사용자의 만족도를 크게 높이지는 못했다. 음성인식 기술이 사용자 환경에서의 혁신을 보여준 것은 2010년대 후반부터다. ‘서버형 음성인식’ 기술과 결합해 대화 형식의 자연어 명령어 인식이 가능해진 덕분이다. 외부 검색 결과를 활용한 정보(목적지, 맛집, 관광명소 등)도 이때부터 지원하기 시작했다.

멀티존(Multi-zone) 음성인식, 만족스러운 사용자 경험을 구현하다

현대자동차그룹은 차량 성능 및 기능을 폭넓게 개선 가능한 ‘소프트웨어 중심의 자동차(SDV, Software Defined Vehicle)’로 개발 패러다임을 전환하면서 각 기능과 사양별로 흩어져 있는 하드웨어 제어기를 통합하고 있다. 음성인식으로 제어할 수 있는 기능이 목적지 길찾기, 음악 재생 등의 인포테인먼트 영역 외에도 창문, 공조, 시트 등으로 점차 확대되는 것도 이런 배경에서 진행되고 있다.

멀티존 음성인식을 개발한 현대차 음성인식개발팀 박영재 책임연구원(좌측부터), 포티투닷 스피치팀 이한빈 엔지니어, 음성인식개발팀 홍성범 연구원, 노재근 책임연구원, 황승현 책임연구원, 이경철 파트장, 포티투닷 스피치팀 박지환 엔지니어, 포티투닷 ePMO팀 이승명 PM, 음성인식개발팀 탁민우 책임연구원

이런 변화 가운데 최근 선보인 기아 더 뉴 카니발의 ‘멀티존 음성인식’은 기존 음성인식 기술에서 한발 더 나아가 MPV에 최적화된 사용자 경험(UX, User Experience)을 제시한다. 여러 명이 함께 타는 차량 성격을 고려해 후석에 앉은 탑승자도 음성인식을 사용할 수 있도록 함으로써 이동 경험을 확장하는 최상의 편의성을 구현했기 때문이다. 멀티존 음성인식의 주요 특징을 살펴보기 위해 이를 개발한 현대자동차 음성인식개발팀 이경철 파트장, 노재근 책임연구원, 박영재 책임연구원, 황승현 책임연구원, 탁민우 책임연구원, 홍성범 연구원, 포티투닷(42dot) 스피치팀 이한빈 엔지니어, 박지환 엔지니어, 포티투닷 ePMO팀 이승명 AI 어시스턴트 PM으로부터 관련 이야기를 들어보았다.

운전자가 “나 추워”라고 음성명령할 경우, 1열 공조 히터, 운전석 시트 열선, 스티어링 열선 등이 함께 작동한다

Q. 멀티존 음성인식의 주요 특징은 무엇인가?

이경철 파트장I 멀티존 음성인식은 목소리만으로 발화자의 좌석 위치 네 곳(1열 좌/우, 2열 좌/우)을 명확히 구분한다. 또한 버튼을 누르지 않고도 목소리만으로 음성인식을 활성화하는 웨이크업(Wake-up) 기능이 가능하다. 우수한 음성인식 성능 덕분에 음악이나 대화 등으로 시끄러운 상황에서 사용자의 음성명령을 보다 뚜렷하게 인식한다. 물론 종전과 마찬가지로 서버형 음성인식에 기반해 멜론, 지니뮤직, 뉴스, 날씨, 팟빵, 주식, 운세 등 다양한 콘텐츠 서비스도 풍부하게 제공한다. 가령 “로또 번호 추천해 줘”라고 말하면, 음성 답변과 함께 인포테인먼트 화면에 추천 번호를 띄운다.

홍성범 연구원I 멀티존 음성인식에서는 오디오 볼륨을 크게 높인 상태에서도 웨이크업 명령어인 “헤이 기아”로 음성인식을 곧바로 활성화할 수 있다. 또한 뒷좌석에서도 원하는 음악을 직접 틀거나 공조기, 시트 기능 등을 비롯한 차량 시스템 조작도 가능하다. 만약 2열 좌측 탑승자가 “창문 내려줘”라고 명령하면 2열 뒷좌석 좌측 창문만 개방한다. 즉, ‘맞춤형 편의 제공’이라는 음성인식의 미래를 보여주는 것이라고 생각한다.

홍성범 연구원은 멀티존 음성인식의 장점으로 1열/2열에 각각 최적화된 차량 제어 기능을 제공하는 점을 꼽았다

발화자 탑승 위치를 인식하고 해당 위치에 최적화된 공조, 시트, 창문 제어를 지원한다

Q. 멀티존 음성인식을 통해 사용할 수 있는 차량 기능은 무엇인가?

홍성범 연구원I 멀티존 음성인식으로 사용할 수 있는 기능으로는 인포테인먼트 시스템, 무드램프 제어, 공조 제어, 시트 제어(마사지, 통풍, 열선 등), 창문 제어, 전동식 트렁크(테일게이트) 개폐 등을 꼽을 수 있다. 디테일한 명령이 가능하다. 예컨대 멀티존 음성인식에서는 “전체 창문 반만 열어줘”라고 말할 경우, 1열과 2열 창문을 절반만 내린다. 또한 “나 추워”, “엉따 해줘”와 같은 명령어에도 반응해 이에 적합한 공조 및 시트(열선, 통풍) 제어로 대응한다. 한편, 발화 위치에서 실행할 수 없는 명령이 입력됐을 때는 통합 제어기를 통해 차량의 해당 기능 탑재 여부를 판단하고 사용자에게 “지원되지 않는 기능”이라고 답변한다.

발화자를 구분하는 멀티존 음성인식 기술의 원리

Q. 멀티존 음성인식의 기술 원리는 무엇인가?

탁민우 책임연구원I 일반적인 음성인식의 작동 프로세스는 다음과 같다. 먼저 음성인식 엔진을 통해 입력된 음성을 분석하는 자동음성인식(ASR, Automatic Speech Recognition), 이를 텍스트로 해석하는 자연어 이해(NLU, Natural Language Understanding), 대화 형식의 텍스트를 생성하는 자연어 생성(NLG, Natural Language Generation), 음성합성(TTS, Text To Speech) 등의 단계로 작동한다. 여기서 멀티존 음성인식은 ASR 이전 단계에서 웨이크업 명령 여부와 발화 위치를 판단하는 과정이 추가된다.

탁민우 책임연구원이 웨이크업 여부와 발화 위치를 판단하는 멀티존 음성인식의 원리에 대해 설명했다

가령 ASR에서 사용자 음성을 텍스트로 전환하면, 시스템이 이를 적절하게 대응할 수 있도록 NLU가 분류한다. 그다음 NLG가 사용자에게 답변 텍스트를 생성한 뒤, TTS가 음성 형태로 전환해 사용자에게 전달한다. 음성인식으로 차량 시스템을 조작하고자 하는 경우에는 NLU에서 통합제어기로 명령하는 과정으로 대체된다. 이런 일련의 과정을 통해 음성인식이 사용자 발화를 인식하고 적절한 편의를 제공하는 것이다. 참고로 ASR은 복수의 서버가 담당하며, 서버를 통해 전달받은 음성 분석 결과 중 가장 신뢰도 높은 결과를 선택해 오인식을 최소화한다.

Q. 발화자 좌석 위치는 어떻게 구분하는가?

박영재 책임연구원I 1열 좌/우, 2열 좌/우 탑승자의 목소리를 각각 감지하는 지향성 마이크 네 개가 헤드라이너에 배치됐다. 지향성 마이크는 말 그대로 특정 방향에서 입력되는 소리를 더 민감하게 받아들인다. 여기에 입력된 소리를 소프트웨어 기술인 빔포밍(Beam forming)과 BSS(Blind Source Separation)를 통해 다른 방향에서 입력된 소리와 비교하고 각 소리를 분리하는 방법으로 음성인식에 대한 신뢰도를 높인다. 즉, 여러 소리 중 특정 방향에서 발화된 음성만을 분리하기 위해 나머지 3개의 지향성 마이크를 활용하는 것이다. 한편, 1열 좌/우, 2열 좌/우 총 4곳에서 디지털 신호를 처리하는 각각의 오디오 DSP(Digital Signal Processor)가 상시 작동하며 웨이크업 명령을 모니터링한다. 오디오 DSP에서 웨이크업 명령어를 감지한 경우에만 인포테인먼트 AP(Application Processor)가 2차적으로 활성화돼 이를 처리하는 방식으로 전체 시스템의 부하를 줄였고 인식률은 높였다.

박영재 책임연구원은 멀티존 음성인식 개발 과정에서 좌우 오디오 입력 편차 문제 해결을 담당했다

Q. 시끄러운 미디어 재생 환경에서도 인식률이 높은 비결은 무엇인가?

노재근 책임연구원I 인식률이 높은 비결 중 하나로 현재 재생되는 미디어 음원을 파악하고 마이크에 입력되는 소리에서 이를 제거하는 AEC(Acoustic Echo Cancellation) 기술을 꼽을 수 있다. AEC는 미디어 음원에 반대되는 역위상을 만들어 배경이 되는 소리를 제거하고 사용자 음성만을 분리한다. 대화 음성, 주행 소음 등 실내에서 발생하는 잡음은 사용자 음성과 명확하게 분리하기 어려울 수 있다. 이때는 에코 제거 및 노이즈 제거 솔루션인 NR(Noise Reduction), AEC(Acoustic Echo Cancellation)로 주변 소리를 줄이는 방식으로 오디오 품질을 향상한다. 이 밖에도 시스템에 의한 사운드 송출 지연 시간, 한계 입출력 시 소리가 왜곡되는 오디오 클리핑(Clipping) 현상, 현재 볼륨 상태 등을 고려한 설계 등도 우수한 인식률을 구현하는 데 도움이 됐다.

Q. 인식률 테스트는 어떤 방식으로 진행됐는가?

노재근 책임연구원I 개발 당시 조용한 환경과 미디어가 재생되는 환경으로 나눠 평가 시험을 진행했다. 드라마, 토크쇼, 뉴스, 영화 등의 미디어를 6시간 재생하는 가운데 웨이크업 오인식이 발생하는 상황을 연출했다. 볼륨 30으로 미디어를 재생했고, 최대 볼륨이 45라는 점을 감안하면 상당히 시끄러운 조건이었다. 참고로 볼륨 30은 대략 90dB(A)로 마이크에 전달되며 웨이크업 명령어 “헤이 기아”를 재생한 마우스 시뮬레이터의 볼륨은 25로 신호 85dB(A) 크기였다. 즉, 미디어 소리가 명령어보다 큰 상황이므로 시그널과 노이즈 간의 크기를 나타내는 SNR(Signal to Noise Ratio)이 0dB 이하가 되는 악조건이라고 볼 수 있다.

노재근 책임연구원은 미디어 소리로 시끄러운 환경에서도 우수한 인식률을 보인 멀티존 음성인식의 비결로 AEC 기술을 꼽았다

더불어 오인식을 의도하기 위해 현재 재생되는 미디어 음원을 파악하고 마이크에 입력되는 소리에서 이를 제거하는 기술인 AEC가 작동하지 않도록 외부 스피커로 미디어를 재생했다. 또한 가장 가혹한 시험 조건을 만들기 위해 웨이크업 명령어 볼륨도 일정하게 유지했다. 실제 사용 조건에서는 주변 소음이 시끄러울수록 사람의 목소리도 따라서 커지는 롬바드 효과(Lombard Effect)가 일어나는데, 웨이크업 시험에서 이런 조건을 결합할 경우 인식률이 높아질 수 있기 때문이다. 따라서 이런 요소들을 철저히 배재했다.

즉, 현재 재생되는 미디어 음원을 걸러내는 기술인 AEC가 작동하지 않고, 상대적으로 작은 목소리로 웨이크업 명령하는 악조건을 연출한 것이었다. 이를 통해 최대 볼륨 45에서도 원활하게 웨이크업하는 것을 확인할 수 있었다. 참고로 볼륨 45의 환경은 마이크에 105dB(A)로 전달될 만큼 일반적인 사용 조건에서 벗어난 매우 시끄러운 조건이다. 그럼에도 불구하고 6시간 재생하는 동안 멀티존 음성인식의 오인식은 총 2회(인식률 약 97%)에 불과했다. 이는 6시간 연속으로 오디오가 입력되는 성능 측정 과정에서 발생한 것이며, 실제 사용 환경에서는 대화하지 않는 묵음 상태가 있는 점을 고려할 때 오인식이 더 적게 발생하리라 기대한다.

포티투닷 ePMO팀 이승명 PM(좌), 현대차 음성인식개발팀 이경철 파트장이 웨이크업 개발 단계에서 겪은 어려움에 대해 소개했다

Q. 더 뉴 카니발이 완성되지 않은 상태에서 이를 탑재할 웨이크업 명령어 인식(Wake-up Word Detection)을 개발한 것으로 알고 있다. 개발 당시 어떤 어려움이 있었나?

박지환 엔지니어I 사용자 음성이 마이크에 도달하는 과정에서 헤드라이닝, 시트를 비롯한 실내 요소(장애물)에 의해 반사되는 잔향이 발생한다. 더불어 주행할 때는 로드 노이즈, 풍절음, 엔진 사운드 등의 각종 소음이 실내로 유입된다. 즉, 스튜디오(무향실)에서 학습에 사용하는 데이터와 차량 실내에서 실제 사용자가 말하는 음성 특성 간에 차이가 발생하는 것이다. 따라서 실제 차량 환경에 맞춰 웨이크업 명령어를 학습하도록 하는 것이 매우 까다로웠다. 이를 해결하기 위해 RIR(Room Impulse Response), 주행 소음 등을 적절히 활용해 실제 차량 사용 환경과 최대한 유사한 상태에서 웨이크업 명령어 인식을 개발했다.

Q. 인종의 용광로라고도 불리는 북미에서는 사용자에 따라 웨이크업 명령어를 발음하는 차이가 클 것이다. 이런 점을 어떻게 반영했나?

이한빈 엔지니어I 딥러닝 모델에서는 풍부한 음성 데이터(웨이크업 명령어)를 확보할 수록 유리하다. 그러나 “헤이 기아”처럼 실생활에서 잘 사용하지 않는 음성 데이터를 수집하는 것은 쉽지 않다. 이와 반대로 일상에서 흔하게 사용하는 단어를 웨이크업 명령어로 지정해 딥러닝 모델에 학습 시키면 우수한 인식률을 확보할 수 있을 것이다. 그러나 사용자가 대화 중에 의도치 않게 해당 단어 또는 유사한 단어를 말할 경우에는 불필요하게 시스템이 활성화될 것이다. 게다가 미국에는 여러 나라에서 건너와 정착한 분들이 많다. 이들의 다양한 억양이 반영된 음성 데이터를 모두 수집하기란 매우 어려운 일이다. 이런 문제를 해결하기 위해 자기 주도 학습(SSL, self-supervised learning) 방식으로 대용량의 음성데이터를 학습시켜 웨이크업 인식에 대한 정확도를 높였다.

포티투닷 스피치팀 박지환(좌), 이한빈 엔지니어는 웨이크업 명령어 인식률을 높이기 위한 개발에 전념했다

Q. 현대차그룹 차량 최초로 애플사의 ‘Enhanced Siri’를 인증받았다. 그 과정에서 어려움은 없었나?

이승명 PMI 멀티존 음성인식에서 차량 내부 마이크를 사용해 차량과 연결된 사용자의 아이폰을 웨이크업할 수 있도록 애플사의 ‘엔핸스드 시리(Enhanced Siri)’ 인증을 받았다. 이를 인증받으려면 우수한 인식 성능과 빠른 응답성을 갖춰야 한다. 최신 딥러닝 모델은 고성능 서버 환경 기준으로 설계되지만, 차량용 임베디드 시스템은 이보다 저전력으로 작동되기에 목표 응답지연시간(latency)을 충족하기 위한 추가적인 개발을 진행했다. 여러 방법을 동원해 차량용 임베디드 시스템에서 더욱 빠르게 동작 가능한 최적화된 모델을 선정할 수 있었다.

로또 추천 번호, 내차위치 전송 등 인포테인먼트 조작을 “헤이 기아”라는 웨이크업 명령어로 편리하게 사용 가능하다

Q. 얼마나 빠르게 사용자 음성을 인식하는가?

황승현 책임연구원I 멀티존 음성인식이 명령어를 인식하는 시간이 0.4초(400ms)에 불과하다. 다만, 이를 사용자에게 전달하는 과정에서 추가로 지연될 수 있고 내비게이션을 비롯한 애플리케이션을 사용해 CPU 처리 속도가 늦어질 경우에는 약 1.5초까지 늘어날 수 있다.

Q. 앞으로 멀티존 음성인식을 현대차그룹 전 차종에서 만날 수 있는가?

황승현 책임연구원I 멀티존 음성인식은 현재 ccNC(connected car Navigation Cockpit) 인포테인먼트 시스템 기반의 더 뉴 카니발에만 적용되어 있지만, 추후 제네시스에도 적용될 예정이다. 다만 하드웨어 성능이 뒷받침 돼야 하기 때문에 현대차그룹 전 차량에 적용하기 위해서는 시간이 걸릴 것이다. 후석 마이크가 있는 SUV, MPV 차종에서는 더 뉴 카니발과 마찬가지로 뒷좌석 좌/우 탑승자 위치를 구분하는 기능을, 그외 차량은 1열 좌/우 위치를 구분하는 기능을 제공할 예정이다. 웨이크업 명령어는 ‘헤이 기아’, ‘헤이 현대’, ‘헤이 제네시스’ 등 각 브랜드에 맞게 적용될 것이다.

지금까지 살펴본 것처럼 1열 좌/우, 2열 좌/우 탑승자의 위치를 파악하고 음성명령으로 차량을 제어 가능한 멀티존 음성인식의 장점은 더 뉴 카니발에서 매우 유용한 기능이라 할 수 있다. 무엇보다 더 뉴 카니발은 차량 기능을 원활하게 사용하기 어려운 자녀나 부모님과 함께 이동하는 경우가 많은 차종이기 때문이다. 앞선 기술로 더욱 편리한 모빌리티 라이프를 만들고자 하는 현대차그룹의 노력은 앞으로도 계속될 것이다.

영상. 남도연, 임우진

사진. 최대일, 김범석, 최진호