brunch

You can make anything
by writing

C.S.Lewis

by 기획자 연주리 Jun 06. 2021

AI 서비스의 모든 것 3편: 음성 인식 AI

자동차부터 콜센터까지, 음성 인식 AI 서비스의 A to Z

[AI 서비스의 모든 것] 시리즈는 다양한 AI 기술과 서비스의 현황을 소개합니다.


이번 글은 "3. 음성 인식 AI"를 다룹니다. 음성 인식 AI의 현황을 알아보기 위해, 20년 대표 AI 기업 리스트과 국내 AI 기업을 조사했습니다.


음성 인식 AI는 이미지/영상 인식 AI보다 더 많이 상용화되었습니다. 이 글에서 소개하는 음성 AI 서비스도 친숙한 것이 꽤 있을 거예요. 그럼에도 최근 국내에 AI 콜 센터 기능이 빠르게 서비스되는 등 몇 가지 지각 변동이 있었습니다. 이 글을 통해 음성 인식 AI 서비스의 현황을 조망할 수 있습니다.


이 글에서 다루는 음성인식 AI 서비스 카테고리는 아래와 같습니다.

AI 비서/스피커 (AI Assistant)

디바이스 제어 (Device Control)

콜 센터 (Contact Center)

차량과 AI (AI in Car)



AI 비서/스피커 (AI Assistant)


Photo by Przemyslaw Marczynski on Unsplash


가장 쉽게 접할 수 있는 AI 비서와 스피커부터 소개합니다.


먼저, AI 스피커에 사용되는 AI 기술에 대해 간단히 알려드릴게요. 사용자가 AI 스피커에게 말한 후 AI 스피커가 적절한 대답을 하기까지 AI 기술이 총 세 차례 사용됩니다.


1) STT(Speech-to-Text): 사용자의 음성 명령어를 텍스트로 변환합니다.

2) NLP(Natual Language Processing): 텍스트 정보를 분석하기에 적합한 단위로 나누고 명령어의 의도를 분석합니다.

3) TTS (Text-to-Speech): 분석한 정보에 대한 적절한 응답을 음성으로 변환합니다.

AI 스피커에 사용되는 AI 기술


음성 AI 서비스의 만족도가 떨어지는 가장 큰 이유는 STT가 100%의 정확도를 보장하지 않기 때문입니다. 사용자가 발화하는 위치가 멀거나 발음이 부정확하면 음성을 텍스트로 변환하지 못하거나 잘못 변환하는 이슈가 있습니다. STT가 제대로 작동하지 않으면 사용자의 명령어에 대한 대답도 정확할 수 없습니다.


우리가 주로 스마트폰에 입력하는 텍스트나 버튼 명령어는 틀리더라도 쉽게 수정할 수 있습니다. 그러나 음성 명령어는 AI 비서가 대답을 못하거나 잘못하는 것을 듣고 난 후에야 다시 명령어를 입력할 수 있죠. 명령어가 한 번에 제대로 인식되면 문제가 없지만 그렇지 않으면 오류를 인식하기까지 시간이 더 많이 소요되는 불편함이 있습니다. 대부분의 상황에서 voice UX가 텍스트 UX보다 불편합니다.


Voice UX의 이러한 한계 때문에 음성 AI 서비스가 꼭 필요한지에 대한 적극적인 고민이 필요합니다. 스마트폰으로 쉽게 타이핑해서 검색할 수 있는데 정확도가 떨어지는 음성 검색을 굳이 할 필요는 없으니까요. 그럼에도 voice UX가 필요할 때가 있습니다.


<좋은 음성 인식 서비스>


1) voice UX는 두 손이 자유롭지 않을 때 유용합니다.

운전할 때, 운동할 때, 요리할 때, 화장할 때 Voice UX로 손을 대지 않고 필요한 기능을 동작시킬 수 있습니다. 노래 재생하기, 콘텐츠 재생하기, 연락하기는 다른 일을 하며 사용하기에 좋은 명령어입니다. 저는 주로 자전거를 탈 때 애플의 SIRI에게 "00에게 전화해줘" 명령어를 사용합니다.


2) 명령어의 결과가 긴 음성 정보일 때 적합합니다.

음악과 라디오와 같이 명령어의 결과가 긴 음성 콘텐츠일 때 Voice UX가 적합합니다. 디스플레이가 없는 AI 스피커의 결과는 모두 음성이지만, 예/아니오와 같이 짧은 대답을 할 수도 있고, 음악을 들려주거나 오늘의 운세를 읊어주는 등 긴 음성 정보를 줄 수도 있습니다.


긴 음성 콘텐츠에 Voice UX가 더 적합한 이유는 투자 대비 결과물이 더 많기 때문입니다. 위에서 말한 것과 같이 voice UX는 명령어를 여러 번 입력하기에 불편합니다. 따라서 한 번에 많은 정보를 돌려주는 명령어가 더 유용합니다.


(Good) 노래 재생하기

"내 아침 노래 틀어줘"
"멜론 top 100 노래 틀어줘"

(Good) 콘텐츠 재생하기

"정치 뉴스 시작해줘"
"오늘 주가 알려줘"

(Good) 연락하기

"아빠한테 전화해줘"
"새로운 카카오톡 읽어줘"


<나쁜 음성 인식 서비스>


1) 스마트폰으로 검색하는 것이 더 빠를 때는 Voice UX가 유용하지 않습니다.

Voice UX를 통한 단순 정보 검색, 주변 카페나 음식점 추천은 유용하지 않습니다. 텍스트를 통한 검색이 더 편리하기 때문입니다. 텍스트 검색은 관련 검색어까지 추천해줄 뿐만 아니라, 검색어를 수정하기 용이합니다. 더욱이 음식점의 평점이나 이미지 같은 유용한 정보를 음성을 통해 받을 수 없습니다. 다만 요리할 때 음성으로 레시피 정보를 묻거나 출근 준비를 할 때 날씨 정보를 묻는 것은 두 손이 자유롭지 않은 상태라는 점에서 voice UX가 유용합니다.


(Bad) 검색하기

"오늘 날씨 알려줘"
"지금 출발하면 회사에 언제 도착해?"
"오늘 오후 일정 알려줘"
"된장찌개 레시피 알려줘"


2) 복잡한 정보를 Voice UX로 전달하는 것은 적합하지 않습니다.

쇼핑하기에 Voice UX는 적합하지 않습니다. 주기적으로 사야 하는 물품을 음성으로 주문하는 것은 언뜻 보기엔 유용할 수 있습니다. 그러나 돈이 개입되는 결제 과정에서 오류가 발생하면 안 되므로 voice UX는 시각 UX보다 적합한 수단이 아닙니다. 특히 쇼핑에서는 가장 합리적인 상품을 고르는 과정이 필요한데, voice UX로는 가격 비교를 하기 어렵다는 한계가 있습니다.


(Bad) 쇼핑하기

"강아지 사료 다시 시켜줘"
"주문 내역 알려줘"
"택배 언제 와?"



디바이스 제어 (Device Control)


https://developer.amazon.com/en-US/alexa/alexa-for-residential


스마트홈에서 음성 인식 AI를 사용하면 움직이지 않고 멀리에 있는 기기까지 제어할 수 있습니다. 특히 최고의 편안함을 제공해야 하는 호텔/리조트에서 스마트홈 음성 제어 기능이 유용합니다.


1) 스마트홈

스마트홈으로 설정할 수 있는 기기에는 조명, 카메라(CCTV), 온도 조절기, 도어락, 라우터, 스마트 시계, 전자레인지 등이 있습니다. 삼성전자의 세탁기, 건조기, 공기청정기, 로봇청소기 등도 음성 제어가 가능합니다.

"불 켜줘"
"현관 CCTV 보여줘"
"전자레인지 2분 돌려줘"
"온도 2도 높여줘"
"건조기 AI 맞춤 코스 실행해줘"


호텔에서는 고객의 만족도를 최대화하기 위해 스마트홈 음성 제어 기능을 사용합니다. 스마트홈 제어 명령어로 방 안의 온도나 조명을 제어할 수 있고, 호텔의 시설 정보 등을 직원이 아닌 AI가 대답해줌으로써 직원들의 시간을 아낄 수 있습니다.

(호텔에서)
"오늘 룸서비스 스페셜 메뉴 알려줘"
"이 호텔에 있는 음식점 알려줘"
"프론트 데스크에 연락해줘"
"체크아웃 해줘"


2) TV 제어

B tv AI 셋톱박스


현재 SKT의 AI 소프트웨어가 가장 많이 사용되는 두 가지 서비스는 바로 T map (네비게이션)과 TV 셋톱박스입니다. TV에서 AI 스피커가 유용한 이유는 사용자와 TV간의 거리가 멀고, 리모컨을 사용하는 것이 불편하기 때문입니다. TV에서 콘텐츠를 검색할 때 리모컨으로 불편하게 "ㅇ,ㅓ,ㅂ,ㅔ,ㄴ,..."를 한 자 한 자 모두 칠 필요 없이 음성 하나만으로 검색할 수 있으니까요.

"어벤저스 틀어줘"
"30초 전으로 이동해줘"



콜 센터 (Contact Center)

기업은 전화로 고객의 문의를 응대합니다. 고객이 콜 센터에 전화하는 이유은 예약, 문의, 구매부터 불만 제기까지 다양합니다. 그런데 문의하는 내용이나 예약하는 내용은 상당 부분 동일한 내용이 반복됩니다. 그래서 AI가 콜 센터에 들어갔습니다. 예약과 문의 응답을 자동화해 콜 센터 업무의 부담을 덜어줍니다. 고객의 문의 내용을 STT로 텍스트화해 실시간 통계를 알려주기까지 합니다.


NAVER CLOVA 고객센터 솔루션

NAVER CLOVA 고객센터 솔루션


클로바 케어콜은 코로나19 감시 대상자에게 매일 2번씩 자동으로 전화를 걸어 발열 여부와 체온, 기타 증세 등을 확인하는 AI 전화 서비스입니다. 20년 11월에는 하루 최대 3천여 건의 전화상담을 처리했다고 합니다.


콜 센터 토탈 케어 서비스 (Google Contact Center, Gridspace)

먼저, 고객의 음성을 인식해 상담원의 대답을 돕는 상담원의 실시간 디지털 비서 기능을 제공합니다. 상담원이 고객 문의에 대답할 차례에 고객의 문의 사항에 관련된 최신 정보를 실시간으로 가져와 대답을 돕습니다.


https://www.gridspace.com/contact-centers


그리고 고객의 통화 내용을 분석합니다. 전화의 내용을 텍스트로 전환한 후 통화 요인과 고객의 감정 정보를 통계로 제공합니다. VOC가 급증할 경우 빨리 해결해야 할 문제를 알려줍니다. AI가 수백만 개의 과거 상담 로그를 학습해 고객의 문의를 유형화할 수 있으며 새로운 요청 사항이 추가되면 AI가 스스로 학습합니다.



차량과 AI (AI in Car)


차량은 Voice UX가 가장 적합한 공간입니다. 운전자는 운전에 집중해야 하기 때문에 차량 내부를 컨트롤할 수 있는 자원이 제한되어 있습니다. 간단히 말해 손발이 묶인 상태입니다. 따라서 국내 기업 중 현대자동차, T map, 카카오 모빌리티 등은 Voice UX를 적극적으로 제공합니다. 차량의 Voice UX가 할 수 있는 기능은 대표적으로 디바이스 제어, 모빌리티 제어, 그리고 검색, 전화 기능이 있습니다.


https://www.dailymail.co.uk/sciencetech/

디바이스 제어

"에어컨 켜줘"
"나 추워"
"사이드미러 접기, 사이드미러 펴기"
"와이퍼 켜기, 와이퍼 속도 올리기"

모빌리티

"집으로 가자"
"서울시청 경로 설정"
"집, 직장, 공항으로 길안내"
"지도 확대해"

검색/전화

"구글에서 날씨 검색하기"
"엄마한테 전화 걸어"



마무리하며


국내에서 AI 스피커가 본격적으로 서비스한지도 어연 3년이 넘은 것 같습니다. 하지만 AI 스피커 외에 음성 AI 서비스의 수익화 방안이 아직 모호합니다. 이제 AI 스피커를 살 사람은 다 샀고, AI 서비스를 사용하기 위해 디바이스를 별도로 구매할 고객은 별로 없을 것입니다.


음성 AI 서비스가 디바이스보다는 소프트웨어 서비스로 나아가야 될 차례입니다. 그리고 그 첫 번째 시도가 바로 AI 콜 센터인 것으로 보입니다. 앞으로 AI 콜센터가 확대될지, 콜 센터 다음으로는 어떤 유용한 음성 인식 AI 서비스가 만들어질지 기대가 됩니다.


<AI 서비스의 모든 것 시리즈>


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari