챗봇에 보이스(음성인식)를 붙여야 할까?

젠틀파이, 챗봇, 보이스봇, 음성인식, STT, TTS, AI 챗봇

Apr 1. 2019

챗봇을 런칭했고 기대만큼은 아니지만 사람들이 쓰기 시작한다. 다행이다 한시름 놓았다. 그런데 이제는 챗봇에 음성을 연결시키라고 '위'에서 말씀하신다.

'위'에서는 왜 음성을 넣으라고 했을까? 트렌드니까 그러라고 하셨을 수 있다. 그래도 붙여야 한다니 음성인식 중에 STT(음성의 텍스트 전환: 받아쓰기)만 붙일까 생각 중인데 그건 원래 휴대폰에 있는 기능 아닌가요?

이미 디바이스가 갖고 있는 음성 받아쓰기 기능

흠. 챗봇에 굳이 음성 기능을 넣으라는 '위'의 의도를 파악하려면 사람들이 왜, 언제, 음성기능을 사용할지부터 생각해보는 게 좋겠다.

1. 사람들은 언제 타이핑 대신 음성을 사용할까?

타이핑이 귀찮거나 손이 자유롭지 않을때

타이핑이 귀찮거나 불편할 때

화장실은 기본이고 걸어다니면서도 스마트폰을 쓴다. 스마트폰 스크린이 갈수록 커지니 움직이는 중에는 타이핑하기가 너무 불편하고 한층 더 귀찮아졌다. 맞다. 타이핑은 매우 귀찮은 일이다. 중국어처럼 문자 입력이 어려운 언어를 사용하는 곳에서는 이미 음성입력이 터치입력보다 일반적인 옵션이며, 타이핑이 익숙치 않은 어르신이나 아이에게도 타이핑보다는 음성이 훨씬 편한 입력 방식이다. 소리내 말하는 무안함만 감수한다면 음성입력은 타이핑 입력의 불편함을 획기적으로 극복해 주는 툴이다.

또 다른 상황. 손이 자유롭지 않을 때

물리적으로 손이 닿지 않는 곳에 기기가 있거나, 내 손은 이미 다른 무언가를 하고 있거나 더러워서 기기에 터치 할 수 없을 때. 타블렛 광고나 스마트스피커 광고에 흔히 나오는, 요리나 운전 상황에서는 음성 입력방식이 훨씬 편할 뿐더러 유일한 옵션이기도 하다. 이런 상황이 많을 것으로 예상된다면 음성커뮤니케이션을 주 입력방식으로 전환하는 것까지 고려할 수 있다.

1)타이핑이 귀찮은 상황의 받아쓰기 기능은 유저사용성을 확실히 높여준다. 이런 상황을 해결하기 위해서는 STT(받아쓰기)기술 적용 외에도 클릭이나 타이핑 없이 음성 발화만으로 봇과 유저의 대화가 이어질 수 있도록 기술/기획 보완이 필요하다. "다음꺼 보여줘". "이전꺼" "세번째꺼" 같은 자연어 제어 액션을 포함하는 등의 화면 발화 제어를 위한 추가'공사'가 필요하다. 2)손이 자유롭지 않은 두번째 상황이라면 유저가 화면을 가까이 보고 있지 않을 가능성도 있기 때문에, 화면발화제어 플러스 [스피커 발화(읽어주기) + UI 공사]라는 연장 공사를 더 해야한다. ‘어제 산 택배 언제와?’라고 물으면, 유저는 소리만으로도 대화를 확인할 수 있거나, 조금 멀리에서도 [오후 2~4시 도착 예정]이라는 답을 확인할 수도 있다. 발화 컨텐츠와 UI 보완이 필요하다. 대공사가 될 조짐이 보인다.

'위'에서 대공사까지는 원하지 않는 것 같으니, '타이핑이 귀찮은 상황' - 음성입력을 우선 시작해 보자.

2. 챗봇에 STT(받아쓰기)를 붙여보자!

STT(Speech To Text)는 음성을 텍스트로 바꿔주는 음성 인식 기술이고, TTS(Text To Speech)는 텍스트를 음성으로 변환해주는 음성 합성 기술이다. 간단히 말해, 사람 말을 기계가 대신 받아쓰기 해주고 또 읽어주는 기술이다. 음성 AI기술은 이미 여러 곳에서 기성품으로 찾을 수 있으며, IBM WATSON, 구글, 네이버 클로바에서도 가장 쉽게 접할수 있는 AI엔진 중 하나다. 기술 이해도만 있다면 STT 기술을 텍스트형 챗봇에 붙이기는 어렵지 않다. STT의 결과물인 텍스트를 자연어엔진의 유저 입력 텍스트로 전환하기만 하면 된다. 다만, 기획 측면에서는 추가 고려 사항이 있다.

사람들이 음성으로 말할 때와 타이핑할 때는 말투나 대화 방식이 약간 다르다. 어른이 어린아이에게 말할때 말이 짧고 단순해지는 것처럼, 기계에 대고 말하는 순간 인간의 말은 생각보다 훨씬 더 드라마틱하게 단순해진다. AI 기기들이 못 알아들었다고 하면 왜 이렇게 좌절이 되는지 모르겠다. 타이핑으로 입력할때는 오타가 나면 바꿔쓰고 좀 더 생각했다가 물어볼 수도 있는데 음성으로 대화를 하면 "아, 아니아니 그거말고"라며 수정할수 없다. 조금 쉬었다 얘기하면 앞부분만 똑 떼서 다른 말로 오해해 버리기 일쑤다. 내 발음이 문제인가, 왜 갤럭시 에쓰텐을 못알아듣지 라며 애꿎은 내 혀를 탓하기도 한다. 사용자의 문제가 아니다. 모두 현재 AI가 가진 기술적인 한계 때문이다. 개발자(혹은 기획자)는 STT를 적용하기 전에 받아쓰기를 소리나는대로 받아쓰지 않도록 학습을 시켜야 한다. “집 근처 스따벅쓰"라는 발음이 들어오면 ‘스타벅스’라고 변환시킬수 있도록 STT 엔진/자연어처리 엔진/백엔드 에서 치환 로직이나 동의어 처리 등을 추가하게 된다. 제품코드 QN82Q90RAFXKR를 유저가 음성으로 말한다고 생각해보자. 벌써부터 머리가 아파온다. 상용화된 STT엔진은 특수한 단어, 특히 고유명사를 제대로 알아듣지 못하는 경우가 많으니 엔진마다 미리 확인해보고 추가 학습도 개발 일정에 포함해 두는 게 좋겠다.

3. TTS(읽어주기)를 포함해야 할까?

저마다 의견이 다를수 있지만, 음성으로 묻는다면 음성으로 대응해야 보다 자연스러운 대화가 된다고 생각한다. 문서를 이메일로만 떨렁 보내기보다는 요약이나 부가 정보를 덧붙여 전화로 설명하면 이해도가 훨씬 높아지는 것처럼, 응답이 소리로 나올때 정보를 더 입체적으로 이해할 수 있다. 다만, 화면에 제시된 텍스트를 그대로 읽어준다면 시끄럽기만 할 뿐 큰 도움이 되지 않는다. TTS를 적용하기로 생각했다면, 어떤것을 TTS로 읽어줄지를 위한 전략이 별도로 필요하다. 시각 자료를 보완해주거나 시각 내용을 요약해 주는 부가 콘텐츠를 읽어준다면 사용자가 음성지원 서비스에 더 큰 가치를 발견할 수 있을 것이다. 최근 작업 중인 프로젝트에서는 발화용 텍스트와 화면용 텍스트를 모두 별도로 구성하고 있다. 개발하는 편에서는 신경쓸 일이 더 많아지겠지만, 유저는 좀 더 편해질 수 있다는 생각에서다.

음성을 붙인다는 것은 새로운 커뮤니케이션 환경을 만든다는 뜻이다. 처음 우리가 만든 챗봇은 텍스트와 터치를 최우선 소통방식이라고 생각해서 만든 서비스다. 음성을 추가로 입력수단으로 포함해 편의성을 높이는 것도 좋지만, 새로운 UX가 가진 장점과 본질을 최대한 살리는 방향을 고려해 보았으면 한다. 음성으로 무언가 할때는 저관여 일때 편리하다. 단답형으로 확인하는 단순패턴의 대화나 "어제 샀던거 취소해줘"와 같은 기능 숏컷 등이 음성대화에서 편리함을 준다. 기술이 아직 따라와주지 않는 엄청난 대화를 설계하거나 음성입력 엔진 하나 무심하게 덧붙이는 것이 아니라 현재의 기술에서 사람들이 가장 가치를 쉽게 느낄 수 있는 부분부터 차근차근 고민하고 공략해야 할 것이다.