VUX, 멀티태스킹, 그리고 커넥티드 카
최근 음성인식 솔루션의 춘추전국시대라고 해도 과언이 아닐 정도로 다양한 서비스가 쏟아져 나오고 있습니다. 2011년 애플이 아이폰 4S와 함께 시리를 발표한 이후 음성 비서에 대한 인식이 대중적으로 자리잡게 되었는데요. 이후 아마존의 Alexa, 국내에서는 SKT의 NUGU를 필두로 물리적인 형태를 갖춘 스마트 스피커 시장이 활발해지면서 음성 비서에 대한 서비스 제공자들의 고민이 더욱 다양해지는 것 같습니다. 스마트 스피커 시장에서는 아마존의 경우 커머스, 라인의 경우 정보검색 및 캐릭터(?) 등 각 기업이 보유한 특화 서비스를 강조한 제품을 선보이고 있으나, 아직까지 이전 대비 음성 UX의 경험을 차별화한 서비스는 없다고 느껴집니다. 저는 회사에서 음성 UX와 관련된 몇 번의 프로젝트를 거치면서, 아래와 같은 의문을 지울 수 없었습니다.
'말로 하는 것이 한 번의 터치 조작보다 과연 얼마나 쉬울까?'
'화면을 보면 한 번에 알게 될 내용을 음성 안내로 들어야 된다면 답답하지 않을까?'
아직은 터치 조작에 익숙한 현대인으로써 새로운 조작 방식을 접하게 되어 생기는 당연한 고민일지도 모르겠습니다. 그러나 음성만을 사용하다 처음으로 화면을 선보인 에코 쇼를 보면 스마트 스피커의 선두 주자인 아마존도 비슷한 고민을 하고 있는 것 같습니다.
이러한 고민의 답을 찾기 위해서는 음성 인터랙션의 context와 contents, 두 가지 방향의 접근이 필요합니다. 장소, 환경 등의 맥락(context)으로 인해 음성 인터랙션을 사용하기에 적합한 상황이 있고, 음성으로 사용할 때 더욱 효과적인 태스크나 컨텐츠(contents)가 있을 것입니다. 현재 음성 서비스의 제공자들은 기술적 관점에서 제공 가능한 서비스를 다양하게 붙여 보는 방식을 취하고 있지만, 결국 사용자가 음성 인터랙션에 흥미를 잃지 않고 적극적으로 활용하기 위해서는 가장 적합한 시나리오를 제공해야 한다고 생각합니다. 이 글에서는 먼저 context의 관점에서 접근해 보려고 합니다. 음성을 사용해서 조작할 때 가장 효과적인 상황은 언제, 어디일까요?
위의 질문에 대한 해답을 고민하던 중, 같은 질문에서 시작된 한 아티클에서 'place-ona(place+persona)'라는 재미있는 개념을 알게 되었습니다. 'place-ona'는 <사용자 경험 스케치>의 저자 빌 벅스튼이 제시한 개념으로, 음성 인터랙션은 사용자의 성향보다는 맥락에 따라 필요성이 다르기 때문에 장소에 따라 인터랙션의 행태가 결정된다는 것인데요. 아티클에서는 이에 대한 예시로 도서관, 요리 중, 시끄러운 클럽, 주행 중 이렇게 시각 및 청각적 제약이 서로 다른 4가지 place를 놓고 음성 인터랙션이 효과적인 상황을 비교해 보았습니다. 결론부터 말하자면 음성 인터랙션이 더 우세한 상황은 두 가지 조건이 일치하는 경우라는 것을 알 수 있습니다.
1. 사용자의 시선 혹은 두 손이 부자유한 상황
2. (당연하지만) 청각적 방해가 없는 상황
1번의 경우 시선과 두 손의 제약 상황은 곧 사용자가 무언가 다른 일을 하는 것으로 해석할 수 있습니다. 반면, 모바일이나 태블릿 등 스크린 디바이스를 얼마든지 사용할 수 있는 환경에서 음성으로 조작하는 시나리오를 상상해보면 현재로선 그다지 와 닿지 않는데요. 정보량에 상관없이 효율적이고 즉각적으로 처리할 수 있는 화면에서의 경험이 우리에게 아직은 너무 익숙하기 때문입니다. 위에서 언급했듯이 음성 인터랙션으로 조작할 때 특히 효과적인 contents가 있겠지만, 보편적인 상황을 생각하면 화면 인터랙션의 익숙함, 효율성 등의 요인으로 음성 인터랙션만을 단독으로 사용하는 씬을 상상하기는 어렵습니다. 결과적으로 현재의 음성 인터랙션은 '제약이 있는' 멀티태스킹 상황이 가장 효과적입니다. 특히 요리나 주행처럼 익숙한 일이면서도 수행 도중에 레시피나 교통상황 등의 정보나 컨텐츠가 필요한 경우 더욱 유용하겠죠.
이번 글에서는 커넥티드 카에 탑재되는 VUX 서비스를 설계한 경험을 바탕으로 멀티태스킹의 하나인 주행 중 음성 인터랙션에 대해서 이야기해 보겠습니다.
아티클 출처 : https://blog.intercom.com/benefits-of-voice-ui/
차량 내에서의 음성 인터랙션은 일반 스마트 스피커를 사용할 때와 어떻게 다를까요?
먼저 인터랙션에 충분히 집중할 수 있는 가정 내 환경과 달리, 주행 중에는 운전이 메인 태스크이고 다양한 시각적∙청각적 정보를 확인해야 하기 때문에 인터랙션을 방해받거나 충분히 집중하기 어렵다는 특징이 있습니다. 운전하며 조수석에 앉은 친구와 대화를 나누어본 경험을 떠올려 보면, 복잡한 교통상황에 의해 대화를 방해받았던 적이 있을 것입니다. 이처럼 완전히 집중하기 어려운 특성 때문에 사용자는 음성 안내의 전체를 경청하기보다는 자신이 필요한 정보를 선별적으로 캐치하고자 합니다.
또, 주행 중 사용자의 시선은 전방을 주시하고, 손은 핸들에 있기 때문에 화면 사용이 자유롭지 않다는 특징이 있습니다. 운전 중 내비게이션으로 목적지를 검색했는데 결과가 여러 개 나온 경험이 있지 않으신가요? 목적지를 잘못 선택하면 안 되지만, 여러 개의 항목을 비교해보기 위해 찬찬히 읽어보고 정확히 선택하기 어려워 여러모로 신경 쓰이는 상황이죠. 요즘의 운전자들은 차내에서 스마트폰을 거치하여 사용하기 때문에 운전 중 화면 사용이 비교적 익숙한 편이지만, 그럼에도 화면 조작은 정확도가 떨어지며 인터랙션의 흐름을 이어가기 어렵습니다. 사실, 주행 상황에서는 안전을 위해 지양해야 합니다. 따라서 익숙해진다면 주행 중에는 운전에 방해를 주지 않는 음성 인풋이 화면에 비해 훨씬 편리할 수밖에 없습니다.
위와 같이 주행 중이라는 특수한 맥락이 인터랙션 방식에 영향을 주기 때문에, 차량 내에서 사용하는 VUX를 설계하기 위해서는 이러한 맥락에 대한 이해가 필요합니다. 이제 차량 내 음성 인터랙션이 지향해야 할 방향을 다음 질문을 통해 알아보겠습니다.
1. 주행 중 음성으로 의사결정은 어떻게 해야 할까?
2. 주행 중 음성과 화면이라는 2가지 채널을 어떻게 활용해야 할까?
사용자 : 볼빨간 사춘기 노래 틀어줘.
AI : 볼빨간 사춘기의 인기 곡 '우주를 줄게'를 들려 드릴게요.
사용자 : 민지한테 늦는다고 전화해야겠다. 김민지에게 전화 걸어줘.
AI : '김민지'로 등록된 연락처가 3개 있네요. 가장 최근에 전화한 사람에게 걸어 드릴게요.
사용자 : 어.. 잠깐만...
AI : RRRR...
주행 중 사용자에게 의사결정을 맡기려고 할 때는 상황에 대한 판단이 중요합니다. 위에서 언급했듯 주행 중 인터랙션은 멀티태스킹이기 때문에, 인터랙션에 100% 집중하기는 어렵습니다. 따라서 사용자가 음성으로 간단한 태스크를 실행하려고 할 때 사소한 부분까지 의사를 물어보고 진행하려 하면 사용자를 번거롭게 만들 수 있습니다. 음악이나 팟캐스트 재생 같은 경우, 디테일을 더 묻지 않고 로직에 따라 적합한 컨텐츠를 재생한다면 태스크를 간단하게 만들면서도 사용자의 의도에서 크게 벗어나지 않는 결과를 가져다줄 수 있습니다. 다만, 전화를 걸거나 목적지를 변경하려는 상황은 조금 다릅니다. 전화나 목적지는 잘못 설정했다가는 굉장히 난감해질 수 있기 때문에, 사용자의 정확한 의사결정을 요하는 태스크입니다. 주행 중 음성 AI가 제멋대로 내 친구가 아닌 이전 거래처 사람에게 전화를 걸거나, 스타필드 하남점에 가려고 했는데 고양점으로 자동 선택해서 안내한다면 그 날을 끝으로 음성 조작은 사용자에게 영영 버려질 확률이 높습니다. 정확도에 대한 민감도가 높은 상황에서는 사용자의 결정에 따라 정확한 조작이 중요하기 때문에, 필요한 정보를 충분히 제공하여 디테일을 확인할 수 있도록 해야 합니다. 요약하면, 주행 중에는 되도록 의사결정을 줄이는 것이 바람직하지만 정확도에 민감한 상황이라면 꼭 필요한 정보를 모두 제공하여 사용자가 결정하도록 해야 합니다.
사용자 : 서울시청으로 안내해줘.
AI : '서울시청'에 대한 검색 결과가 20개 있습니다. 서울특별시청, 서울시청신청사 주차장, 서울특별시청 서소문청사, 서울시청 서소문별관 주차장, 서울특별시청 서소문청사 서울시의회별관, 서울시청 시민청 태평홀, 서울특별시청 서울시청 별관2동, 서울시청 다목적홀, ... 어디로 안내해 드릴까요?
사용자 : (내가 어딜 가려고 했더라..)
위에서 살펴보았듯이, 주행 중에는 음성 인터랙션이 화면에 비해 주의를 덜 요하기 때문에 훨씬 유리한 위치를 점하고 있습니다. 그러나 서비스가 고도화되고 보다 풍부한 기능을 제공하고자 한다면 곧 음성의 한계와 마주하게 되는데요. 예를 들면 내비게이션이나 항목의 리스트처럼 시각적 인지에 익숙한 정보의 경우가 그렇습니다. 내비게이션의 경우 거리와 방향은 화면을 보고 인지하는 것이 훨씬 효율적이고, 정보를 인지하는 시점이 주행 상황과 밀접한 연관이 있기 때문에 안전한 주행을 위해 반드시 시각 정보가 동반되어야 합니다. 또 사용자에게 다양한 옵션을 제공해야 할 경우 옵션 리스트를 화면으로도 제공하여 음성 인터랙션을 보조할 수도 있습니다. 인터랙션의 일관성을 유지하는 것은 중요하지만, 사용자에게 중요한 정보를 전달해야 할 때 비효율적인 방법을 고집하는 것은 좋은 인터랙션이라고 하기 어렵습니다. 따라서, 주행 환경에서 음성 인터랙션을 주로 사용하되, 음성으로 전달하기에 한계가 있는 경우 화면을 활용하여 사용성을 높일 수 있습니다. 다만 사용자가 혼란스럽지 않도록 화면은 음성을 보조하는 서브 채널로 사용해야 하며, 사용자의 음성 질의나 명령에 화면으로 대답하는 일은 없어야 합니다.
이 글에서는 음성 UX에 가장 적합한 context인 멀티태스킹, 그리고 대표적 예시인 주행 상황에서의 음성 인터랙션은 어떻게 이루어져야 하는지 알아보았습니다. 어떻게 보면 제약이 많은 상황의 인터랙션을 설계하는 것은 매우 재미있기도 했지만, 그렇기 때문에 사용자가 느끼게 될 경험을 심도 있게 고려해야 했던 과정이었습니다. 기회가 된다면 추후에 음성 인터랙션에 적합한 contents에 대해서도 다루어 보도록 하겠습니다. :)
(이번 글은 'VUX in car'라는 주제의 시리즈 글 중 하나로, 피엑스디 팀블로그에 전체 시리즈가 발행됩니다.)