대화형 인터페이스의 "뻔한" 전제

영화 'Her'를 상상하지만 사만다를 만들 준비는 되지 않은 지금

Mar 12. 2018

카카오 미니는 참 많이 팔렸다. 개인적인 선호지만, 시중에 나온 한국어를 지원하는 음성인식 스피커 중에서는 제일 마음에 든다. 하지만, 여전히 많은 VUI들이 갈 길은 멀어 보인다. 이유야 많겠지만, VUI 연구자로서 가장 와 닿는 것은 이제는 '지배적 디자인'이 되어버린 보이스 인터페이스의 뻔한 전제들 때문이 아닐까 싶다.

필자가 생각하는 뻔한 전제는 다음과 같다.

1. 유저는 자신이 원하는 것을 언제나 뚜렷하게 말할 수 있다.

2. '자연스럽다'는 것은 최대한 사람과 비슷하다는 것을 말하며,

이를 지향하는 디자인을 해야 한다.

3. 음성인식 스피커 제품들이 그렇듯, GUI는 그다지 필요 없다.

개인적인 의견으로는 이런 뻔한 전제들이 틀에 박힌 디자인을 하게 만드는 첫 발걸음이라는 생각이 든다.

나름의 혁신성을 지향해야 할 VUX 디자이너들 (혹은 의사결정을 하는 사람들)이 가장 빠지기 쉬운 함정은 '레퍼런스가 이런 느낌이니 최대한 비슷하게 만드는 것이 안전하다'는 위와 같은 전제들이다. 그러니, 이번 글에서 너무 당연해서 아무도 반문하지 않는(혹은 마음속으로만 질문해왔던) 전제들에 대해 하나하나 살펴보도록 하자.

1. 유저는 자신이 원하는 것을

언제나 뚜렷하게 말할 수 있다.

딴소리부터 하자면, 유저 스터디 방법 중에 'Think aloud'라는 인터뷰 방법이 있다. 유저로 하여금 시스템을 사용하면서 생각나는 것들을 계속해서 말로 내뱉게 하는 것이다. 이 과정을 한번 해 본 사람이라면 알겠지만, 하고 나면 혼이 빠진 기분이 든다 (실제로 그렇다). 이 인터뷰 방법은 인지적으로 고도의 멀티 태스킹을 요구하기 때문이다. 굳이 이런 방법을 사용하는 인터뷰를 하지 않았더라도, 말을 많이 한 날이면 왜인지 모르게 피곤한 경험이 한 번씩은 있을 것이다. 실제로 말로 생각을 표현하는 일반인의 뇌를 촬영했을 때, 그냥 생각만 하는 뇌 보다 훨씬 더 많은 부위가 활성화되는 것을 관찰할 수 있다. 즉, 원하는 것을 모두 말로 하는 것에 익숙하지 않는 유저가 때로 자신이 원하는 바를 뚜렷하게 말하지 못할 가능성이 생각보다 크다는 것이다 (특히 멀티테스킹을 하게 되면 언어를 관장하는 프로세스에 과부하가 걸릴 가능성이 크다는 이야기이다). 지금의 NLP 알고리즘들은 발화자의 의도를 정확히 추론해 내는 것을 목표로 하고 있지만, 정작 그 '정확히' 말할 가능성이 생각보다 낮을 수 있다는 것을 간과해서는 안된다. 흔히 대화할 때 말이 목에 걸려서 입 밖으로 나오지 않는 현상을 'tip-of-the-tongue experience' 혹은 요즘 말로 '언어 장애(언장)'라고 표현하곤 하는데, 시스템이 지원하는 기능이 많아질수록 '언장이 될' 확률이 높아질 수 있다. 특히 유저의 연령대가 높아질수록 이런 현상이 심화될 수 있는데, 이런 '언장 효과'를 지원하지 못한다면 사용성에 치명적인 영향을 줄 수 있을 것이다.

요즘 영화를 보러 가면 SKT NUGU 광고를 열심히 하는 것을 볼 수 있는데, 인상 깊었던 광고 하나가 있다. 친구 둘이서 영화를 찾으려 하는데 이름이 기억이 안 나서 '야... 그 있잖아... 80년대 미국 영화'라고 말하자 이를 듣고 있던 다른 친구가 NUGU 스피커에 '80년대 미국 액션 영화 중에 ~ 틀어줘.' (정확히 기억은 나지 않는다)라고 말해서 찾는 시나리오이다. 이 시나리오를 보면서 사용자의 맥락을 잘 짚었다고 생각했는데 (물론 언제 적 영화인지, 장르가 뭐였는지 헷갈린다면 소용이 없겠지만), 이런 상황은 아주 빈번하게 발생할 수 있다. 이를 해결하기 위한 여러 가지 방법은 NUGU가 지원하는 것처럼 쿼리(Query) 모듈을 견고하게 만들어놓거나, 유저 에러 상황 (전통적인 관점에서는 이를 유저 에러 상황이라고 부르긴 하지만 필자는 이 용어에도 회의적이다)을 캐치하고 타겟을 좁히기 위한 카테고리를 불러 주는 것이다.

유저: 그 영화 있잖아... 그 뭐였더라...

S: 장르가 액션인가요, 스릴러인가요? - (유저가 주로 보는 장르를 먼저 불러볼 수 있다)

유저: 액션이야... 그 톰 크루즈 나오는 영화인데...

S: 미션 임파서블, 잭 리쳐, 미이라.......

유저: 잭 리쳐, 그거!

S: 재생할까요?

유저: 응, 불도 꺼줘.

이런 시나리오가 가능하다. 문제는 이렇게 긴 다이얼로그 트래킹이 아직은 어렵다는 것이며, 유저의 에러를 능동적으로 캐치하는 것도 힘들다. 그리고 망설일 때의 유저 인풋은 훨씬 텀이 길어질 수밖에 없기 때문에, 어느 정도를 허용해야 하는가의 문제가 있을 수도 있다. 핵심은 이러한 회상 (recall)과 관련된 패인 포인트는 끊임없이 존재할 것이며, 실버 유저를 위한 시스템을 만들 때에는 더욱 풀기 어려운 문제가 된다는 점이다.

2. '자연스럽다'는 것은 최대한 사람과 비슷하다는 것을 말하며, 이를 지향하는 디자인을 해야 한다.

Natural Language Processing이라는 용어는 지극히 컴퓨터과학적인(?) 용어이다. 기존의 컴퓨터 언어들이 아닌 인간의 문법을 가진 언어를 이해하고 이를 다시 인간의 언어로 내뱉는 일련의 기술을 말하는 것인데 (물론 인풋 모듈에 더 가깝다), 사실상 아웃풋 모듈에서도 이를 지향해야 맞는 것인지에 관해서는 의문을 제기할 수 있다. 본질은 기계인데 사람의 목소리로 사람의 말을 한다는 것 자체가 사실은 어색한 일이다. 만약 독자가 '아닌데? 정말 자연스럽고 거의 모든 회사들이 이렇게 만들고 있는데?'라고 반론하고 싶다면, 애초에 이런 질문을 해본 적 있는지 되묻고 싶다 (그리고 건설적인 토론을 해보고 싶다). 'Her'에 등장하는 사만다가 어색하지 않아 보이는 이유는 모든 말을 알아들을 수 있으며, 심지어 보통의 사람보다 더 똑똑하고 매력적으로 말할 수 있기 때문이다. 하지만 지금의 조금 부족한 '사만다'들은 그렇지 못하다. 대부분 어떻게 말해야 하는지를 가이드로 제공하고 있으며, 음성 합성이 때로 어색하게 들릴 때도 있다. 하지만 현 상태는 기술의 문제이며, 결국 사만다를 만들 것이며, 그렇기 때문에 지금의 VUI들이 'Natural' 하다 라고 말하는 것이라면 사실은 지금 상태가 그렇지 않다는 것을 인정하는 셈이다! 유저가 인간 본연의 뛰어난 학습 능력으로 어떤 디바이스든 잘 배우고 적응한다고 해서 그것이 '자연스럽다'는 것은 아니라는 것이다. 자연어 인터랙션을 찬양하기 이전에, 지금의 상태가 전혀 자연스럽지 않은 것을 인정하는 순간, 사용성과 혁신성에 한 발짝 더 다가설 수 있다고 생각한다.

즉, '정말 사람같이 말하지 못하는데 굳이 사람을 표방할 필요가 있는가?' 하는 질문을 하고 싶다. 이미 사람임을 표방하는 (젊은 여성의 목소리를 한 예의 바른) 음성 비서들은 뻔하고 너무도 당연해졌기 때문에, 오히려 자신이 기계임을 알고 기계스러운, 다양한 청각 인터페이스 요소 (삐- 소리 등의)를 자유롭게 사용하는 것이 더 재미있지 않을까? 가장 뻔한 예시는 R2D2이다. R2D2는 굉장히 똑똑하지만 인간의 언어를 사용하지 않는다. 영화 속 예시들을 좋아하진 않지만, 한 가지 배울 점은 아이덴티티가 뚜렷하다는 것이다! (그것도 아주 성공적으로 두터운 팬층을 만들어 냈다!) 그리고 매번 불필요한 말 (예를 들면 TV를 켜면서 '티비를 켭니다'라고 매번 말하는 것과 같은)을 하지도 않는다. 이렇듯 유저의 말은 잘 알아듣지만, 표현은 사람의 언어로 하지 않는 클래식한 R2D2의 모습에 대해 한번쯤 다시 생각해볼 필요도 있다. 지금 VUI 디자이너가 해야 할 질문은 오히려, '어떻게 identity가 뚜렷한 보이스 어시스턴트를 만들 수 있을까' 하는 것인지도 모른다 (개인적으로는 이렇게 생각하지만, 기술적으로 해결해야 할 문제들에 급급해지는 것이 현실이다).

3. 음성인식 스피커 제품들이 그렇듯,

GUI는 그다지 필요 없다.

하지만 모든 설정은 앱에서 하라고 한다(!) 그렇기 때문에 필자는 일각에서 음성인식 스피커들의 등장을 보고 'zero UI'라고 부르는 것을 굉장히 회의적으로 본다. 이는 VUI가 구조적으로 정교해진다고 근본적으로 해결될 수 있는 문제가 아니다. 인간의 뇌는 유입되는 정보의 70% 이상을 시각에 의존하는데, 이 채널을 버리고 복잡한 과업을 해결해 보겠다는 것은 유저에게 답답함을 선사하겠다는 말과 같다. 물론 특수한 사용자 집단에게는 청각만 사용하는 것이 당연하고, 그들을 위한 시스템을 만들 때는 GUI 없이 만들어야 하지만, GUI를 활용할 수 있는 유저들에게 시각적 보조수단을 굳이 없애고 소통하겠다는 것은 VUI의 본질을 망각하는 것이다. VUI는 근본적으로 멀티모달(multi-modal; 다양한 감각 기관을 사용하는)이기 때문이다. 시각 보조 수단이 모바일 환경이든, 스마트 티비이든, 홀로그램이든 무엇이든지 간에 시각을 활용하지 않고 티비를 켜거나 음악을 바꾸는 그 이상의 과업을 VUI만으로 지원하는 것은 인지적인 불편함을 초래한다.

누군가가 'VUI로 모든 게 전환되면 그래픽 디자이너들은 뭐 먹고살아요?'라는 질문을 한 적이 있다. 당시에는 '어떻게든 살 길을 찾을 겁니다'라고 말했으나 집에 와서 깨달은 바는 걱정 자체가 무의미하다는 것이다. 그래픽은 인간의 뇌가 어떤 방식으로든 빠르게 진화하지 않는 이상 (시각보다 더 효율적인 감각이 생긴다는 전제인 것이다) 필요할 수밖에 없다. 정보 처리에 있어서 시각은 그 무엇보다 효율적인 채널이며, 그렇기 때문에 VUI 디자인에 있어서도 GUI는 빼놓을 수 없는 요소이다. 다만 질문이 '무엇을 GUI로 처리할 것인가' 가 되는 것일 뿐이다. 또한 대부분 말로 하기 복잡한 과업이거나, 사용자의 승인이나 인증이 필요한 과업의 경우 GUI로 (모바일로) 처리하도록 하는데, 이런 채널의 움직임을 시나리오를 구성할 때 어떻게 자연스럽게 하느냐도 고민의 일부가 되었다 (그래서 GUI만 디자인하는 것보다 고민이 많아졌다고도 볼 수 있다).

지금까지 뻔한 전제들을 살펴보았다. '뻔함'에 공감했다면 이제 전제를 깨고 새로운 시도를 할 때가 되었다는 의미이다(!). 뻔함을 깨는 용기는 누구에게나 필요하고, 생각한 대로 되지 않는 것이 디자인이지만, 그럼에도 질문하기를 멈추지는 말자. 지금의 모바일 + 음성인식 스피커의 형태에서 벗어나 조금 더 재미있는 조합의 어시스턴트들이 많이 나오길 기대해 본다...!

keyword

Orchid

TMI (Too Much Interests)

구독자 88

매거진의 이전글운전의 즐거움, 그리고 자율주행