어쩌면 당연한, 때론 생소할 수 있는
챗봇(chatbot), VUI(Voice User Interface),
대화형 에이전트 (Embodied Conversational Agent)...
트렌드 뉴스를 챙겨 보는 사람이라면 아마도, 2017의 화두는 '대화형 인터페이스 전쟁'이라고 하는 말들을 많이 들어 봤을 것이다. 채팅방 UI를 제공하는 챗봇, 말하면 알아듣는 VUI, 사람 모양의 캐릭터가 나오는 대화형 에이전트까지. 아마존, 구글, 애플, 페이스북, SKT, 네이버 등 여러 국내외 대기업들은 이런 대화형 인터페이스 개발에 박차를 가하고 있다. 챗봇의 경우 개발자들이 자유로이 챗봇 서비스를 만들 수 있도록 해주는 플랫폼도 나와 있으며, 일상 속에서 한국의 수많은 카카오톡 유저들은 플러스친구들이 보내는 카톡을 심심찮게 받아보고 있을 것이다. 이런 변화들은 우리가 GUI로 수행하던 많은 일들을 대체할 수 있게 된다. 비행기표를 예약하려고 항공사 사이트를 전전하던 그 복잡한 일을 아주 단순하게, 마치 개인 비서에게 부탁하듯 처리할 수 있는 것이다 (아래 사진 참조, Facebook M).
대화형 인터페이스는 자연어 처리 기술 (NLP; Natural Language Processing)의 발전과 더불어 다양한 도메인에서 활용하고자 하고 있다. 시각 중심의 GUI와 매우 상이한 양상을 보이는 대화형 인터페이스에 대해 고민할 때 자연스럽게 깔리는 기본 전제에 대해서 고민해보자 (전제 혹은 태생적 특징이라고 볼 수 있겠다).
CI(대화형 인터페이스)의 초기부터 고려되어 온 규칙 베이스(rule-based)의 모델은 GUI의 정보구조와 매우 흡사하다. 마치 GUI의 버튼을 그대로 말하면 되는 듯 한 구조를 취하고 있다. 정해진 명령어를 정확히 발음하면 원하는 기능을 실행할 수 있는 것이다. 사용자가 원래는 GUI로 처리하던 일을 CI로 하려니, 그 구조와 인터랙션 방식이 상이하여 곤욕을 치르게 되는 경우가 생기게 된다. 분명 사용자가 실행하고자 하는 기능이 있는데, 이를 어떻게 말해야 할지를 모르게 되는 것이다. 심지어는 새로 산 기기가 무엇을 할 수 있고, 없는지조차 모르게 되는 불상사가 발생한다.
어려운 말이 등장했다. 회상(Recall)과 재인(Recognition)은 무슨 말일까. 쉽게 말해 주관식과 객관식 문제를 풀 때의 차이와 같다고 생각하면 된다. 회상을 하는 것은 주관식 문제의 답안을 생각해 내는 것이고, 재인을 하는 것은 객관식 문항 중 하나를 고르는 것이라고 이해해 보자. 시험에서 주관식 문제의 답안이 바로 떠오르지 않는다면 한참을 고민해도 결국 떠오르지 않았단 경험이 누구나 있을 것이다. 머릿속에 맴도는 단어들을 옆에 적어두지만 결국 무엇이 맞는지 정확하게 모른 채로 시험이 끝나곤 한다. 하지만 객관식은 어떤가. 정확한 답을 모르더라도 5개 중에서 하나를 고르면 된다. 그중에서 특히 익숙하게 다가오는 답을 찍으면 운 좋게도 점수를 얻을 수 있다. 기본적으로 '회상'의 과정이 '재인'의 과정보다 훨씬 많은 인지적 노력이 든다. 그렇기에 주관식 문제로 나올 수 있다는 시험 범위는 심혈을 기울여 외워야 하는 것이다.
GUI를 사용해 온 유저는 처음 접하는 사이트나 시스템의 버튼을 하나하나 눌러보고, 시스템에 대해 이해한다. 여러 가지 버튼 중에서 원하는 기능이 있을 법 한 버튼을 누르면, 꽤나 쉽게 하고자 하는 일을 할 수가 있다. 하지만 CI는 그렇지 않다. 시각적 단서가 주어지지 않는 CI라면 더욱 어려워진다. 여러 개 중에 고르기만 하면 되는 GUI와는 달리 원하는 특정 기능을 떠올려야 하는 과정 자체가 유저에게는 큰 벽이 된다. 이 벽을 더욱 쉽게 넘게 하기 위해 디자이너들은 옵션의 단서를 제공하기도 하는데, 현시점에서 대부분의 챗봇 인터페이스에 적용되어 있다.
위는 구글 '알로'를 사용하며 대화를 캡처해 놓은 사진이다. 사진자료를 보면 어시스턴트가 구글에 대해 설명한 뒤에, 유저가 할 수 있는 말들의 옵션을 밑의 버튼들로 정렬해 놓은 것을 볼 수 있다. 구글 알로 서비스는 현 챗봇 서비스 중에서 꽤나 자유도가 높은 인터랙션을 할 수 있는 서비스이다. 그럼에도 유저가 말문이 막힐 때를 대비하여 객관식 답안들을 나열해서 보여주는 것을 확인할 수 있다. 이렇듯, 대화형 인터페이스에 GUI에서 당연한 메커니즘이었던 '고르는' 경험을 함께 주어야 처음 진입하는 유저가 편하게 적응할 수 있다. 직접 말로 소통하는 VUI(Voice User Interface)의 경우 문제는 더 복잡해질 수 있다. 특히, 자동차 도메인에서는 안전성의 문제와 함께 엮여 있기 때문에 VUI를 디자인한다는 것이 더 까다로워질 수 있다 (이에 대해서는 다음에 더 자세히 이야기하도록 하겠다).
재인과 회상의 차이에서 비롯되는 CI의 문제점은, 유저가 CI에 익숙해지면 해결이 가능할 수 있다. 유저가 자주 사용하는 시스템을 잘 알게 되고, 무엇이 가능한지 무엇이 불가능한지를 경험을 통해 숙지하게 된다면 말이다. 하지만 인터페이스에 완전하게 적응하기까지 걸리는 시간이 GUI보다 훨씬 길어질 수 있기 때문에, 그 기간을 편하게 디자인하기 위한 고민은 계속될 것이다 (쭈욱).