brunch

You can make anything
by writing

C.S.Lewis

by 오의택 Apr 02. 2024

보이스봇 vs 챗봇

우리 서비스에 적합한 대화형 AI 에이전트는?

AI 기술의 급격한 발전으로 기계가 점점 더 인간처럼 생각하고 말할 수 있게 되었습니다. 이에 따라 인간과 기계 사이의 상호작용도 인간의 소통 방식에 가깝도록 진화하고 있는데요. 마치 친구와 통화를 하거나 메시지를 보내는 것처럼, 사용자는 AI와 음성이나 문자로 대화하며 서비스를 사용하게 되었습니다.

인간의 언어를 기반으로 한 대화형 UX에는 사용자와 상호작용하기 위한 AI 에이전트가 존재하는데요. 아마존 알렉사나 애플의 시리와 같은 음성 인식 기반의 보이스봇(Voicebot) 뿐만 아니라, ChatGPT와 같은 문자 채팅 기반의 챗봇(Chatbot)은 다양한 제품과 서비스에 활용되어 있습니다. 이러한 대화형 AI 에이전트는 이제는 우리 일상에서 흔히 볼 수 있는 익숙한 존재가 되었습니다.

그렇다면 우리 서비스에는 어떤 대화형 AI 에이전트를 활용하는 것이 효과적일까요? 좋은 경험을 제공하기 위해서는 사용자의 인지적 특성과 한계 뿐만 아니라, 다양한 사용 맥락에서 어떤 대화형 AI 에이전트가 적합한지를 함께 검토하는 것이 필요합니다.

이번 글에서는 UX 관점에서 보이스봇과 챗봇의 특성을 분석해 보고, 서비스 목적에 따라 어떤 대화형 AI 에이전트를 활용하는 것이 효과적인지에 대해 살펴보도록 하겠습니다.

인터페이스 진화와 대화형 AI 에이전트

IT 기술의 발전에 따라 사용자와 상호작용하는 인터페이스도 함께 진화하는데요. 아래 그림과 같이 키보드 입력 기반의 CLI방식에서 마우스나 터치 스크린 입력 기반의 GUI방식으로, 최근에는 사용자의 행동이나 말 등을 인식하는 NUI방식으로 점차 진화하고 있습니다. 대표적인 NUI 방식인 대화형 UX는 인간 고유의 의사소통 방식인 언어와 음성을 통해 인간과 기계가 자연스럽게 대화하는 상호작용인데요. 이는 자연어 처리나 의미 추론과 같은 AI 에 의한 기술적 뒷받침이 있기 때문입니다.

인터페이스의 진화 방향

대화형 UX에서는 사용자와 대화형 AI 에이전트 간의 상호작용이 이루어집니다. 대화형 AI 에이전트는 사용자의 언어를 인식하고 그 의미를 이해해 상황에 맞는 대화를 이어갈 수 있는데요. 이에 따라 사용자는 별도의 학습 없이도 쉽고 직관적으로 서비스를 사용할 수 있습니다. 뿐만 아니라 복잡한 정보 구조를 모두 탐색하지 않아도, 대화형 AI 에이전트를 통해 원하는 정보에 바로 접근할 수 있어 효율적인 서비스 사용이 가능하게 해 줍니다. 이러한 강점을 기반으로 대화형 AI 에이전트는 개인 비서 서비스에서부터 이커머스, 금융, 의료와 같이 다양한 산업의 서비스들에 폭 넓게 활용되고 있습니다.

보이스봇 vs. 챗봇

대화형 AI 에이전트는 상호작용하는 방식에 따라 보이스봇과 챗봇으로 구분될 수 있는데요. 보이스봇(Voicebot)은 음성 인식을 통해 대화가 이루어지는 반면, 챗봇(Chatbot)은 문자 입력을 통해 사용자와 채팅이 이루어진다는 차이가 있습니다. 대표적으로 보이스봇인 아마존 에코의 알렉사와 챗봇 인터페이스로 구성된 ChatGPT를 들 수 있습니다.

아마존 에코와 ChatGPT

그렇다면 보이스봇과 챗봇은 사용성 관점에서는 어떤 차이를 보일까요? 이를 위해서는 대화형 AI 에이전트와의 상호작용 과정에서의 사용자의 인지적 관점에서 효과적인 타입을 살펴보는 것이 필요합니다.

1. 상호작용 과정에서의 사용성 비교

대화형 AI 에이전트와의 상호작용은 사용자가 입력 장치(input device)를 통해 정보를 입력하면, 대화형 AI 에이전트가 출력 장치(output device)를 통해 정보를 피드백해 주는 것으로 이루어집니다. 이러한 상호작용을 위한 입력 및 출력 장치는 대화형 AI 에이전트 타입에 따라 다른데요. 보이스봇에서는 사용자가 명령어를 말하면, 보이스봇의 스피커를 통해 청각적 정보가 출력됩니다. 반면에 챗봇은 사용자가 키보드로 문자를 입력하면, 챗봇의 화면을 통해 시각적 정보가 표시됩니다. 보이스봇과 챗봇의 입력 및 출력 장치에 따른 사용자 인지적 관점에서의 사용성 차이에 대해 좀 더 살펴보도록 하겠습니다.

1) 입력 장치(Input device)

보이스봇을 사용하려면 사용자는 음성으로 명령어를 입력합니다. 이러한 음성인식 방식은 사람들간의 의사소통하는 자연스러운 방식으로, 사용을 위해 별도의 학습이 요구되지 않는 직관적인 방식인데요. 뿐만 아니라 음성인식은 키보드 대비 약 3배 빠른 입력 속도로 효율적으로 서비스를 사용할 수 있게 합니다.

반면에 챗봇을 사용하려면 사용자는 키보드를 통해 문자를 입력합니다. 이러한 키보드 입력 방식은 능숙하게 사용하기 까지는 많은 시간의 학습이 소요되며, 음성인식 대비 타이핑하는데 시간이 더 소요됩니다.

2) 출력 장치(Output device)

보이스봇은 사용자의 요청에 청각적 정보로 피드백을 제공합니다. 이러한 청각적 정보는 한 번 제공된 이후에 다시 들을 수 없는 휘발성을 지니는데요. 이에 따라 메시지가 길거나 다시 확인이 필요할 경우 처음부터 다시 물어봐야 하기 때문에 불편할 수 있습니다. 반면에 청각적 정보는 집중하지 않아도 어느 방향에서든 들 수 있습니다. 보이스봇의 또 다른 특성은 청각적 피드백으로 사람의 음성을 사용한다는 것입니다. 이러한 음성의 활용은 문자 채팅 대비 더욱 실제 사람과의 대화처럼 느껴질 수 있는데요. 뿐만 아니라 음성은 톤이나 음색, 억양 등을 통해 감정과 같은 비언어적 단서들을 전달 할 수 있습니다.

반면에 챗봇은 사용자의 요청에 화면을 통해 시각적 정보를 제공합니다. 이러한 시각적 정보는 시간의 제약 없이 복잡하고 많은 양의 정보를 전달하는 데에 효과적입니다. 그렇지만시각적 정보는 시야의 따른 한계를 지니기 때문에 청각적 정보와 달리 집중해야만 정보를 인식할 수 있습니다.

2. 사용 맥락에 따른 사용성 비교

대화형 UX는 모바일, 노트북이나 PC, 가전 제품, 자동차와 같은 다양한 디바이스와 사용 환경에서 사용됩니다. 특히 모바일에 적용된 서비스의 경우에는 집이나 자동차와 같은 사적 공간 뿐만 아니라, 회사나 학교, 카페, 대중 교통과 같은 공공 장소에서도 사용됩니다. 그러므로 서비스가 사용되는 디바이스 및 환경과 같은 사용 맥락에 따라 적합한 대화형 AI 에이전트가 무엇인지 검토하는 것은 중요합니다.

보이스봇은 눈과 손이 다른 일을 하면서도 함께 서비스를 사용하는 멀티태스킹이 가능한데요. 그림과 같이 자동차에서 운전을 하면서 보이스봇으로 AVN 기능을 제어하거나, 집에서 가사를 하면서 보이스봇으로 가전제품을 조작할 수도 있습니다. 이러한 보이스봇의 핸즈프리 및 멀티태스킹 제공은 사용자에게 편의성과 함께 생산성을 향상시켜줄 수 있습니다. 반면에 주변 환경으로 인해 소음이 발생한다면 음성인식의 정확도가 떨어질 수 있고, 사람이 많은 공공장소에서는 사용자가 말한 내용이 주변에 들릴 수 있어 프라이버시가 보장되지 않는다는 단점도 있습니다.

멀티태스킹이 필요한 운전 및 가사 상황에서의 보이스봇 사용 (출처. 한국경제, 삼성전자)

반면에 챗봇은 화면 내에서 문자 채팅이 이루어지기 때문에 사람이 많은 장소에서도 프라이버시가 보장될 뿐만 아니라, 소음이 있어도 사용에 지장을 초래하지 않습니다. 즉 보이스봇 대비 챗봇은 사용 환경에 따라 사용의 제약이 발생하지 않는다는 강점을 지닙니다. 반면에 손과 눈이 화면에 집중하여야 채팅을 할 수 있기 때문에 다른 일을 함께하는 멀티태스킹이 어렵다는 한계를 지닙니다.

우리 서비스에 적합한 대화형 AI 에이전트는?

그렇다면 우리 서비스에는 어떤 대화형 AI 에이전트를 활용하는 것이 효과적일까요? 사용자는 사용 목적과 니즈에 따라 사용할 서비스를 결정하는데요. 이러한 사용자의 니즈를 효과적으로 해결해 줄 수 있는 강점을 지닌 대화형 AI 에이전트를 서비스에 활용하는 것이 필요합니다.

보이스봇의 강점은 단순한 과업을 빠르게 수행할 수 있다는 건데요. 또한 사적 공간에서 다른 일을 하면서도 보이스봇을 통해 서비스를 함께 사용할 수 있습니다. 예를 들면 사용자는 집에서 가사를 하면서도 보이스봇으로 음악을 실행하거나 가전의 기능을 실행하게 할 수 있습니다. 자동차에서도 운전을 하면서 보이스봇으로 네비게이션의 목적지를 설정하거나 커피를 주문해 달라고 할 수 있는데요. 이러한 효율성과 멀티태스킹이 요구되는 서비스에 보이스봇을 활용하면 사용자의 니즈를 효과적으로 충족시켜 줄 수 있습니다.

뿐만 아니라 보이스봇과의 음성을 통한 대화는 마치 실제 사람과의 대화처럼 느껴지는 사회 정서적 효과를 제공하는데요. 만약 보이스봇이 따뜻한 목소리로 감정적 표현이나 공감적 반응을 한다면 외로운 사용자와 교감을 이룰 수도 있습니다. 그러므로 사용자는 특별한 목적 없이도 보이스봇과의 자연스러운 대화를 나누길 원할 수 있는데요. 아래와 같이 스몰 토크나 일상의 일들에 대해 보이스봇과 이야기를 나누는 것은 사용자의 여가나 심리적 케어와 같은 서비스 영역에서 긍정적으로 활용될 수 있습니다.

시니어 돌봄 AI 스피커 서비스 (출처. SKT NUGU opal)

반면 챗봇의 강점은 사용 환경에 구애받지 않으면서 많은 양의 정보를 정확하게 전달할 수 있다는 건데요. 예를 들면 아래 그림과 같이 금융 서비스와 같이 정확함이 요구되는 정보에 대해 질의 응답을 한다거나, ChatGPT와 같이 폭 넓은 질문에 자세한 답변이 필요한 교육이나 업무를 위한 용도로 효과적으로 활용될 수 있습니다. 또한 커머스 서비스에서 제품을 구매하기 전에 챗봇과의 채팅을 통해 제품 이미지를 확인할 수 있을 뿐만 아니라, 상세 보기 버튼이나 스와이프와 같은 인터랙션을 통해 정보 탐색을 효과적으로 지원해 줄 수 있느데요. 이를 통해 합리적인 구매를 하고자 하는 사용자의 니즈를 충족시켜 줄 수 있습니다.

챗봇의 다양한 활용(출처. 신한은행 챗봇, ChatGPT, LG전자 챗봇)

서비스의 사용 목적 뿐만 아니라, 타겟 사용자가 누구인지를 고려하는 것도 필요한데요. 타겟 사용자의 IT 기술의 활용 능력을 검토하여 적합한 대화형 AI 에이전트를 검토해야 합니다. 아이나 고령자는 키보드를 통해 문자 입력이 능숙하지 않은데요. 뿐만 아니라 시각 장애인은 키보드 사용이 어렵습니다. 그러므로 이런 키보드 사용이 어려운 사용자들에게는 접근성이 높은 보이스봇을 서비스에 적용하는 것이 필요합니다. 반면에 PC와 모바일로 메시지 사용이 익숙한 젋은 세대는 키보드 사용의 숙련도가 높기 때문에 챗봇으로 충분히 서비스를 효율적으로 사용할 수 있습니다.

뿐만 아니라 타겟 사용자의 신기술 수용성 의사에 대해서도 검토하는 것이 필요한데요. 음성으로 AI와의 대화하는 것은 기성 세대에게는 익숙하지 않은 새로운 사용방식인데요. 이로 인해 음성인식을 사용하는 것을 꺼려할 수도 있습니다. 반면에 알파 세대는 AI로부터 음성으로 말을 배운 세대라고 하는데요. 이들에게는 친구들과 대화하는 것만큼 AI와 대화하는 것은 어색하지 않고 자연스럽기 때문에 쉽게 수용할 수 있습니다.

그렇다면 우리 서비스에는 보이스봇과 챗봇 중에 하나를 선택해야만 할까요? 만약 개발 비용과 리소스가 허용된다면, 둘의 강점을 하이브리드하게 활용하는 멀티모달(Multimodal) AI 에이전트를 고려할 수 있는데요. 아래 그림과 같이 대표적인 보이스봇인 아마존 에코 쇼에 디스플레이가 함께 제공되어, 주방에서 요리를 하면서 디스플레이로 레시피를 함께 확인할 수도 있습니다. 뿐만 아니라 대표적인 챗봇인 ChatGPT에도 음성인식 기능이 업데이트되어, 사용자는 더욱 빠르고 손쉽게 질문을 할 수도 있게 됩니다. 이를 통해 다양한 사용 환경에서 사용할 수 있는 확장성을 가지고 올 수 있고, 사용자의 선호도에 따라 효과적인 대화형 AI 에이전트를 사용할 수 있는 선택권을 제공할 수 있습니다.