음성 에이전트, 대화형 인터페이스 디자인 팁.
#음성2.
음성을 다양한 서비스에서 활용하는 것이 기존 세대에게는 어색하고 익숙하지 않은 인터페이스이긴 하지만, 어릴 때 부터 스마트폰과 같은 IT기기를 접해온 어린 세대들에게는 너무나도 자연스러운 인터페이스이기도 하다.
아직 글씨를 모르는 아이들도 유튜브에서 검색 시 음성 아이콘을 찾아서 '뽀로로'라는 단어를 입력하고 있고, 드라마에서는 PPL로 삼성 빅스비와 같은 음성 에이전트와 함께 이야기를 하고 있다.
그리고 카카오미니, 네이버의 클로바, 구글홈 등 다양한 AI스피커들을 집에서 음악을 듣거나 집을 나서기 전 날씨를 확인하는 용도로 사용하고 있다.
이렇게 일상생활에 너무나도 가깝게 들어와버린 음성 인터페이스는 어떻게 어떻게 디자인을 해야할까?
음성관련 프로젝트들을 진행해보면서 느낀 고려할만한 사항 3가지를 정리해보았다.
UX디자인에 대해서 관심있게 지켜보신 분들이라면 퍼소나(Persona)의 정의가 서비스의 목표를 명확하게 설정해줄 수 있다는 점을 이미 알고있을 것이다.
음성 디자인을 할 때 역시 퍼소나(Persona)를 설정하는 것은 중요한데, 이 때의 퍼소나는 고객에 대한 정의가 아니라 인공지능 에이전트에 대한 인격을 이야기 한다.
어떤 인격을 설정하느냐에 따라 대화 시 고객은 다르게 받아들이고 또 다르게 대응하게 된다.
네이버의 첫번째 AI스피커였던 웨이브(Wave)의 경우 음성 에이전트의 성격을 부여하기 위해 캐릭터를 설정하는 과정을 거쳤으며, 카카오미니의 경우 AI 비서보다는 친근한 친구와 같은 느낌을 주기 위해 '~습니다'보다는 '~해요'라고 대답을 하기도 한다.
인격을 설정하고 디자인 하기 위해서는 아래와 같은 요소들은 좀 더 고려해보자.
브랜드의 특성을 잘 나타낼 수 있는 목소리 혹은 성향을 부여해보자.
캐릭터 설정을 직접 해보는 것도 좋은 방법이다.
챗봇이라면 꼭 사람이 아닌 상의 캐릭터를 설정해보는 것도 좋다.
캐릭터 설정을 위해서는 작가들과 함께 시각적으로 성향이나 그 모습을 디자인해보아도 도움이 된다.
해당 캐릭터의 성별, 나이대, 성격 등에 따라 동일한 의미를 전달하더라도 사용자들은 다양한 반응을 볼 수 있다
참고로 보통 AI스피커의 성별은 여성이 기본 설정값으로 세팅되어 있는 경우들이 많다.
(이유는 남성보다 여성의 목소리가 보다 따뜻하고 신뢰감을 주기 때문이라고 하지만 성별에 대한 선입관/편향이슈 역시 남아있다.)
의외로 사용자들은 인공지능과 대화하다 보면 어느 순간 사람과 대화하고 있다고 느낀다.
실제로 사람들은 인공지능에게 본인의 속마음을 털어놓기도 하고, 투정과 불만등을 이야기하곤 한다.
어느 순간 사람이 아님을 느낄만한 답변이 올 때 느끼게 된다.
'아.. 내가 지금 얘랑 무슨 이야기를 하고 있는거지..'
음성을 디자인 할 때는 이렇듯 사람이 인공지능에게 명령어를 전달하거나 혹은 대화를 시도하는 경우를 디자인해야 하기 때문에 고려할 사항들은 명확하다.
사람들은 '오늘 비와?'라고 질문하지, '오늘, 비, 예보'과 같이 단어로 이야기 하지 않는다.
따라서 시스템은 사용자들의 자연어를 이해할 수 있도록 디자인 되어야 한다.
화면을 볼 때 사람들은 정보를 빠르게 스캔하여 정보를 살펴보지만, 음성의 경우 그렇지 않다.
음성을 디자인 할 때는 사용자가 질문한 의도를 파악하고 답변이 되는 핵심 키워드를 명확히 전달할 수 있어야 한다. (예를 들어 '연예인 OOO나이가 궁금해?'라고 질문한다면, '연예인 OOO은 0000년 생으로 OO그룹에서 활동중인 아이돌입니다. 나이는 15세입니다.' 라고 대답하기 보단 '연예인 OOO의 나이는 00세 입니다.' 그리고 그 이후 부연설명이 필요하다면 하는 것이 좋다.
물론 음성으로 답변할 땐 TMI가 아닌 핵심적인 답변위주로 하는 것이 더 명료하게 들릴 것이다.
결국 기획/디자이너의 역할은 얼마나 적절한 수준의 답변을 전달해야 하는지를 정의하는 것이다.
하지만 AI스피커를 사용하본 사람들은 느끼지만 아직 사람과 대화하듯 자연스러운 대화는 시간이 더 필요한 것 같다. 물론 기술이 발전하고 각종 컨퍼런스에 인공지능과의 자연스러운 식당 예약이나 상담 사례들을 보여주고는 있지만 아직 체감하기는 조금은 더 시간이 필요할 듯. :)
음성에 대한 디자인을 할 때는 음성을 활용하는 환경과 맥락에 대한 고려가 제일 중요하다고 할 수 있다.
지하철이나 사무실, 혹은 학교와 같이 여러 사람들과 함께 사용하는 공간에서 음성으로 '오늘 날씨 어때?'를 묻고 스피커폰 혹은 스피커로 불특정 다수와 검색 결과를 함께 듣고 싶지는 않을 것이다.
이러한 맥락은 유용한 기능들에 대해 인터랙션을 유도하기도 하고 혹은 중단하게 할 수 있는 중요한 요소이다.
맥락에 대한 고려를 하기 위해서 아래와 같은 내용이 조금은 도움이 되지 않을까 싶다.
외부 환경에서 음성으로 명령을 하거나 음성으로 관련 내용을 듣는 것은 생각보다 어렵다.
반면 집과 같은 나, 혹은 가족의 공간에서는 보다 수월하게 질문과 답변을 할 수 있을 것이다.
맥락을 고려한다는 것은 어떤 환경인지에 따라 질문의 유형이 달라지고, 또 명령어를 이해하는 정도가 달라질 수 있기 때문에 외부/내부 어떤 장소인지를 고려하고 질문과 답변에 대한 대화를 디자인할 필요가 있다.
장소 외 시간대별 음성명령을 디자인해보자.
예를 들어 아침시간대의 추천음악과 저녁시간대의 추천음악이 다를 수 있으며, 아침에 대답하는 목소리와 저녁시간대 대답하는 목소리가 다르다면 이 또한 사용자들에게는 재미난 경험일 것 같다.
참고로 아마존의 Alex는 속삭이듯 이야기하면 답변 역시 속삭이듯 답변을 해준다고 한다.
사람들이 음성으로 하기에 더 불편한 상황 역시 존재한다.
예를 들어 비밀번호에 음성을 활용하는 경우, 단어/숫자/문자 등의 조합을 사용하게 될 텐데, 이 경우 시각적인 인터페이스가 더 편리할 것이다. 음성으로 플레이리스트를 만드는 경우 역시 시각적인 인터페이스가 더 편리할 것이다.
구체적인 서비스를 디자인하기 전에 음성으로 적절한 기능들에 대해서 고민하고 결정해야 한다.
음성 디자인을 할 때 실패할 수 있는 주요 요인 중 하나는 잘못된 맥락을 디자인 하는 것이다.
예를 들어 엘레베이터를 디자인할 때 음성으로 디자인하는 것이 편리할까?
아마도 그렇지 않을 것이다.
많은 IT업체들이 Voice First, AI First를 외치고 있다.
음성인터페이스는 시각적 인터페이스 보다 원론적이고 또 원초적인 인터랙션 방식이며 이를 통해 보다 많은 사람들을 더 편리하게 해줄 수 있을 것이라고 생각하기 때문일 것이다.
음성 디자이너의 역할은 인격, 대화, 맥락이라는 3가지 고려사항을 통해 사용자에게 보다 편리하고 자연스러운 음성인터페이스를 디자인해갈 수 있지 않을까.
하는 생각을 하며 글을 정리해보고자 한다.
p.s)
보다 구체적으로 시리 단축어 디자인에 대한 글이 궁금하다면. 여기에 해당 내용을 정리해보았다.
Reference
https://www.bloter.net/archives/300406
https://www.grunge.com/136184/this-is-why-voice-assistants-are-all-female/
https://biz.chosun.com/site/data/html_dir/2019/11/29/2019112900063.html
+ 음성 인터페이스 디자인 코스가 궁금하시다면. (Alexa 음성 디자인 관련)
https://careerfoundry.com/en/courses/voice-user-interface-design-with-amazon-alexa/
+
음성 디자인에 대한 다른 글을 보고 싶다면.
https://brunch.co.kr/magazine/voicedesign
일상에서 활용되고 있는 AI의 다양한 사례들이 궁금하다면.
https://brunch.co.kr/magazine/dailyai
twitter: @pentaxzs
email: pentaxzs@daum.net
brunch: https://brunch.co.kr/@monglec