brunch

You can make anything
by writing

C.S.Lewis

by 김자유 Dec 14. 2018

시리(Siri)의 UX는 어떻게 디자인될까?

VUI(음성 인식) UX 디자인


목차

1.발견 - 제약,종속,사용법

1-1. 디바이스 종류 결정

1-2. 유스 케이스 메트릭스 생성

1-3. 인터렉션 모드 순위 지정

1-4. 기술 제한 나열

1-5. 비선형성

1-6. 음성 입력 UX

1-7. 트리거

1-8. 랜딩신호

1-9. 피드백 UX

1-10. 엔딩 신호

2.대화형 UX

3.의인화된 UX

4.End-to-End Motion UX

5.결론 및 자료 


Xfinity Remote by Juan C. Angustia

“오전 7시 15분에 알람 맞춰 줘.”

-“네 Selma Martin에게 전화하겠습니다.”

“아니, 오전 7시 15분에 알람 맞춰 줘.”

-“죄송합니다. 알아들을 수 없습니다.”

“하...” -> 수동 알람 설정 


우리의 음성은 다양하고, 복잡하고, 변수가 너무 많다. 음성 명령은 컴퓨터는커녕 사람들 사이에서도 어려운 프로세스다. 우리의 생각을 구성하는 방법, 문화적으로 의사소통하는 법, 속어를 사용하고 그 속 뜻을 추측하는 방법.. 이 모든 뉘앙스는 우리가 말을 해석하고 이해하는 것에 영향을 미친다.  


그래서, 디자이너와 엔지니어들이 어떻게 이 문제를 해결하면 될까? 사용자와 AI 사이에 어떻게 신뢰를 쌓을 수 있을까? 여기서 VUI가 작동한다.


Voice User Interfaces (VUI)는 사람과 장치 간에 음성 인터렉션을 가능하게 하는 주된 혹은 부가적인 시각, 청각, 촉각 인터페이스다. 간단히 말해서, VUI는 음성이 들리면 깜박이는 빛부터 자동차 내부의 엔터테인먼트 콘솔까지 어느 것이든 될 수 있다. VUI는 시각적인 인터페이스가 필요 없고 완전히 청각이나 촉각의 영역이라는 것을 명심해라. (예 : 진동)


방대한 양의 VUI가 있지만, 모두 사용성을 높이는 공통적인 UX 기초 세트를 공유한다. 우린 이런 기반 요소들을 통해 사용자로서 일상 VUI 인터렉션을 분석할 수 있고 디자이너로서는 더 나은 경험을 구축할 수 있다.


Dannniel


1. 발견 - 제약, 종속, 사용법


우리가 세상과 상호작용하는 방법은 우리의 기술적, 환경적, 사회학적 통제에 따라 형성된다.

정보를 처리할 수 있는 속도, 데이터를 실제 행동으로 바꿀 수 있는 정확도, 데이터를 전달하는 데 사용한 언어와 사투리, 해당 행동을 수행하는 청자. (우리 자신이든 다른 사람이든)


인터렉션 디자인을 살펴보기 전에, 먼저 음성 인터렉션을 구성하는 환경적 맥락을 파악해야 한다.   


1-1. 디바이스 종류 결정

디바이스 유형은 음성 인터렉션의 범위와 영역의 모드와 입력에 영향을 미친다.

TV — Android Voice UI



아이폰, 픽셀, 갤럭시

연결 - 무선 통신망, Wi-Fi, 페어링 된 기기

환경이 음성 상호작용성에 큰 영향을 미친다.

사용자는 음성 인터렉션을 사용하는 게 익숙하다.

시각, 청각, 촉각 피드백을 통한 인터렉션

인터렉션 방식은 모델에 따라 상당히 표준화되어 있다.
 

웨어러블 디바이스

시계, 피트니스 밴드, 스마트 신발 같은 특정 사용 상황에 맞는 특정하고 일반적으로 구성된 사용법(use case)

연결 - 무선 통신망, Wi-Fi, 페어링 된 기기

사용자들은 음성 인터렉션을 사용하는 것에 익숙하지만, 인터렉션은 여러 디바이스 간에 표준화되어 있지는 않다.  

일부 웨어러블은 시각, 청각, 촉각적 피드백으로 인터렉션 한다. 명확하지 않은 수동 유저 인터렉션이 더 많이 사용되기는 하지만. 일반적으로 사용자 인터렉션과 데이터 소비는 연결된 디바이스에 따라 달라진다.
 

고정 연결 디바이스

데스크톱 컴퓨터, 화면이 있는 가전제품, 온도 조절 장치, 스마트 홈 허브, 사운드 시스템, TV

연결 - 유선 네트워크, Wi-Fi, 페어링 된 기기

사용자는 같은 위치에서 습관적으로 이 기기들을 사용하는 것에 익숙하다.

비슷한 기기 종류 (데스크톱 컴퓨터 VS 구글 홈/아마존 알렉스 같은 연결 hub들 VS 스마트 온도 조절 장치) 간의 음성 인터렉션 준표준화 방법
 

모바일 컴퓨팅 디바이스(폰 제외)

노트북, 태블릿, 응답기, 자동차 인포테인먼트 시스템

연결 - 무선 네트워크, 유선 네트워크(일반적인 건 아님), Wi-Fi, 페어링 된 기기

기본 입력 모드는 보통 음성이 아니다.

환경적인 맥락은 음성 대화에 상당한 영향을 미친다.

일반적인 것은 기기 종류 사이에 표준화되지 않은 음성 인터렉션 방식을 사용한다.


1-2. 유스 케이스 매트릭스(Use Case Matrix) 생성


음성 인터렉션의 1,2,3차 유스 케이스는 무엇인가? 피트니스 tracker 같은 1차 유스 케이스를 가지고 있는가? 아니면 스마트 폰 같은 혼합 유스 케이스를 가지고 있는가?


사용자가 장치와 상호 작용하는 이유를 파악할 수 있는 유스 케이스 메트릭스를 만드는 것은 아주 중요하다. 주된 인터렉션 모드는 무엇인가? 부차적인 것은? 사용하기 좋은 인터렉션은 무엇이고, 필요한 것은 무엇인가?


인터렉션 모드마다 유스 케이스 메트릭스를 만들 수 있다. 음성 인터렉션을 적용할 때 메트릭스는 사용자가 지금 어떻게 사용하는지나 제품과 음성 상호작용을 사용할 때 필요한 것을 알려준다. (음성 지원  사용 위치 포함)



1-3. 인터렉션 모드 순위 지정


만약 당신이 본인의 사용법(사용량 혹은 양질의 raw data)을 알리기 위해 유저 리서치를 감행하고 있다면, 인터렉션 모드의 관점으로 당신의 분석을 순위별로 나열하여 정보의 질을 높이는 것이 중요하다.


만약 누군가가 당신에게 “아.. TV랑 대화해서 다른 채널을 바꾼다면 진짜 멋질 것 같아”라고 말하면, 당신은 더 깊이 파고들어야 한다. 그들이 실제로 사용할까? 제약조건을 이해하고 있을까? 그 기능을 사용하는 자기 성향을 진짜로 이해하고 있을까?
 

디자이너라면 자기 자신보다
사용자를 더 잘 이해해야 한다.
선택이 가능할 때 특정 인터렉션 모드를 사용할
가능성이 있는지에 대해 의문을 가져야 한다. 


예를 들어, TV에 음성 명령을 내려서 인터렉션 모드를 사용한다고 가정해보자. 이 경우 음성 인터렉션은 여러 인터렉션 중 하나라고 봐도 무방하다.


사용자는 리모컨, 페어링 된 스마트폰, 게임 컨트롤러 또는 연결된 IoT 기기 같은 여러 가지 인터렉션 장치를 사용할 수 있다. 그렇기 때문에 인터렉션 모드가 필수적인 건 아니다. 수많은 것들 중 하나일 뿐이다.


이때, 질문은 다음과 같다 : 사용자가 주된 인터렉션 수단으로 음성 인터렉션을 이용할 가능성은 얼마나 될까? 만약 1차로 사용하지 않는다면 2차적으로 이용할까? 3차로는? 당신의 전제와 ux가설이 앞으로 나아갈 수 있게 할 것이다. 


1-4. 기술 제한 나열


우리의 말을 행동으로 옮기는 건 매우 어려운 기술적인 도전이다. 무제한적으로 시간, 연결, 교육, 조율이 잘된 컴퓨터 엔진은 우리의 말을 즉시 인식하고 적절한 조치를 취할 수 있다.


불행히도, 우린 무제한적인 연결 (예를 들면, 어디에나 있는 기가바이트 인터넷)과 시간의 세계 속에서 살고 있다. 우리는 음성 엔진이 복잡한 프로세싱과 예측 모델을 필요로 하더라도, 음성 인터랙션이 가능한 한 즉각적으로, 기존의 것들을 대체하기를 바란다.


다음은 우리가 했던 말을 보여주기 위해 일어나는 일을 보여주는 몇 가지 샘플 Flow다.


AMI Voice Engine

보다시피 어휘, 액센트, 변하는 톤 등을 사용하기 위해 끊임없이 훈련되어야 하는 많은 모델들이 있다.

Automatic Speech Recognition

모든 음성 인식 플랫폼은 고유한 기술 제약이 있다. 음성 인터렉션 UX를 설계할 때 이런 제약 조건을 유념해야 한다.


다음 카테고리를 분석해보자.

연결 수준(Connectivity level ) - 장치가 항상 인터넷에 연결되는가?

처리 속도 (processing speed) - 사용자가 실시간으로 음성을 처리해야 하나?

처리 정확도 (processing accuracy) - 정확도와 속도 사이의 트레이드오프(trade off)는 무엇인가?

음성 모델 (Speech models) - 지금 쓰는 모델은 얼마나 잘 작동하는가? 전체 문장이나 짧은 단어를 정확하게 처리할 수 있는가?

대책 (Fallbacks) - 말을 인식 할 수 없는 경우 기술적인 대책은 무엇인가? 사용자가 다른 인터렉션 모드를 사용할 수 있는가?

정확하지 않을 때 결과 (Consequence of inaccuracy) - 잘못 처리했을 때 다시 말할 수 없나? 음성인식 엔진이 심각한 오류가 없을 만큼 발전되었나?

환경 테스트 (Environmental testing ) - 음성인식을 여러 가지 환경에서 테스트했는가? 예를 들어 자동차 인포테인먼트 시스템을 만 들 경 우 스마트 온도 조절 장치보다 훨씬 많은 오류가 있을 것이다.


1-5. 비선형성 (Non-Linearity)


또한 사용자가 비선형적으로 기기와 상호 작용할 수 있는 것도 고려해야 한다. 예를 들어 웹 사이트에서 항공권을 예약하려면 목적지 선택, 날짜 선택, 티켓 수 선택, 옵션 보기 같은 웹 사이트의 진행순서를 따라야 한다.


그러나 VUI에는 더 큰 과제가 있다. 사용자는 "우리는 비즈니스 클래스로 샌프란시스코 여행할래"라고 말할 수 있다. 이제 VUI는 기존 항공편 예약 API를 활용하기 위해 사용자로부터 모든 관련 정보를 추출해야 한다. 논리적 순서는 왜곡될 수 있으므로 사용자로부터 관련 정보 (음성 또는 시각적 부가정보)를 가져와야 한다.


1-6. 음성 입력 UX


제한, 종속, 사용 사례를 분석했으니 실제 음성 UX에 대해 더 자세히 알아보자. 먼저 기기가 우리말을 언제 들어야 하는지부터 알아보자.


몇몇 추가적인 맥락 설명에 있어서, 이 다이어그램은 기본적인 음성 UX 흐름을 보여준다.

좀 더 눈에 보이게 제시해보자면...



1-7. 트리거 (Triggers)


4가지 유형의 음성 입력 트리거가 있다.

음성 트리거 - 장치가 음성 처리를 시작하도록 하는 문장(“Ok Google”)을 사용자가 말한다.

촉각 트리거 - 물리적이나 디지털 버튼을 누르거나 컨트롤 전환 (예 : 마이크 아이콘)

모션 트리거 - 센서 앞에서 손 흔들기

디바이스 셀프 트리거 - 이벤트나 미리 결정된 설정이 장치를 트리거한다. (자동차 사고 또는 확인 요청 알림)


디자이너는 본인의 사용 습관과 관련이 있는 트리거를 파악하고, 관련 있는 것부터 관련 없는 순서로 순위를 매겨야 한다.

1-8. 랜딩 신호 (Leading Cue)


일반적으로 장치가 당신의 말을 듣기 위해 트리거 되면 청각, 시각, 또는 촉각 신호가 나타난다.

The Wirecutter


이러한 신호는 사용성 원칙을 따라야 한다.

즉시 응답 - 적절한 트리거 후 (해당 액션을 중단하는 것이 해가 되지만 않으면) 신호는 가능한 한 빨리 즉각적으로 나와야 한다.

간단한 설명과 일시적인 신호 - 습관적으로 사용하는 장치일 경우 즉각적인 신호가 있어야 한다. 예를 들어 “Ok Justin, 지금 뭘 할까?" 보다 두 번 확인음이 나오는 것이 더 효과적이다. 신호가 길어질수록 device prompt와 충돌할 가능성이 높아진다. 이 원칙은 시각적인 신호에도 적용된다. 스크린은 즉시 청취 상태로 바뀌어야 한다.

명확한 시작 - 사용자는 언제 음성이 녹음되는지를 정확히 알 수 있어야 한다.

일관성 - 신호는 항상 동일해야 한다. 음성이나 시각 피드백이 다르면 사용자는 혼란을 느낄 것이다.

구별 -  이 신호는 평상시에 기기에서 나오는 음성이나 시각적인 것과 구별되어야 한다. 다른 상황에서 사용되거나 반복면 안된다.

추가 신호 - 가능하다면 여러 인터렉티브 도구를 사용해서 신호를 나타내자. (예 : 신호음 2회, 빛 변경, 화면 대화)

초기 음성 안내 - 처음 사용해보는 사람들을 위해 음성 메시지를 쉽게 전달할 수 있는 초기 음성 안내를 표기하자.

1-9. 피드백 UX


성공적인 음성 인터페이스 UX를 위해 피드백은 중요하다. 사용자는 장치가 단어를 장치에서 수집하고 처리하고 있다는 것을 일관적이고 즉각적으로 확인할 수 있다. 또한 피드백을 통해 사용자는 정정하거나 확인할 수 있다.


Samborek
Cortana

아래는 효과적인 VUI 피드백을 위한 몇 가지 UX원칙이다.

실시간 반응형 비주얼 - 비주얼 피드백은 폰 같은 기본 음성 장치에서는 가장 일반적이다. 목소리의 높낮이, 음색, 강도, 지속 시간과  같은 다양한 사운드 관점에서 바로 인지되는 피드백을 줘서 실시간으로 색상과 패턴을 바꿀 수 있다.

오디오 재생 -  말의 뜻을 확인하기 위한 간단한 재생

실시간 텍스트 - 텍스트 피드백은 사용자가 말할 동안 실시간으로 나타난다.

출력 텍스트 - 사용자가 다 말한 후 바뀌고 수정된 텍스트 피드백을 말한다. 오디오를 확인하거나 동작하기 전에 첫 번째 수정 처리로 생각하면 된다.

화면을 사용하지 않는 시각적 신호 (빛. 조명 패턴) - 위에서 말한 반응형 비주얼은 디지털 화면에서만 국한되지 않는다. 간단한 LED조명이나 조명 패턴에서도 나타날 수 있다.


1-10. 엔딩 신호


이 신호는 디바이스가 유저의 목소리를 듣는 것을 멈추고, 명령을 수행함을 뜻한다. 많은 '랜딩 신호' 원리는 (즉시, 짧고, 분명하고, 한결같고, 뚜렷한) 엔딩 신호에도 적용된다. 하지만 다음과 같은 몇 가지 추가 원칙도 있다.

충분한 시간 - 사용자가 명령을 완료할 충분한 시간이 있는지 확인한다.

적응 시간 - 주어진 시간에 맞게 사용법과 예상 응답을 조정해야 한다. 예를 들어 사용자가 "예"혹은 "아니오"라고 물었다면, 한 음절 쉬고 엔딩 신호를 보내야 한다.

적절한 정지 - 마지막 음성을 듣고 적당한 시간이 지났는가? 계산하기는 힘들지만 인터렉션의 사용법에 따라 달라진다.


2. 대화형 UX


"알람 켜줘." 같은 간단한 명령은 긴 대화가 필요 없지만 더 복잡한 명령은 긴 대화가 필요하다. 전통적인 인간과 인간끼리의 인터렉션과 달리 인간과 AI 간의 인터렉션은 확인, 반복, 수정의 과정이 필요하다.


더 복잡한 명령이나 반복되는 대화는 일반적으로 정확도를 위해 여러 계층의 음성, 옵션 검증이 필요하다. 훨씬 더 복잡한 문제는, 사용자가 무엇을 요청할지나 어떻게 요청할지를 모른다는 것이다. 그래서 메시지를 읽고 사용자에게 추가 상황을 제공하는 것이 VUI의 업무이다.  

긍정, 동의 - AI가 말을 이해했을 때, 말한 것을 확인하는 긍정의 메시지로 답하는 게 좋다. 예를 들어 AI가 "알겠어요." 대신에 "알겠어요, 조명을 끌게요." 라던지, "조명을 정말 꺼도 될까요?”라고 말하는 것이다.  

수정 -  AI가 사용자의 의도가 파악하지 못했다면 수정 옵션으로 대답해야 한다. 이는 유저가 다른 옵션을 선택하거나, 대화 전체를 다시 시작할 수 있게 만들 수 있다.

감정 - 사용자의 명령을 처리할 수 없을 때 이해가 부족한 것에 사명감을 가져야 하고 바로 잡을 수 있는 행동을 취해야 한다. 감정은 더 인간적인 관계를 맺는데 중요하다.



3. 의인화된 UX


음성 인터렉션에 인간과 유사한 특징을 더하면 인간과 장치 사이에 관계가 맺어진다. 이 의인화는 빛의 패턴, 움직이는 모양, 추상적인 동그란 모양의 패턴, 컴퓨터 목소리와 소리 등 다양한 방법으로 나타날 수 있다.

Olly
의인화는 비인간적인 존재에 대한 인간의 특성, 감정, 의도의 속성이다.

이 관계는 사용자와 장치 사이에 보다 긴밀한 유대를 만들고, Google’s Assistant, Amazon’s Alexa, 와 Apple’s Siri 같은 비슷한 운영 플랫폼을 가진 제품 전체에 걸쳐서 적용될 수 있다.

성격 - 인터렉션에 추가적인 차원을 더하기 위해,  Brings an extra dimension to the interaction, allowing the virtual personality to relate and empathize with the user. It helps mitigate the negative impacts of incorrectly processed speech.

긍정 - 일반적인 긍정적인 의미는 인터렉션이 반복되고 긍정적인 톤이 드러난다.

자신감 & 신뢰 - 사용자가 긍정적인 결과를 얻고, 가치를 높일 것이라는 자신감이 있기 때문에 인터렉션과 복잡한 대화를 더하는 것이 좋다.


4. End-to-End Motion UX


음성 인터렉션은 유동적이고 동적이어야 한다. 우리는 사람들과 대화를 나눌 때 다양한 표정과 목소리 톤, 보디랭귀지, 움직이며 대화한다. 문제는 디지털화된 환경에서 이러한 유동적인 인터렉션을 포착하는 것이다.  


가능하다면, 전체 음성 인터렉션 경험은 보람이 느껴져야 한다. 물론 "조명 꺼줘." 같은 짧은 인터렉션은 관계가 꼭 필요하진 않겠지만 말이다. 하지만 디지털 조수와 함께 요리를 하는 것 같이 조금 더 높은 난의도의 인터렉션 종류는 긴 대화가 필요할 것이다.


Aurélien Salomon
TinoFan]

효과적인 음성 모션 경험은 아래 원칙을 따르면 좋다.

일시적(Transitory) — 다른 상황에서도 매끄럽게 처리한다. 사용자가 기다리는 느낌이 들지 않고 기기가 기다리고 있다고 느껴져야 한다.

선명한 색— 선명한 색은 기쁨과 미래적인 느낌을 준다. 인터렉션에서 미래지향적인 우아한 요소가 추가된다. 이건 반복적 인터렉션을 돕는다.  

반응형(Responsive) —  사용자가 입력하고 동작한 것에 응답한다. 어떤 단어가 처리되는지에 대한 힌트를 주고, 자신의 말과 목적이 제대로 파악되는지 알 수 있다.


Natural AI inside AGI automotive dashboard by Gleb Kuznetsov✈

5. 결론 및 자료


VUI는 아주 복잡하고, 다면적이고, 인터렉션의 혼합된 결과물이다. 실제로 모든 것을 포괄하는 정의는 없다. 기억해야 할 중요한 것은 갈수록 디지털화되는 세상에서 사람들보다 기기들과 더 많은 시간을 보낸다는 것이다. VUI가 인터렉션의 주요 수단이 되는 날이 올까? 곧 알게 될 것이다.

그동안 최고의 VUI를 만들고 싶은가? 아래에 유용한 자료가 있다.  


How to Design Voice User Interfaces | Interaction Design Foundation

What Is a Voice User Interface (VUI)? An Introduction | Amazon Developers

Voice Actions | Google Developers

SiriKit | Apple Developers

Designing a VUI by Frederik Goossens

A Guide to Voice User Interfaces by Fjord



저자 Justin Baker
원문 링크: https://medium.muz.li/voice-user-interfaces-vui-the-ultimate-designers-guide-8756cb2578a1
번역: REASIGN
문의reasign.newsletter@gmail.com

*무단 전재 및 재배포 금지(링크 공유는 가능)


해외 디자인 아티클을 한글판으로 편하게 받아보세요!

읽는 디자인, <디독D.dok>(구:REASIGN) 구독링크: http://bit.ly/2FNQNpv

매거진의 이전글 2019년 팬톤 컬러 공개
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari