brunch

You can make anything
by writing

C.S.Lewis

by Appricot 프로젝트 Jul 25. 2021

모두 함께 가는 미래를 만드는 법 - VUI 편

화면 와이어프레임을 그리면서 가끔 하는 고민이 있다. 아직 피부로 느껴지진 않지만 반드시 닥쳐올 미래에 대한 고민이다.

'앞으로 사람들이 화면을 쓰지 않게 되면, 무슨 일 하지?’


화면을 쓰지 않게 된다니! 당장 방을 둘러봐도 아이맥부터 노트북, 핸드폰까지 거울 같은 까만 화면이 가득한데, 영화에서처럼 목소리로 자료를 작성하거나 손동작으로 허공에서 물건을 주문하는 게 머나먼 일처럼 느껴질지 모르겠다.

그러나 고정된 화면 속에서 이루어지는 인터랙션은 계속해서 줄어들 것이다.

구글에서는 이미 인구의 27%가 음성으로 검색을 한다고 발표했고, 음성검색 기능을 사용해 물건을 구매하는 사람들의 비율 또한 계속해서 늘고 있다. 마우스와 키보드로 정보를 입력하는 세대는 지금이 마지막일 것이라는 예측도 나온다. 어쩌면 미래에는 지금을 되돌아보며 모두가 손바닥만 한 모바일 스크린에 시선을 파묻고 있던 답답한 시대였다고 생각할지도 모른다.

그리고 그 자리는 천천히 그러나 확실히 음성이 채우게 될 전망이다.


들어가기 전 - VUI란?


VUI, 보이스 유저 인터페이스 (Voice User Interface)란 사용자가 음성 또는 음성 명령을 통해 시스템과 상호 작용할 수 있도록 돕는 기능을 말한다.

이미 우리 곁에 VUI들이 많이 자리 잡았다. 애플의 시리, 아마존의 알렉사, 마이크로소프트의 코타나와 구글의 구글 홈, 삼성의 빅스비와 네이버의 클로바가 그 예이다. 나갈 준비를 하면서 오늘 날씨를 물어볼 수도 있고, 운전 중에 근처의 식당을 추천받을 수도 있다. 한 번에 여러 가지를 동시에 하게 해주는 편리한 기기들로 생각하지만, 어쩌면 VUI가 가진 가장 큰 힘은 접근성(Accessibility)이다.

노인들, 거동이 어려운 사람들, 청각장애인, 시각장애인, 난청인 사람들, 아이들 … 누구도 뒤처지지 않고 함께 미래로 가기 위해, VUI가 발전할 수 있는 방향은 무궁무진하다. 이미 서비스의 접근성을 개선하기 위해 음성을 사용하는 있는 희망적인 사례들도 많이 연구되고 있다. 함께 살펴보며, 보이스 유저 인터페이스로 모두를 위한 미래를 만드는 법에 대해 생각해 보았으면 한다.



신체적 조건에 따른 접근성

노인, 약자, 장애인을 위한 VUI


우리 사회에는 다양한 신체적 특성을 가진 사람들이 함께 살아간다. 저마다 자신에게 익숙한 감각으로 세상을 내비게이션 한다. 그러나 우리가 사용하는 대부분의 앱과 웹, 전자기기들은 눈으로 화면을 들여다보고 손가락으로 클릭하는 것을 전제로 한다.

음성 인터페이스의 발전은 이런 면에서 접근성을 크게 높여줄 수 있다. 스크린 리더 (웹 화면의 모든 텍스트를 소리 내어 읽어주는 기기)를 사용해 아마존에서 물건을 주문하는 데 대략 15분이 걸리던 시각장애인이 “알렉사, 주방 휴지 한 팩을 장바구니에 넣어줘.”로 5초 만에 쇼핑을 완료할 수도 있다.

2019년부터 아마존 알렉사는 음성의 속도를 일곱 단계로 세분화해서 제공하기 시작했다. 다양한 유저들을 고려한 것이다. 난청이 있는 사람들과 고령층은 느린 음성 모드를 사용해 천천히, 또렷하게 정보를 받을 수 있다. 반면 청각 정보를 캐치하는 데 익숙한 시각장애인들은 빠른 모드 설정으로 본인의 페이스에 맞게 대화를 조정할 수 있다. 그렇다고 VUI가 음성 한 가지 옵션에만 집중해서도 안 된다. 음성 명령과 텍스트 명령, 또는 가벼운 동작만으로도 명령을 시작할 수 있게 제공해야 한다. 구글 홈은 2018년에 음성비서의 카메라 기능과 구글의 AI 오픈 프로그램을 결합해, 수화로 하는 명령을 인식하고 대답하는 실험에 성공하기도 했다. 다양한 신체조건의 유저들이 여러 상황에서 대응할 수 있도록 유연하게 제공하는 것이 핵심이다.



“산타는 어디에 살아요?” / 제 능력 밖의 일이예요.

아이들을 위한 VUI


지금의 어린아이들은 우리보다 훨씬 음성 명령에 익숙한 세대로 자랄 것이다. 알렉사로 언어를 배우는 아이들도 있고, 과학 숙제의 답을 물어보는 아이들도 있다. 산타가 진짜 존재하는지 묻는 아이들도 있다.

아이가 기계에게 말을 배운다니! 하며 씁쓸해할 수도 있겠다. 하지만 다음 세대는 우리보다 훨씬 빠르게 새 흐름에게 손을 뻗고 말을 건넨다. 그러니까 음성비서는 더 똑똑해져야 한다. '제 능력 밖의 일이예요.’ ‘그 질문의 답을 찾을 수가 없어요'라고 대답하는 게 능사는 아닐 것이다.

아마존의 알렉사는 아이들을 위해 '공손하게 말하기 모드'를 출시했다고 한다. "알렉사, 불 꺼."처럼 명령형 대화에 익숙해지는 것에 대한 우려에서이다. 아이들이 "알렉사, 오늘 날씨는 어떤지 말해줄래?"라고 물으면 알렉사는 명령형 질문에서는 하지 않는 "친절하게 말해줘서 고마워요" 등 깜짝 대답을 제공한다. 언어를 주고받으며 키우는 사회화 외에도, 어린이를 위한 모드도 필요하고, 대상이 어린이임을 인식하고 유해한 정보 제공이나 사이트로의 연결을 방지하는 기술도 물론 필요하다.

https://futurice.com/blog/how-to-design-great-voice-services-for-kids

Futurice에서는 어린이를 위한 음성 서비스를 디자인하기 위한 10가지 가이드라인을 제시한다. 아이들의 어휘와 문장을 고려하면서 명확하게 대답하는 법에 대해 고민해야 한다는 점이 돋보인다. 또한 답변 스크립트를 만들 때 재능이나 결과보다는 노력을 칭찬하는 방향으로, '멋지다', '놀랍다'같은 포괄적인 메시지보다는 '창의적인 선택이예요', '똑똑하네요!' 등 어린이 개인의 자질을 포함할 것도 제안하고 있다. 어쩌면 주변 어른들보다 음성 서비스와 더 많은 인터랙션을 거칠 어린이들에게, 건강한 디지털 상호작용 모델을 제공하고 좋은 대화 모델을 만들어주기 위해 고민해야 할 부분들이다.



현실의 차별을 복제하지 않도록

성별 이분법, 성역할에서 벗어난 VUI


시리와 알렉사, 코타나, 구글 어시스턴트 등 음성비서들이 구시대적인 성역할을 고착화한다는 우려가 계속되고 있다. 음성비서 서비스들은 여성 모드와 남성 모드에서 각각 다른 스크립트를 사용한다.

2017년 빅스비의 음성 환경설정 페이지에서 여성 보이스에 "명랑한", "쾌활한" 해시태그를, 남성 보이스에 대해 "확신에 찬", "자신감 있는" 해시태그를 붙여 제공했다가 차별적이라는 지적을 받고 태그를 제거한 일이 있었다. 남녀 보이스에 서로 다른 태그를 부여하는 것 자체가 비상식적일 뿐만 아니라, 여성은 늘 웃고 밝아야 한다는 고정관념을 강화한다는 것이다.

2017년 논란이 되었던 빅스비의 성별 해시태그

시리의 경우 선정적인 농담을 던지면 여성 보이스는 부끄러워하거나 장난스러운 톤을, 남성 보이스는 침착하고 기계적인 답변을 내보내 논란이 되기도 했다. 또한 같은 검색 결과에 대해 여성 보이스에서는 모호하고 뭉뚱그려진 대답을, 남성 보이스는 정확한 수치를 제공하는 등 기존의 왜곡된 성역할에 기댄 듯한 사례도 계속 지적되는 부분이다. 음성비서나 스마트 스피커에게 폭언이나 욕설을 해도 노상 얼버무리거나 농담조의 답변으로 반응하는 것은 여성과 약자에 대한 폭력을 묵인하고 고착화시키는 악영향을 끼칠 수도 있다.


이런 이분법적인 음성 제공에서 비롯되는 문제들을 해결하기 위해선 어떻게 해야 할까?

보다 포괄적인 AI 보이스를 위해 개발된 "Q"는 어느 한쪽의 성별에 치우치지 않도록 개발한, 세계 최초의 젠더리스 음성비서이다. (링크에서 Q의 목소리를 들어볼 수 있다.) 2021년 4월부터 시리의 음성 또한 '남성' '여성'이 아닌 'Voice 1', 'Voice 2'로 소개된다.

또한 특정 코미디언이나 이용자 본인의 목소리로 음성 안내를 커스텀해, 성별보다는 개성에 집중하도록 하는 경우도 있다. 구글의 내비게이션 서비스 Waze에서는 스타워즈의 C-3PO, 배우 모건 프리먼, KFC의 커넬 샌더스 등의 목소리로 서비스를 제공하기도 했다.

한때 페이스북 메신저에서 제공되었던 AI 날씨 안내 봇 "Poncho"는 사용자가 욕설이나 불쾌한 명령을 내렸을 경우 "무례한 말이네요. 사과하시겠어요?" 하고 옵션을 제공하고, 사용자가 계속 사과하지 않을 경우 서비스를 멈추곤 했다. 아쉽게도 VUI 생태계에서 아직까지 이런 정도의 강경한 대응은 거의 보이지 않는다. 아직까지도 시리와 알렉사를 비롯한 음성비서들은 불쾌한 성적인 농담에 말을 돌리거나 웃어넘기는 등, 일반적으로 적절하지 않은 답변만 제공하고 있다. 음성 인터페이스가 많아질수록 VUI가 주는 이미지, 전하는 메시지 등에 책임감을 갖고 개선해나갈 부분들이다.


마치며

우리는 ‘타겟 유저'에 맞춰 디자인하는 것에 익숙해져 있다. 퍼소나를 만들고 비즈니스 전략을 세우다 보면 가장 다수의 일반적인 유저에 맞춰 기능을 설계하게 된다.

그러나 가장 일반적인 디자인이 가장 이상적인 디자인은 아니다. 소수 유저를 위해 보여주기 식으로 모드를 추가하는 것도 답은 아니다. 통합적인 사용경험 내에서 다양한 시나리오를 고려하고, 여러 니즈를 가진 유저들이 상황에 맞춰 선택할 수 있도록 디자인하는 것이 중요하다.


서비스 자체를 뒤엎거나 제품을 뜯어고칠 필요는 없다. 다만 음성과 텍스트 입력 기능을 함께 제공하고, 터치로 모드를 시작할 수 있는 기능을 제공하는 등 작은 것에서부터 시작된다. 노인의 목소리, 지적 장애인의 목소리도 인식할 수 있고, 필요에 따라 속도와 톤을 조절할 수 있도록 하자. 어린이와 약자를 위한 보호 모드도 필요하다. 실제 사람과의 대화처럼 느껴지도록 하되, 사람과의 대화에서 비롯된 편견이나 차별의 요소는 담지 않도록 하자.


VUI를 잘 개선하고 사용하면 미래를 함께 향유할 수 있는 유저의 폭이 훨씬 넓어진다. 아무리 편리하고 반짝이는 기술이 상용화되어도, 그 기술이 여전히 누군가에겐 불편한 사각지대로 존재한다면 좋은 미래라고 할 수 없다. 뒤쳐지는 사람 없이 모두 함께 갈 수 있는 좋은 미래가 오기를 바라며, VUI가 앞으로 보여 줄 미래의 방향이 기대가 된다.


By 에디터 Chip


참고한 글

Alexa for accessibility: how voice user interfaces can change lives

Amazon Alexa to reward kids who say: 'Please'

Actions for accessibility in design - News - Google Design

Explore the Gendering of AI Voice Assistants

Meet Q. The First Genderless Voice.

작가의 이전글 지금 이 순간, 어떤 앱을 쓸 것인가? App 상황극
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari