brunch

You can make anything
by writing

C.S.Lewis

by Kahyun Lee Sep 03. 2017

스피커와 친구가 될 수 있을까?

왜 나는 꽤 정중하게 스피커에게 부탁하고 있는 걸까? 

사람들은 영화 her에서와 같이 언젠가 AI와 대화하고 교감하는 시대를 상상한다. 아마존을 시작으로 우후죽순 출시되고 있는 스마트 스피커를 보고 있으면 마치 먼 미래 같았던 AI와의 커뮤니케이션이 점점 다가오고 있는 게 느껴진다. 

회사에서도 VUX(Voice User eXperience) 관련 프로젝트를 수행하는 일이 많아지고 있다. 화면 없이 스크립트를 작성하다 보면 언젠가 UX 디자인이 사라지진 않을까? 하는 생각과 앞으로 어떤 경험 디자인을 해야 하는지 고민하게 된다. 화면 없이 Voice로만 구성된 양산 프로젝트는 처음이라 새로우면서도 ‘대화’는 일상에서 많이 관찰할 수 있기 때문에 조금 수월하게, 재밌게 작업하고 있다. 

예전에는 Voice 설계가 막막했겠지만 지금은 회사에 참고할 만한 스피커(Amazon의 echo, Google의 Google Home, SKT의 NUGU)들이 많아 직접 스피커를 사용하면서 설계하기 좋은 환경을 갖추고 있다. 


광고에서도 많이 접해서 익숙하겠지만, 스피커에게 무언가 부탁하려면 스피커 이름과 함께 명령을 발화해야 한다. ‘스피커 이름, ~해줘’라고 이야기 한다. 영화 her에서 처럼 AI를 이름으로 부르면 좀 더 친숙한 느낌이 들기 때문인지 각 스피커마다 불러야 하는 이름을 가지고 있다. echo는 ‘Alexa', Nugu는 ‘아리아', 기가 지니는 ‘지니’… 처음에는 스피커에 이름 붙이는게 유치하다고 생각했는데 google을 부를 때 ‘OK Google’로 명령을 하다보니 확실히 사람 이름이 좀 더 편하고 부르기 쉽다. 

이런 스피커의 이름을 Wakeup Word(기동어)라고 한다. 기동어를 발화해야 스피커가 깨어나고 명령을 받아들일 준비를 한다. 


NUGU로 예를 들면 

“아리아, 음악 틀어줘” 


라고 NUGU에게 이야기하면 NUGU가 음악을 재생해준다. 내가 말한 ‘음악 틀어줘’를 ‘음악 실행’과 연결하여 음악을 재생하게 되는 것이다. 예시처럼 스피커에게 기동어 + 명령어를 발화하면서 스피커를 직접 테스트하며 업무를 진행하고 있다. 그런데 회사 사무실이 많이 오픈되어 있다 보니, 스피커를 실행할 때 주변 사람들이 내가 말하는 말과 스피커의 반응을 자연스럽게 듣게 된다. 

평소와 같이 스피커를 테스트하는데, 회사 동료분이,


“00 선임님은 스피커한테 정중하게 부탁하네요?”


라고 말해 순간 내가 스피커에게 어떻게 말하고 있는지 생각해 보게 되었다. 


그전까지는 스피커에게 정중하게 부탁한다고 생각하지 못했다. 그도 그럴 것이 스피커에게 존댓말을 쓴 것도 아니고 부탁이 아니라 명령을 하고 있다고 생각했기 때문이다. 그럼에도 그 분 말이 일리가 있다고 생각한 부분은 스피커에게 ‘너’ ‘야’ 이런 호칭이나 ‘~해’ 등의 단호한 명령 어조를 쓴 적이 없다. 그리고 스피커가 못 알아듣는다고 스피커에게 화낸 적도 없었다. 


나와 대화를 하지만 머릿속에는 이미 스피커는 ‘기기’이기 때문에 내가 굳이 감정을 드러내지 않아도 된다고 생각했던 것 같다. 스피커는 생각보다 규칙적인 어조로 이야기해야 실행을 할 수 있도록 설계 되어 있기 때문에 발화문 안내 가이드대로 말하지 않으면 실행되지 않는다. 


예를 들어 

“아리아, 언어의 온도 읽어줘”

같이 skills를 언급하지 않고 발화한다던지, 


“아리아, 이 노래 끝나고 틀어주는 노래 뭐야?”

같이 맥락은 ‘다음 노래’를 틀어달라는 의도이지만 ‘다음’이란 단어를 언급하지 않는다던지.. 

또, 스피커를 붙잡고 말을 길게 하면 못 알아 들을 가능성이 높다. 


스피커를 계속 사용하다보니 처음에 예상했던 것보다 인식률이 좋고 꽤 유용하다. 그렇지만 유용하다고 영화 her에서 나오는 것처럼 실제 사람들과 커뮤니케이션할 때 느끼는 감정이 느껴지진 않는다. 


스피커와 대화하는 것은 이제야 신생아를 지나 아기 단계(toddler)가 되었다는 기사의 제목처럼 아기와 ‘언어로써’ 교감하기 어려운 것과 비슷하다.  (사실 아기를 안 키워봐서 모르겠다. 촉각, 눈빛, 존재만으로도 충분히 교감할 수 있으나 언어를 통해서는 교감이 힘들지 않을까 생각해본다…)


스피커와 감정을 교감하고, 사람보다 더 낫다는 생각을 하게 되는 날이 올까? 왜 지금의 스피커와는 교감하기 어려울까? 갑자기 쓸데없는 궁금증이 도져 영화 her를 다시 보았다. 사실 영화를 굳이 다시 보지 않아도 새로운 사람을 사귈 때, 대화할 때를 생각해보면 충분히 결론을 내릴 수 있다. �


우선 테오도르가 OS1을 처음 시작할 때를 보면 OS1이 테오도르의 성향을 묻는다. 외향적인지, 내향적인지, 가족과 관계는 어떤지 등 그 사람의 성향 및 성격을 분석한다. 인터뷰를 할 때도 실제 대답을 곧이곧대로 믿지 않듯 OS1은 테오도르의 어조를 분석하여 테오도르가 말이 진심인지 파악한다. 어쨌든 마치 소개팅 상대를 매칭 하는 것처럼 사용자의 성향을 파악해 잘 어울릴만한 AI를 매칭 해준다. 


영화에서는 발화어 가이드를 안내할 필요 없이 사만다 스스로 자신이 어떤 일을 해야 하는지 파악하고 명령어를 내리기 전에 먼저 실행한다. 또, 사용자의 어조를 관찰해 그날 사용자의 기분을 파악하고 데이터를 통해 어떻게 대응해야 하는지 알고 있다. 


질문의 대답을 수집하면서 상대방의 어조를 관찰해 사용자의 의도를 파악한다.


지금은 쌍방향 커뮤니케이션을 한다기보다 명령어 입력 > 명령 수행의 일방향 커뮤니케이션을 하고 있다. 

앞으로 스피커가 내 기분을 이해하고 이야기하지 않아도 해야 할 일을 척척 수행하는 날이 온다면 스피커에게 감탄하고, 대화를 계속하고 싶어 질 것 같다. 사실 지금은 내 말을 알아듣고, 원하는 기능을 실행해주는 것만 해도 고마워… 



작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari