brunch

You can make anything
by writing

C.S.Lewis

by Jamin Oct 24. 2017

Voice First World

시리야, 클로버한테 알렉사 '커피 좀 주문해줘'라고 말하라고 해주겠니?

Gone with the voice

       

음성인식 기기들이 범람하고 있다. 실상 제대로 된 서비스를 제공하는지 의문이다. 일단 내가 유일하게 쓰는 서비스인 시리는 영 탐탁지 못하다. 구글 어시스턴트 이전에 구글 나우도 그랬다. 하긴, 언젠 쓸데가 있어서 물건들을 탐내었는가, 그냥 새로운 것이니까 탐내었지. 그런 의미에서 이번 구글 신제품들은 - 구글 홈 미니와 픽셀 버즈는 탐났다.


음성 인식이 대중화되면 어떤 일이 벌어지는가. 

https://www.youtube.com/watch?v=znsoMwmwFIQ

음성 인식으로 글쓰기 영상


위 동영상과 같은 걸 보고 따라 하려고 한 적이 있었다. 쉽지 않았다. 글쓰기라는 경험을 지배하는 인터페이스는 내게는 '타자'이다. 사고를 말로 표현하기보다는 손가락의 움직임으로 표현하는 것이 더 편했다. 뭐 어쨌든 문장 수정 등을 생각하면 여전히 타자는 유용하긴 하다. 하지만, 음성 인식으로 글쓰기가 디폴트가 될 수도 있지 않을까? 타자기에 비해서 손글씨가 많은 부분에서 장점을 가지고 있었던 때도 있었잖는가?


사실 글쓰기 영역은 매우 사소한 영역이다. 음성인식의 분야에서는 가장 중요한 것은 '유저의 경험'을 크게 바꾸지 않고 서비스를 쓸 수 있도록 해줄 수 있다는 것이 핵심이지 않을까. 시리에게 '홍길동 전화 걸어줘' 하는 것은 단계(depth)를 줄이는 것 이상의 의미가 있다. 말을 할 줄 아는 사람에게는 iOS의 활용법을 배우지 않아도 되는 영역이 펼쳐지는 것이다. (물론 충분히 잘 알아듣는다면)


그러니까 음성인식을 결합하여 잘 디자인된 서비스의 심상 모형은 - 디자이너의 그것과 사용자의 것이 큰 차이를 보이지 않을 가능성이 크다는 것이다. 또한, 학습이 매우 단순해질 것이고. 결론적으로 글을 읽지 못하는 (문맹자) 사람들까지도 스마트 디바이스의 이용자가 될 수도 있다. 우리 할머니도, 세 살배기 조카도 시리랑 대화할 수 있으니까!(하지만 실제로 내 조카는 2살이며, 만으로는 15개월을 지난 상태라 이는 불가능하지만)

        

결국 십 년도 전에 울려 퍼지던 유비쿼터스 개념으로 한 발자국 더 들어가게 되는 현상이 아닐까. 어디에나 존재하는 인터페이스. 왜냐면 스마트폰의 경우 언제나 함께하는 '컴페니언 디바이스'로 손색이 없으며, 언급한 픽셀 버즈와 같은 리시버들은 언제나 내 소리를 듣고, 내게 말을 할 수 있으니까. 그런 의미에서 항상 켜져서 특별한 순간에 사진을 찍어준다던 구글의 클립스 역시 비슷한 의미이지 않나 싶기도 하다. 

        

이런 상황이 지속되면 카메라는 소형화되고, 숨겨질 것이며 마이크와 스피커 역시 마찬가지가 될 것이다. 귀미테 형식으로 골전도 방식으로 음성을 전달할 수도 있겠지. 그러니 적어도 물리적인 형태의 인터페이스의 종말이 다가오는 것일지도 모르겠다. 과격한 이야기일 수도 있지만 인터페이스의 궁극적인 목적은 인터페이스를 인지하지 못하는 단계라고는 하니까. 


경험(UX)은 남고 인터페이스(UI)는 소리 속으로 사라지게 될지도 모르겠다.  



Life, the universe, and everything


        

현재 음성인식 기술은, 구글이 자랑하는 바에 따르면 사람보다 인식을 잘한다고 한다. 몇 가지 조건이 붙지만, 놀라운 결과이다. 하지만 이게 우리가 흔히 하는 '말을 잘 알아듣는다'의 뜻은 아니다. 이 음성이 이 특정 단어와 매칭 된다는 것을 파악하는 것은 사람보다 낫지만, '몬데그린' 현상은 사람보다 덜 겪겠지만 '척하면 척' 하고 내가 원하는 결과를 가져오는 클로버는 아직 하아아안참 남았단 말이다. 

           

각설. 인공지능 없는 보이스 어시스턴트는 의미가 없다. 애초에 현재의 음성인식 방식 자체도 일종의 기계학습을 통해서 진행되고 있다. 이 부분을 차치하고서라도, 말을 받아 적기만 하는 '음성인식' 이 필요한 것이 아니라면 음성인식에 무엇이 결합되어 있는가가 음성인식 서비스의 가치를 결정짓는다고 봐야 할 것이다. 

        

특히, 앞 'Gone with the voice'에서 말한 것처럼, '인터페이스' 인 줄도 모를 정도로 음성인식이 기능하기 위해서는 맥락인지를 매우 잘 해야 한다. 그러니 사람이 인식하는 것만큼의 센서가 많이 필요하고, 센서를 통해 들어온 정보를 사람 수준으로 독해하는 인공지능이 필요하리라. 그쯤은 되어야 앵무새가 따라한 말로 주문을 하는 알렉사가 사라지겠지.


문제는 맥락인지를 위해서는 아마도 기존의 '음성인식'에 소요된 것보다 훨씬 방대하고 - 개인적인 데이터가 필요할 것이란 말이다. 전산화가 시작된 이래로 서비스 가치와 개인정보 간의 트레이드오프 상황은 끝없이 변주되고 있다. 그리고 서비스의 승리는, 더 커지고 빨라졌다. 어쨌든 완전히 독립되어 나를 이해하고 나를 도와주는 컴패니언으로 시리와 알렉사와 클로바와 누구와 지니와... 여하튼 그런 애들은 없을 가능성이 높다. 적어도 단기간 내에는. 

        

<은하수를 여행하는 히치하이커를 위한 안내서>에 등장하는 위대한 인공지능 '깊은 생각' 은 크게 의미 없는 TV 프로그램을 보는 모습을 보여준다. 그 보다는 못하지만 꽤나 대단한 인공지능 '마빈' 은 우울증에 걸려있다. 이런 인공지능이 등장하는 것은 아마도 내 생애 동안엔 불가능할 것이다. 아마도 인공지능에 경종을 울리는 <터미네이터> 같은 작품이 등장하는 한, '레플리컨트'의 반란도 '옴닉' 사태도 일어날 가능성은 낮다. 다만 목소리 너머로 사라져서 삶 속에, 우리가 인지하는 우주에서, 모든 것과 소통하며 존재하게 될 것이다. 

        

사막이 아름다운 것은 보이지 않더라도 오아시스가 있기 때문이라고 누군가 말했는데, 우리 삶이 편안해지는 것은 눈에 띄지 않지만 열라 학습을 하고 있을 그 기계들 때문이지 않을까. 



Brave New Generation


그런데, 나라는 개인을 소거하고 나면, 또 다른 재미있는 이야기를 많이 해볼 수 있을 것 같다. 어느 날 지인에게서 요즘 아이들은 키보드보다 핸드폰 자판이 편한 세대란 말을 들었다. 과연, 얼마 뒤 일본의 기업에서 신입사원에게 키보드 타자를 가르치고 있다는 기사를 읽었다. 물론 외신 수준으로 토막으로 얻은 정보이긴 하지만 - 인터페이스의 변화는 생각보다 많은 삶의 변화를 가져왔으며 - 세대 간의 차이를 유발하기도 한다.         


지금의 알렉사와 함께하는 아이들도, 그/녀와 소통하는 법을 쉽사리 익히고, 어떤 질문의 경우에는 부모님을 찾기보다는 알렉사를 찾는다고 한다. 지보 같은 소셜 한 로봇도 아닌데, 생각보다 사람을 이해를 내가 잘못하고 있구나 라는 생각이 들기도 했다.


https://youtu.be/3N1Q8oFpX1Y

커여운 지보..

            

언캐니 밸리(uncanny valley)는 기본적으로 사람의 본성에 가까운 것이라고 생각했지만. 애초에 인지능력을 만들어나가는 과정에 함께한 동반자에게 불쾌함을 느끼는 것은 이상한 일이 아닐까. 텔레비전도 마찬가지의 역할을 했을 것 같다. 티브이를 보면서 사회를 배우고, 인터넷을 보면서 세상을 알게 되던 것이 스마트폰으로 넘어갔다가 이제 알렉사와 시리, 구글 어시스턴트에게 이어지고 있는 것은 아닐까?


그렇다면 이 친구들은 완벽하게 모든 것은 아니겠지만 대체로 모든 것을 기록할 것이니 - 적어도 대화하던 내용을 조금이라도 기억하고, 가끔씩 중요한 순간을 촬영하게 되며 하드웨어는 바뀌어도 소프트웨어는 업그레이드되더라도 데이터베이스는 남게 되겠지. 그러니 3살 때 내가 무엇을 했는지 정확하게 기억은 안 나요 당연히~ 하는 말들이 옛 말이 될 날이 머지않았을 수도 있겠단 생각이 들었다. 


물론, 우리가 단기간에 모든 것을 기억하고, 처리할 수 있는 존재로 진화하는 것은 아니다. 하지만 언제 어디서나 나와 함께하는 나의 '인공지능 보이스 어시스턴트'가 귀미테 형태로 내 몸에 붙어서 골전도 방식 - 혹은 그 보다 더 나은 방식으로 - 남에게는 안 들리는 형태로 정보를 전달해준다면 - 외장 기억장치와 꽤나 긴밀한 연결을 가지게 된 '사람' 은 더 이상 구세대 인류와는 다른 존재가 되지 않을까. 참, 내가 듣는 것은 모두 이 친절한 동반자도 함께 듣고 있을 것이다. 당연히도. 


https://www.youtube.com/watch?v=r-d_DucmVzw

하만 사의 '증강오디오'

        

위, 하만사의 콘셉트 영상을 보고 있으면, 이제 듣기 싫은 소리는 아예 음소거 처리도 할 수 있는 세상이 될 테니까 하는 생각도 든다. 더 무섭게는 어떤 질문을 듣게 되었을 때, 내 생각보다 빠르게 정보를 주는 것도 가능은 하겠지. 정말 먼 미래에. 

        

이 부분의 문장들은 대체로 극단적이고 용감한 논리적인 비약을 통해 완성되었다. 하지만, 음성인식 인터페이스 네이티브들은 터치 인터페이스 네이티브 보다 나와는 먼 존재가 될 것이라는 생각을 지울 수는 없다. 게임이 막혀서 공략을 찾는데 요즘 게임은 '동영상' 공략만 있더라. 이런 사소함이 모여서 그들과 나를 구분 짓겠지. 

    



아래 세 글을 읽고 쓴 글입니다.

#트레바리 #넥스랩 


https://www.highly.co/hl/YORnxs9d3YcrYl




https://www.highly.co/hl/Kr5SMI0fNvqNVb

https://www.highly.co/hl/CNrQNvEBmJ4wXl


매거진의 이전글 플랫폼시대
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari