brunch

You can make anything
by writing

C.S.Lewis

by 김학용 Jul 14. 2022

인공지능 스피커, 사람인듯 사람 아닌 사람 같은 너~~

마치 사람과 대화하듯 사용하게 되는 인공지능 스피커 


구글은 지난 Google I/O 2022에서 소개했던 기능들 중에서 Look and Talk 기능을 6월말 공식 론칭했습니다. 룩앤톡은 말 그대로 보고 말하기 기능인데요, 오케이 구글 같은 별도의 호출어를 말하지 않더라도 스피커를 바라 보며 명령을 하면 반응을 하도록 하는 기능입니다. 마치 사람들이 얼굴을 보며 대화를 하는 것처럼 말입니다. 


https://voicebot.ai/2022/06/30/google-nest-rolls-out-look-and-talk-feature-4th-of-july-doorbell-ringtones/


이를 위해서 스피커는 사용자가 자신을 바라보고 있고 질문하려는 것임을 확인해야 하는데요, 스피커에 내장된 카메라로 사용자의 얼굴과 시선 방향 확인, 사용자 얼굴 인식 등을 하게 됩니다. 따라서, 현재는 카메라가 내장된 Nest Hub Max에서만 가능합니다. 그리고 이를 위해 허브 맥스에는 픽셀 6에 들어간 Tensor 칩셋을 내장하고 있습니다. 네스트 허브 맥스는 동시에 100가지 이상의 신호를 처리하는데요, 이를 위해 텐서 칩셋에 내장된 6개의 머신러닝 엔진을 사용한다고 합니다. 



스마트 디스플레이에 뉴럴 칩셋을 사용하는 것은 이제 당연한 것으로 받아들여지고 있습니다. 아마존도 2020년에 출시한 에코쇼 10에 뉴럴 칩셋인 AZ1을 사용하고 있구요, 2021년에 출시된 에코쇼 15 및 아스트로 로봇에는 AZ2를 사용하고 있습니다. 이런 칩셋들은 사용자와 관련된 수많은 정보를 클라우드로 보내서 처리하는 과정에서 발생할 수 있는 프라이버시 이슈나 지연 등의 이슈에서 자유롭게 해 줍니다. 구글의 경우 자연스러운 대화를 위해 0.2초 안에 모든 처리를 끝내고 대응을 할 수 있도록 하는 것이 목표라고 합니다. 


아마존도 이와 비슷한 기능을 제공하고 있는데요, 알렉사 대화 모드(Alexa Conversation Mode)라는 것입니다. 구글의 룩앤톡과는 약간 다른데요, 알렉사를 대화에 참여시키게 되면 알렉사는 사람들의 대화를 계속 듣게 되구요, 대화 중에 자신에 대한 질문을 인식하고 답변을 하게 되는 구조입니다. 예를 들어서, 범죄도시2와 탑건 매버릭 중 어떤 것을 볼지 이야기를 하다가 알렉사에게 물으면, "미성년자가 있으니 탑건 매버릭을 보는게 어때?"라고 자신의 의견을 말하게 됩니다. 


https://voicebot.ai/2021/11/18/new-alexa-conversation-mode-skips-wake-word-repetition/


두 기능이 약간 차이가 있기는 하지만, 사람과 가상 비서가 마치 사람들끼리 대화하듯 자연스럽게 대화할 수 있도록 한다는 점에서는 똑같다고 생각합니다. (실제로 아마존의 대화 모드는 구글이 2018년에 발표한 Continued Conversation에 더 가깝습니다.) 물론, 이 외에도 사람의 목소리나 표정을 통해 사람의 심리 상태나 건강 상태까지 감안하여 대응하는 기능들도 개발 중에 있습니다. 그리고 이를 바탕으로 사용자가 좋아하는 물건이나 음악을 추천해주기도 하고 집안 상태(온도, 조도, 색상, 커튼 상태 등)를 제어해 주기도 합니다. 


아직 인공지능 스피커가 멍텅구리라서 대화는 커녕 질문도 제대로 알아듣지 못하는 것이 일반적이지만, 인공지능 스피커와 좀 더 편하게 이야기하고 원하는 답변을 얻어낼 수 있다면 좋을 것 같습니다. 그리고 그 다음 단계는 무엇일지에 대해서도 생각해 보게 됩니다. 

작가의 이전글 5G 중간 요금제로 국민을 우롱하는 정부와 이통사!!
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari