brunch

You can make anything
by writing

C.S.Lewis

by Tak Yeon Lee 이탁연 Aug 02. 2018

Google Duplex 시연에 대한 썰

데이터 농장으로서의 제품

Google I/O에서 선보인 전화 예약 데모가 선풍적인 인기를 끌고 있습니다. 아직 안 보셨나요?


주변의 반응은 이렇습니다. 

인공지능 비서가 나 대신 전화도 걸어주네. 중간에 감정 표현도 하고. 심지어 영어도 나보다 훌륭하구먼!


사실 식당 예약, 비행기표 구매, 미팅 일정처럼 정해진 형식을 따르는 태스크는 챗봇을 통해 이미 탄탄하게 정의된 작업입니다. 예약자와 처리자의 역할을 바꾸고, 음성 인식과 합성이 더해지면서 마치 실제 사람 간의 통화인 것처럼 보이게 되었죠. 기술의 통합만으로도 대단한 성과입니다. 하지만 데모가 시사하는 바는 조금 미묘한 부분이 있어요.


       주의! 이 글에 포함된 어떤 주장도 검증된 사실에 기반하지 않는 저자의 개인적인 의견입니다


인공지능의 전화는 인간과 구분할 수 없을 정도로 자연스러워야 하는가?

아직도 많은 연구소와 회사들이 고민하고 있는 문제입니다. 찬성파는 "인간과 구분할수 없는 자연스러움"이야말로 인공지능의 최종 목표(holy grail)라고 생각하죠. 반대하는 입장에서는 인공지능의 본질(e.g. 인식, 공감, 논리적 사고 구조)이 근본적으로 인간과 다르기 때문에, 표면(e.g. 억양, 표정, 제스처)이 아무리 유사하더라도 청중의 긍정적 반응은 일시적 현상일 뿐이라고 주장합니다. 오히려 본질에 대해 부정확한 인식과 과도한 기대를 유도해서, 결국 사용자의 실망과 불신을 초래하는 원인이 될 수 있다고 합니다. 지금까지의 역사를 보면 대부분 반대파의 말이 맞아 떨어졌습니다만... 뭐, 이번엔 다를 수도 있겠죠.


원형과 구분할 수 없을 정도의 인공지능이 나온다면? 

적어도 전화 예약을 하는 시나리오에서는 충분히 구분이 안 갈 정도로 완벽한데요. 인간이라는 원형을 완벽하게 모사하는게 가능한가와는 별개로, 모사가 완벽해질 수록 원형의 한계점을 인식하게 되어, 결국 원형보다 개선된 대안을 찾게 된다는 거죠. 예약을 받는 점원 입장에서, 전화를 건 사람이 인간인지 AI인지를 구분할 수 없다는 점은 상당히 난감한 부분입니다. AI를 상대로 감정적인 응대(e.g. 인사, 사과, 감사 등)를 해야 하기 때문에 불필요한 시간과 노력을 들여야 하죠. 몇 차례 속고 나면, 점원은 이게 진짜 인간인지 아닌지 구분하려고 노력하게 될지 몰라요. AI의 완성도가 높을 수록, 그 난이도는 올라가겠죠. 단순히 전화로 예약을 하는게 목적이라면, 애초에 AI라는 사실을 투명하게 알리고 널리 사용되는 복합적인 형태의 대화(freeform query: 자연어로 대화를 시작함; semi-structured: 특정 시나리오가 발동하면 여러 단계를 거쳐 필요한 정보를 수집하고 검증함; multi-modal: 자연어 뿐만 아니라 터치 등 다양한 모달리티를 통해서 입-출력; mixed-initiative: 인간과 AI 둘다 적절한 순간에 치고 들어옴)를 사용하는 게 더 효과적일텐데요.


구글은 왜 자연스러운 인간의 억양과 대화를 사용할까? 

자연어AI가 사용자와 점원의 니즈를 해결하기에 최적의 솔루션은 아닐지언정, 구글의 기술력을 총동원한 기똥찬 데모라는 데에는 의문의 여지가 없습니다. 하지만 저는 Google Assistant의 진짜 목적이 '데이터 수집을 위한 시뮬레이션 플랫폼'에 있다고 봅니다.


점원AI를 만들기 위한 준비 단계로서의 손님AI

구글 입장에서 돈이 될 만한 시장은 '손님이 쓰는 AI비서'보다 '기업이 운영하는 점원AI'입니다. 예약 뿐만 아니라 소비자 상담까지 자동화하는 AaaS(AI as a Service)야말로 큰 돈이 되죠. 이런 AI시스템을 구축할 때 자주 발생하는 문제는 학습 데이터의 부재입니다. 손님의 질문에 점원AI가 어떻게 대답해야하는지에 대한 모범답안이 없는 거죠. Google Assistant는 그 데이터를 꽁짜로 계속해서 모으기에 적합한 데이터 생산 플랫폼입니다. 여기서 가능한 질문 하나 - "그럼 왜 손님은 굳이 AI여야함? 인간 손님과 인간 점원이 하는 대화를 모으면 안 됨?" 이 질문에 대한 대답은, "손님 역할을 AI가 해야 수집될 데이터의 정확한 컨트롤이 가능하기 때문에"입니다. 인간 손님이 하는 말은 엄청 범위가 넓고 정보의 노이즈가 심하기 때문에 점원의 응대를 모아도 사용하기가 어렵습니다.


인공지능 제품 개발을 위한 나선형 모델

조금 일반화 시켜보겠습니다. 이전까지의 인공지능 제품 개발 프로세스는 선형으로 흘러갔습니다. 데이터를 모아서, 인공지능 모델을 만들고, 그걸로 제품을 내는 거죠. 

                                           (훈련 데이터) -> (인공지능) -> (제품) 

훈련 데이터는 보통 (a) 이미 존재하는 것을 쓰거나 (b) 존재하는 데이터를 변형시키거나 (c) 특정 인공지능을 위해 수집하는데, 이렇게 모인 데이터에는 여러가지 한계가 있습니다. 이미 존재하는 데이터는 보통 범용 인공지능을 위해 만들어진 범용 데이터라서, 특정 제품이 가진 니즈에 부합되기 어렵습니다. 오래 전 수집된 데이터는 진화하는 사람들의 행태와 점점 맞지 않게 되죠. 구글의 이번 행보는 이런 선형 모델을 나선형 모델로 바꾸는 과정의 하나라고 봐야합니다. 

                          (인공지능1) -> (제품1 | 데이터2) -> (인공지능2) -> (제품2 | 데이터3) ...

제품은 단지 사용자를 만족시키는 것 뿐만 아니라 다음 버전의 인공지능을 위한 데이터 수집 도구로 만들어지는 거죠.


데이터 농장으로서의 제품

전통적으로 제품은 사용자의 니즈를 만족시키는데 집중해 왔습니다. 캘린더는 일정 관리, 카메라는 좋은 사진을 찍기 위해서, 우버는 운전자와 탑승자를 연결하기위해, 그리고 페북은 지인들의 소식을 보기 위해 만들어집니다. 사용되는 과정에서 자연 발생되는 로그 데이터가 팔려나가거나 제품을 개선하기위한 자료로 쓰이죠. 하지만 자연 발생되는 데이터로는 성이 차질 않기 때문에, 미래의 제품들에는 데이터를 수집하려는 의도가 점점 더 많이 담기게 될 겁니다. 페북은 사용자가 특정 포스트를 숨기려 할 때, 이유가 무엇이었는지 물어봄으로서 추후 유사한 포스트를 분류하는데 이용합니다. Cambridge Analytica는 플레이어의 정치적 성향을 캐내서 가짜 뉴스를 배달하는데 이용했고요. 캡챠 플러긴(ReCapcha)을 통해 모은 자료가 고서의 문자들을 인식하는 데 쓰인 일도 있죠.


데이터 플랫폼 노동자로서의 사용자

AI훈련용 데이터를 생산하기 위한 플랫폼이 등장한지 거의 10년이 다되어갑니다. Amazon Mechanical Turk을 필두로, Upwork, Crowdflower등의 플랫폼에서 일하는 노동자의 수도 무시못할 만큼 늘어나면서, 최저 임금과 같은 이슈가 학계에서는 꾸준히 다루어져 왔습니다. 구글 어시스턴트를 상대하는 점원들은 자신의 노동으로 훈련된 AI에 대해 조금이나마 지분을 갖게 될까요?

작가의 이전글 어도비에 방문한 Andrew Ng썰
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari