영상과 더불어 음성을 인식하고 생성하는 기술은 앞으로 IoT 콘텐트의 핵심이 될 것으로 보입니다. BTS가 나만을 위한 생일 축하 메시지를 보내주거나, 돌아가신 부모님이 목소리를 구현해 주는.
국내 네오사피엔스라는 스타트업이 있습니다. 음성생성 분야에서 세계적으로 상당히 앞서있는 회사입니다. 지난해 6월 북미 정상회담을 앞두고 도널드 트럼프의 한국어 연설을 구현해 화제를 모은 바 있습니다. 40분~1시간 정도 깨끗한 음성을 머신러닝 시키면 그 사람의 목소리 톤과 억양 등을 학습해 텍스트 메시지를 그 사람의 목소리로 구현합니다.
발음 등이 아직 온전히, 깨끗하게 구현되지는 않지만 시간이 지나면 좋아지리라 생각합니다. 최근 트위치에서 방송하는 너겟이란 BJ도 방송 중에 음성생성 기술을 사용해 유저들의 재미를 끌어내고 있죠. 너겟로이드라고 불리는데 너겟의 목소리로 댓글을 읽어주니 너겟끼리 대화하는 것 같은 효과를 내고 있습니다. 삼성전자 C랩을 비롯해 국내 많은 기업들이 지원하고 있습니다.
이 기술을 개발한 김태수 대표님을 만나봤습니다. 젊은 나이에 많은 경력을 쌓으셨더군요. 유쾌하고 에너지가 넘쳐 보였습니다.
Q. 음성생성 기술을 개발하게 된 계기는.
A. 문자음성 자동변환 기술(TTS)은 1990년대 본격적으로 나왔고, ARS·공공장소 안내 방송 등 제한적으로 사용됐다. 여기에 딥러닝 기술이 접목돼 굉장히 자연스러운 음성을 생성할 수 있게 됐다. 지난해 구글이 기계 음성이 전화해서 예약하는 AI 듀플렉스를 선보이기도 했다. 앞으로 원하는 앵커의 목소리로 24시간 뉴스를 들을 수 있고, 좋아하는 연예인의 음성으로 메시지를 받을 수 있다. 개인화된 미디어로도 발전할 수 있다.
Q. 어느 누구의 목소리라도 생성할 수 있나.
A. 이미 깔끔하게 녹음된 음성이 있다면 다 가능하다. 녹음된 음성을 AI에게 40분~1시간가량 학습을 시키고, 여기에 원하는 문장을 입력해 음성을 만든다.
Q. 음성 생성 기술을 어떻게 상용화할 수 있나.
A. 놀이 문화에 사용할 수 있다. 현재 유튜브 등 온라인 방송의 경우 시청자가 BJ에게 돈을 기부하면 기부자의 댓글을 기계 음성이 읽어준다. 이를 BJ 목소리로 바꾸면 BJ가 자신과 대화하는 것 같은 효과가 난다. 이를 사용자나 할아버지 등 다양하게 바꿀 수 있다. 실제 최근 젊은 사용자들이 이런 서비스에 즐거워한다. 1인 제작자가 음성 드라마나 여기에 삽화를 넣은 영상을 만들 수 있다. 지난해 5월 트럼프 대통령의 목소리로 '더 퀴즈 라이브' 방송을 하기도 했다.
Q. 엔터테인먼트 분야로도 가능성 열려 있나.
A. 음성생성 기술은 가상의 연예인이자 연기자다. 만약 성우에게 음성 드라마를 맡기면 녹음실 임대 등 돈이 많이 드는 데 비해 음성생성은 굉장히 저비용이다. 사람들의 기호는 다양하다. BTS가 댓글을 읽어주는 등 여러 요구에 대응할 수 있다. 물리적 한계가 없기 때문에 연예인들은 자신의 시간을 할애하지 않고도 많은 대중들에게 서비스할 수 있다. 직접 발로 뛰지 않아도 더 많은 수입을 창출할 수 있다.
Q. 연예인 목소리의 희소성은 떨어질 수 있지 않나.
A. 음원의 경우 CD에서 스트리밍으로 넘어오면서 가수들의 라이브콘서트 가격이 기하급수적으로 올랐다. 오리지널의 가치는 더욱 오를 수 있다. 과거 축음기의 발명으로 부자에게 귀속됐던 가수들이 대중 스타로 신분이 상승했고, 이때부터 밀리언셀러도 등장했다. 앞으로 발전 방향은 지켜봐야 한다.
Q. 목소리가 같아도 영상 속 입모양이 다르면 어색하지 않나.
A. 현재 영상 속 입모양을 바꿔주는 기술을 가진 영국 스타트업과 협업 중이다. 음성의 발음에 맞춰 영상 속 인물의 입모양을 바꿔준다. 우리 기술을 사용해 BBC 앵커가 라틴어를 하게 하면 영상 속 앵커의 입모양도 발음에 맞춰 변한다. 대화 엔진과 비디오 홀로그램을 사용하면 사용자와 직접 대화하게 될 수도 있다. 한류 스타들이 인도네시아·베트남·태국 등 해외 팬들에게 조금 더 친숙하게 다가설 수 있다.
Q. 영어보다 딥러닝 학습량이 적은 한국어는 수준이 떨어지지 않나.
A. 어느 개발사도 문맥에 따라 자연스럽게 톤을 결정해 말하는 기술은 갖고 있지 않다. 감동받고, 놀라고 화나는 등의 감성을 표현하는 데까지는 시간이 걸릴 것으로 본다. 여러 상황에 대한 데이터와 모델링이 필요하다. 현재 네오사피엔스가 세계적으로 꽤 앞서가는 편인데, 현재 추세라면 한국어도 수준이 떨어지진 않을 것이다.
https://youtu.be/K5kCJ5hGck8
Q. 음성 생성 분야에 경쟁사가 있나.
A. 해외에서는 버락 오바마 대통령의 음성을 생성해 화제가 된 라이어버드가 가장 유명하다. 넷플릭스의 보이스피싱 관련 다큐멘터리에 등장하기도 했다.
Q. 언제부터 수익이 발생할 것으로 보나.
A. 현재도 매출은 일어나고 있다. 보통 새 기술은 기존 기술이 못하던 것을 하지만, 기존 기술보다 못한 점도 있다. 시간은 다소 걸릴 것이다. 스마트 어시스턴트처럼 감성이 필요하거나 그간 비싸서 못한 콘텐트의 제작 등 기존에 없던 시장이 열리면 매출이 커질 것이다. 돌아가신 분들의 음성을 복원해 주는 가족 서비스나, 대기업 기념관에 창업주 음성을 재현해주는 서비스 등은 현재도 진행 중이다.
Q. 언제부터 음성생성 기술에 관심을 가졌나.
A. 한국과학기술원(카이스트)에서 전자공학을 전공하고, 바이오 및 뇌공학으로 박사를 받았다. 그때부터 쭉 관심을 가져왔다. LG전자와 퀄컴에서 스마트폰의 음성 인식 등 소리와 관련된 일을 줄곧 해왔다. 스마트폰 마이크가 사용자 음성을 항시 인식해 반응하는 기술을 퀄컴에 다닐 때 세계 최초로 개발해 2012년 모바일월드콩그레스(MWC)에서 공개하기도 했다.
Q. 음성생성이 범죄에 악용될 것이란 우려도 있다.
A. 극복해야 하는 문제다. 자동차가 처음 나왔을 때 위험하다는 비판이 있었지만 도로 사정과 신호체계, 대중들의 교통안전 의식이 향상되면서 우려가 사그라들었다. 음성생성을 남을 속이는 데 사용하는 것은 엄연한 범죄다. 성대모사를 통해 남을 속이는 것과 본질은 같다. 범죄냐 아니냐, 이에 대한 사회적 의식과 대중의 컨센서스가 생길 것이다.
Q. 특정 기업이 개발한 신기술의 악영향을 사회가 모두 함께 나눠야 한다는 뜻인가.
A. 어느 회사가 신기술을 독점적으로 개발하고 있다고 한다면 그는 사기다. 사회 트렌드 변화에 따라 기술도 개발되기 때문이다. 회사의 존망이 걸린 일이기 때문에 기업과 개발자는 기술 악용을 막는 데 최선을 다할 것이다. 음성생성의 경우 음성이 사용된 경우를 찾아내 사후 대응할 수 있는 시스템을 구축하고 있다. 음성생성의 부작용은 대부분 예측 가능하기 때문에 여러 방면으로 대응 노력을 하고 있다.
Q. 기술 창업에 어려운 점은 없었나.
A. 기술 창업은 시간이 오래 걸린다. 창업이 활성화되려면 대학과 연구소에서 스핀오프(독립)하는 프로젝트가 많아야 한다. 정부 지원금은 스타트업보다는 대학·연구소에 지원하는 것이 낫다. 벤처캐피탈 등은 투자 기간이 짧기 때문에 기초 연구는 대학·연구소 중심으로 가되 이후 사업화 고민이 필요하다. 또 대학과 연구소는 각각의 연구결과를 모두 열고 공유하는 문화가 자리 잡길 바란다.