brunch

You can make anything
by writing

C.S.Lewis

by 테크M Oct 16. 2020

김정은의 진짜 같은 '가짜 목소리'의 실체,음성합성기술


최근 화제가 된 김정은 북한 국무위원장의 영상이 있습니다. 영상 속의 김정은 위원장은 '아무것도 하지 않으면 민주주의가 망한다'며 선거를 독려합니다. 진짜 김정은 위원장은 아닙니다. 미국의 한 시민단체가 만든 이른바 '딥페이크' 영상입니다. 얼굴은 물론 목소리까지 똑같습니다.


UC버클리가 페이스북 창업자인 마크 주커버그가 이야기하는 모습, 엘리자베스 워렌 미국 상원의원, 오바마 전 미국 대통령의 연설 등 가짜 인물들이 나와 실제 인물과 구별하기 힘든 이야기를 늘어놓는 장면도 보입니다.  



사진=RepresentUs 영상 캡쳐


기술은 이제 우리의 목소리까지 만들어내고 있습니다. 내가 무슨 말을 했는 지도 모르는 사이에 딥페이크 영상 속의 내가 무언가를 말하고 있을 수 있습니다. 인간만이 가능했던 영역 '의사소통'에 기술이 넘어오고 있습니다. 이걸 가능하게 하는 한 축인 '음성 합성 기술'에 대해 짚어보려 합니다.


'인공지능' 덕에 날개 단 음성 합성 기술


'음성 합성 기술'은 말소리의 음파를 기계가 자동으로 만들어내는 기술입니다. 목소리를 녹음하면 일정한 음성 단위로 분할합니다. 마치 피자 조각 자르듯 말이죠. 이 조각을 냉동실에 얼려놓고 필요할 때마다 꺼내 먹듯 조각낸 음성 단위 역시 단위별로 합성기에 넣어둡니다. 필요할 때마다 필요한 음성 단위를 다시 꺼내 합하고요. 


일명 '봇'이 읽는 글이 로봇 몸처럼 뚝뚝 끊기는 경우 들어보셨을 겁니다. 지금도 여러 유튜브 채널을 돌다보면 이런 음성이 무언가를 들려주는 경우를 종종 마주하실 수 있을 겁니다. 듣는 사람 입장에서 부자연스러운 것도 문젭니다. 더 문제는 이걸 찾아내 덕지덕지 이어 붙이는 데 걸리는 시간도 만만치 않다는 것입니다. 1950년대부터 연구된 음성 합성 기술이 기술의 장벽을 넘지 못했던 이유입니다. 1990년 당시 선두 인터넷 기업이었던 '야후'가 관련 기술을 열심히 연구했지만 2010년 대까지만 해도 기술은 사람을 쉽게 따라오지 못했습니다. 흉내만 냈을 뿐이죠. 


이 문제는 '인공지능'을 만나 해결되기 시작합니다. 구글은 2017년 음성인식기술 타코트론(Tacotron)과 구글 딥마인드가 개발한 웨이브넷(Wavenet)을 합해 더 강력한 음성인식기술 '타코트론2'를 내놨습니다. 비결은 마치 사람의 뇌를 그대로 옮겨놓은 듯한 훈련된 신경망이었습니다. '음....어....' 이렇게 사람들이 말을 하면서 쓰는 추임새까지 자연스럽게 구사하는 수준에 이르렀죠.


물론 한계는 있었습니다. 실시간으로 대응할 수 없었고 행복한 음성, 슬픈 음성 등 감정을 표현할 수는 없었습니다. 인간의 말과 사람의 말을 구분하기 힘들 정도로 정교한 음성을 구성해냈다는 것은 그러나 아주 큰 의미였습니다. 


아마존도 2016년 11월 개발자 행사를 통해 '폴리'라는 서비스를 공개합니다. 마찬가지로 신경망 텍스트 음성 변화 기술인 NTTS를 통해 품질을 높였습니다. 


내 목소리 듣고 나를 대신해주는 '인공지능 비서'


앞서 말씀드린 딥페이크에 사용되기 위해 개발된 기술은 아닙니다. 스마트폰 보급이 포화에 이르면서 음성 합성 기술이 가장 눈독 들이고 있는 분야는 '인공지능 스피커'입니다. 인공지능 스피커는 인공지능 가상비서가 활약하는 주무대입니다. 4차 산업혁명의 대표기술과 인간과의 접점이 되어주는 곳이죠. 인간에게 어려운 건 컴퓨터에 쉽고 인간에게 쉬운 건 컴퓨터에 어렵다는 '모라벡의 역설'이 깨지고 있는 영역입니다. 


'HeyGoogle'로 알려진 구글의 음성인식 가상비서와 아마존의 '알렉사'는 실제로 가전을 비롯한 IOT 기기들을 선점하기 위해 경쟁하고 있습니다. 미국 뿐 아닙니다. 중국의 바이두는 이미 2017년 딥러닝 기술을 적용한 음성합성기술 딥보이스를 세번째 버전까지 내놓았습니다. 이를 기반으로 가정용 인공지능 비서 샤오위를 공개하기도 했죠. 스피커 속에 들어가 있는 인공지능 비서는 나 대신 미용실이나 식당 예약도 해줍니다.  너무나 인간과 흡사한 목소리로 말이죠.


우리나라에서 통신사들이 인공지능 스피커를 활용하고 있습니다. 대표적인 게 KT의 '기가지니'죠. 2018년 개그맨 박명수씨의 음성을 합성해 만든 퀴즈 게임 '박명수를 이겨라'를 선보인 이후에도 다양한 서비스를 개발해 왔습니다. 부모가 300 문장만 녹음하면 음성 합성 기술을 통해 기가지니가 부모의 목소리로 아이에게 책 한 권을 처음부터 끝까지 읽어주는 소리동화 서비스가 대표적입니다. SK텔레콤 역시 인공지능 스피커 '누구'를 출시하고 걸그룹 레드벨벳 아이린의 목소리를 적용했습니다. 알람, 스케줄 알림까지 가능하죠. 


포털도 마찬가집니다. 네이버는 '클로바'라는 음성합성기술을 이용해서 짧은 시간의 녹음으로 자연스런 목소리를 구현하는 기술을 갖췄습니다. 특정 분야에 필요한 목소리 특성을 살려 최고 품질의 합성음을 만드는 HDTS와 특정 분야에 대한 제약 없이 짧은 녹음 시간 만으로 사람같은 목소리를 제작하는 NES를 바탕으로 오디오북을 읽어주는 인공지능 목소리, 문장을 입력하면 AI가 동영상 콘텐츠에 목소리를 입혀주는 클로바 더빙 서비스를 제공중입니다. 


네이버는 합성한 음성에 감정도 실었습니다. '슬픈 목소리'나 '기쁜 목소리'를 나눠 제공하죠. 카카오도 음성 합성과 딥러닝을 접목해 '딥보이스'를 개발했습니다. 카카오 역시 인공지능 비서 플랫폼 카카오i를 갖고 있죠. 이걸 탑재한 '헤이카카오' 앱과 인공지능 스피커인 카카오미니를 통해 다양한 기기에서의 뉴스 읽기 서비스 등에 활용하고 있습니다. 


삼성전자의 빅스비도 1000개의 문장을 딥러닝으로 합성시켜 녹음하지 않은 문장까지 음성으로 구현해냈습니다. 수년 전만 해도 음성 합성을 위해 4000시간이 걸렸다면 여기 걸린 녹음 시간은 단 9시간이었습니다. 


게임 캐릭터에도 '합성 목소리' 입힌다... 뉴스도 'AI앵커'


음성 합성 기술이 인공지능 스피커에만 활용되는 건 아닙니다. 게임 즐기시는 분들은 아시겠지만 게임 캐릭터에는 고유의 매력이 있죠. 다른 목소리, 다른 외모를 갖고 있습니다. 온라인 상의 또 다른 나인 '캐릭터'에 새로운 목소리를 입힐 수도 있습니다. 엔씨소프트는 '사투리' 음성까지 만들어 냈을 정도입니다. 엔씨소프트의 스피치 AI 랩 음성합성팀은 게임 속 수많은 캐릭터의 음성을 AI 합성음으로 만드는 기술을 개발중입니다. 최근엔 음성합성팀의 '뉴럴 보코더' 기술이 국제학회에 승인되기도 했습니다. 언젠가는 내 게임 캐릭터가 내 목소리를 내는 날도 올 것 같네요. 좀 더 실감나게 게임을 즐길 수 있겠죠? 


최근 MBN에선 김주하 앵커가 AI 뉴스 예고를 진행하고 있습니다. 자세히 보면 가짜라는 걸 알 수 있지만 얼핏 봐서는 잘 모르겠는 수준까지 이르렀습니다. SK텔레콤은 클라우드 콜센터를 만들고 '진짜 사람' 같은 AI  고객 응대 서비스도 제공한다고 합니다. 


게임, 뉴스, 콜센터 외에도 일상 속 많은 부분에서 음성 합성 기술이 활용될 수 있습니다. 앞서 들어드린 예와 마찬가지로 누군가를  완벽히 따라할 수 있다는 건 그만큼 범죄나 악용의 소지도 늘어난다는 것을 의미합니다. 언젠가 나를 똑같이 닮은 로봇이 내 목소리로 이야기를 하며 내 앞에 앉아있는 날도 '영화' 속이 아닌 실제 장면이 될 수 있지 않을까 생각해봅니다.


기술이 인간의 편이 되느냐, 적이 되느냐는 진부하지만 결국 인간 손에 달렸습니다. 사회적 합의와 그에 걸맞는 제도가 기술 발전의 속도에 맞게 성숙해야 하는 이유입니다. 



매거진의 이전글 거래수수료 넘어 '코인 금융' 노리는 곳들
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari