brunch

매거진 28th BITors

You can make anything
by writing

C.S.Lewis

인공지능이 만드는 목소리

연세대 경영혁신학회  28기 최수연


이제는 목소리까지 인공지능이 만들 수 있다


최근 딥페이크로 만든 영상들이 사회적으로 큰 이슈가 되고 있다. 인공지능 딥러닝 기술 기반으로 하는 이미지 합성 기술로 실존 인물의 얼굴이나 특정한 부위를 영화의 CG처리처럼 합성하여 감쪽같이 영상을 만들어낼 수 있다. 이처럼 우리가 생각하는 딥러닝을 활용한 합성 기술은 영상이 주류이다. 그런데 이제 목소리도 감쪽같이 만들 수 있다는 것을 아는가? 음성 AI 기술은 이미 대중화 단계에 들어섰다. 아마존, 구글, 애플 등 해외 기업들부터 국내에서는 삼성, 네이버, 카카오, SKT, KT 등 유수의 IT 대기업들이 음성 AI 시장에 뛰어들었다. 

 


음성을 글자로, 음성인식

음성AI의 핵심기술은 대략적으로 세가지로 나뉜다. 첫번째는 음성인식으로 음성을 텍스트로 옮겨주는 기술이다. 이는 이미 우리에게 친숙한 기술이다. 제조사를 막론하고 웬만한 스마트폰에서는 이러한 기술을 활용하여 고객의 음성을 받아적어 문자를 전송하거나 통역을 해주는 등 AI 비서가 내장되어있다. 또한 최근 급부상하는 전자기기인 AI스피커에도 이 기술이 핵심적으로 사용되고 있다. 

출처 | 삼성전자

글을 음성으로, 음성합성

다음으로는 음성합성, 텍스트를 음성으로 바꿔주는 기술이다. 이 역시 이전부터 있었다고 볼 수도 있겠다. 전자책 시장에서는 몇년 전부터 독자들에게 새로운 독서 경험을 주고자 TTS(Text To Speech)를 도입했다. 책의 텍스트를 오디오북처럼 읽어주는 것인데 기존의 오디오북은 따로 녹음을 거쳐야한다는 한계가 있었다면 TTS는 녹음 과정 없이 어떤 책이든 인공지능 음성이 바로 읽어줄 수 있다는 장점이 있다. 사실 TTS는 인공지능이 나오기 이전부터 있었던 기술이었지만 인공지능을 접목하면서 그 성능이 크게 향상되었다. 이전에는 사람의 목소리를 녹음한 후 한 음절씩 분할해 다시 합성하여 구현하는 것이라 높낮이가 어색하고 딱딱했지만 이제는 AI로 문장 성격에 따라 높낮이를 자동으로 조율하고 유명 배우의 음성을 따라 구현할 정도로 비약적인 발전이 이어지고 있다. 


여기서 한 발 더 나아간 음성합성 기술의 사례는 바로 네이버의 '클로바 더빙'이다. 이름대로 더빙을 해주는 서비스다. 그러나 여기서 사용되는 더빙 목소리는 전부 세상에 없는 목소리들이다. 인공지능이 합성한 서른 여덟개의 목소리로 진짜 사람이 하는 것 같은 더빙을 구현한다. 남자 여자는 물론이고 나이, 사투리, 기쁨-슬픔, 높음-낮음을 골고루 고려하여 아주 그럴싸한 목소리를 만들어냈다. 언어에 따라 달라지는 톤을 고려하여 언어별로 다양한 목소리들이 있다. 여기에 있는 모든 목소리들은 성우가 녹음한 것이 아니라 여러 목소리를 합성하여 만든 인공합성 목소리이다. 

출처 | 네이버 클로바더빙 https://clovadubbing.naver.com/


네이버 아이디만 있다면 클로바 더빙의 홈페이지(https://clovadubbing.naver.com)에 방문하여 무료로 이 서비스를 이용할 수 있다. 동영상 뿐만아니라 pdf에 발표대본을 입력하면 거의 아나운서님이 나 대신 읽어주는 발표 영상을 만들 수도 있다. 그냥 넘어가기에 아쉬워서 필자도 한번 만들어봤다. 정말 사람이 말하는 것처럼 그럴싸하지 않은가?




음성을 음성으로, 음성변환

마지막으로는 음성들끼리 변환을 해주는 기술이다. 이를 이용한 서비스는 아직은 없지만 최근 이를 활용하여 새로운 아이템이 나올 움직임이 보이고 있다. 지난달 런칭한 엔씨소프트의 케이팝 엔터테인먼트 플랫폼 '유니버스'에서는 아티스트들의 실제 목소리를 활용해 개발한 AI 보이스로 고객이 원하는 시간과 상황에 맞춰 프라이빗 음성 메세지를 보내는 서비스로 본격적인 음성변환을 활용한 비즈니스를 시도하려고 한다. 아티스트는 한 명이지만 그의 목소리를 복제하여각 고객 한 명 한 명이 원하는 내용을 그 목소리로 말해주는 음성을 본격적으로 상품화하여 팔 수 있게 된 것이다. 아직은 미개척 시장이지만 이미 출시 전부터 팬들의 반응은 뜨겁다.  

출처 | 엔씨소프트 블로그

양 날의 칼인 음성변환

그러나 음성변환 기술이 발전함에 따라 어떤 이의 목소리를 완전히 베낄 수 있는 것에 우려를 표하는 목소리도 점점 커지고 있는 것도 사실이다. 음성변환 역시 영상 딥페이크 기술처럼 가짜 콘텐츠를 생산해 내 가짜 뉴스나 범죄에 사용될 여지도 있기 때문이다. 이에 발 맞춰 학계에서는 데이터를 일반에 공개하는 등 집단지성으로 '가짜'를 구별하는 기술의 개발 역시 촉진하는 것이 바람직하다는 견해가 나오고 있다. 필자 역시 목소리를 복제한다는 것이 비단 복제에만 그치는 것이 아니라 상업적으로 활용되었을 때 어떤 이의 아바타가 상품처럼 판매되는 것이 우려스럽다. 실제로 복제 인간을 만드는 것이 아니더라도 모바일 속에서라도 딥페이크와 음성변환 기술을 통해 정말 그 사람처럼 감쪽같이 만들 수 있다면 여기에도 비슷한 윤리적인 문제가 발생하고 이를 어떻게 극복하고 다음 단계로 넘어갈지에 대한 논의가 꼭 필요하다고 생각한다. 






산업공학과 17 최수연

csyeon@yonsei.ac.kr


매거진의 이전글 착한 기업, 강한 기업
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari