최신 TTS(AI 음성 기술) 동향 및 국내외 주요 서비스 by 정작가
최근 유튜브 커뮤니티가 떠들썩했습니다. "TTS 쓰면 수익화 금지된다더라", "AI 콘텐츠는 이제 끝이야" 같은 얘기들이 여기저기서 들려왔거든요. 하지만 직접 찾아보니 이런 루머들은 대부분 사실이 아니었습니다.
(*TTS : Text To Speech의 줄임말로 AI를 이용하여 텍스트를 음성으로 합성하는 기술을 말합니다.)
유튜브가 발표한 정책은 "무분별하게 생성된 가치 없는 콘텐츠"를 타깃으로 한 것이지, TTS 자체를 금지한 게 아닙니다. 유튜브 크리에이터 커뮤니케이션 책임자 르네 리치는 "이번 변경 사항은 기존 수익 정책에 대한 사소한 업데이트"라며 "대량 제작되는 콘텐츠나 반복적인 콘텐츠를 더욱 잘 식별하기 위해 고안됐다"라고 명확히 했습니다. AI나 TTS를 사용한 콘텐츠라도 독창성이 있고 사람의 노력이 들어가 있다면 전혀 문제가 없다는 게 유튜브의 공식 입장입니다. 그럼 도대체 어떤 콘텐츠가 문제가 되는 걸까요? 바로 대충 만든 저품질 콘텐츠들이죠. 남의 영상에 자막만 붙이거나, 똑같은 포맷으로 찍어내듯 만든 영상들. 이런 건 애초부터 수익화 대상이 아니었습니다.
사실 TTS는 개인 크리에이터들에게 엄청난 기회를 준 기술입니다. 전문 성우를 구할 여건이 안 되는 개인도, 목소리 콤플렉스가 있는 사람도 자유롭게 콘텐츠를 만들 수 있게 해 줬거든요.
요즘 숏폼에서 들리는 재미있는 목소리들, 대부분 TTS로 만든 거예요. 특히 타입캐스트의 '발키리'나 '덕춘이' 같은 캐릭터들은 이미 하나의 문화 현상이 되었죠.
최근 AI의 발전으로 인해 거의 실제 목소리와 구분할 수 없을 정도로 진화한 TTS 서비스 들에 대해 알아보도록 하겠습니다.
그럼 현재 대표적인 국내 TTS 서비스는 어떤 것들이 있는지 살펴볼까요?
현재 국내에서 가장 유명한 TTS 서비스입니다. 국내 유튜브 콘텐츠에서 사용하는 TTS는 70~80% 이상이 거의 타입캐스트라고 보아도 무방합니다. 500개가 넘는 다양한 캐릭터를 제공하고 비용도 구독제이기 때문에 많은 분량의 음성을 생성해야 하는 유튜브 콘텐츠에 적합하다고 볼 수 있습니다.
네이버에서 만든 TTS 서비스로, 한국어에 있어서는 최고의 품질을 들려주고 클로바 더빙 앱을 통해 간편하게 사용할 수 있습니다. 비영리 목적으로는 클로바 더빙 출처를 밝히고 무료사용도 가능하고, 상용서비스나 출처 없이 사용하고 싶을 때는 유료플랜을 사용해야 합니다.
(Tip: 유튜브 제작은 출처를 밝히고 무료로 사용이 가능합니다.)
국내 AI 스타트업으로 몇 년 전 방송에서 고 김광석 가수의 목소리를 재현한 것으로 유명합니다. 이후 BTS 소속사 하이브의 투자를 받아 본격적으로 음성 서비스 개발에 착수하였으며, 150종 이상의 다양한 목소리를 제공합니다. 특히 음성 복제(보이스 클로닝)이나 실시간 음성 변조 등의 최신 기술을 선보이며 AI 보이스 업계에서 주목받고 있습니다.
다음은 해외 주요 AI 보이스 서비스입니다.
국내에 타입케스트가 있다면, 글로벌 시장에서 가장 주목받는 AI 보이스 서비스는 일레븐랩스입니다. 많은 해외 유튜버들이 이 서비스를 사용하고 있으며, 게임, 팟캐스트, 오디오북 등에서 업계의 표준으로 자리 잡았습니다. 앞서 언급한 음성 복제(보이스 클로닝) 기술에 강점을 가지고 있으며, 짧게는 5분에서 길게는 30분 정도의 분량을 녹음하면 목소리를 완벽하게 재현할 수 있습니다. 한국어 제공도 일부 가능하며 다양하지는 않지만 아주 자연스러운 고품질의 목소리를 들려줍니다.
국내에는 다소 생소한 이 스타트업은 얼마 전 메타가 24억 달러에(한화 약 3조 3천억 원) 인수하여 화재가 되었는데요. 직원 10명의 5년 된 회사가 이런 가치를 가지는 것이 앞으로 AI 음성이 얼마나 발전할 것인지 보여주는 것 같습니다.
TTS의 미래를 이야기할 때 빼놓을 수 없는 게 바로 AI와의 결합입니다. 예전에는 AI 스피커로 날씨 물어보고, 뉴스 듣고, IoT 기기 조작하는 정도였다면, 이제는 정말 '대화'할 수 있는 AI 에이전트로 진화하고 있습니다.
ChatGPT에서도 보이스 모드가 제공되면서 실시간으로 자연스러운 대화가 가능해졌어요. 텍스트로만 소통하던 AI가 이제 진짜 사람처럼 말하고 반응하니까, 완전히 다른 차원의 경험을 주는 거죠.
최근 '캐릭터 AI' 분야가 급속히 발전하고 있는데 일론 머스크가 이끄는 xAI의 Grok에서도 여성 캐릭터와 자연스러운 음성으로 상호작용하는 모습을 선보여 화재가 되었습니다.
유튜브, 광고, 게임, 오디오북, 팟캐스트에서 성우를 대체하는 것 외에도 실시간 통역, 고객센터(ARS), 외국어 교육 분야 등에서 AI 보이스는 핵심 기술로 활용되고 있으며, 곧 영화 'Her'에 등장하는 개인 AI 비서 시장이 본격적으로 열릴 것으로 예상됩니다.
음성은 인간이 가장 자연스럽게 사용할 수 있는 인터페이스입니다. 이미 오래전부터 음성으로 기계와 소통하려는 시도들이 있었지만, 기술적 제약이나 부자연스러움 때문에 제한적이었죠.
하지만 최근 LLM(대규모 언어모델)의 발전과 감정까지 표현할 수 있는 자연스러운 TTS 기술이 만나면서 이제는 AI와 대화하는 게 전혀 어색하지 않을 정도로 발전하고 있습니다.
음성이라는 가장 자연스러운 인터페이스를 통해 AI와 진정한 대화가 가능해진 지금, 우리는 새로운 디지털 경험의 문턱에 서 있습니다. 그러나 기술의 발전과 함께 윤리적 고려사항을 항상 염두에 두어야 하며, 음성 변조나 딥페이크 기술이 악용될 수 있는 점에 유의해야 합니다.