이 목소리, 진짜일까?

수퍼톤 대표·서울대학교융합과학기술교수 이교구

by 경영로스팅
AI가 사람의 목소리를 흉내 낼 수 있다면, 그 감정까지도 복제할 수 있을까?

이교구 슈퍼톤 공동창업자의 물음은 단순한 기술적 의문을 넘어서, 우리가 일상 속에서 가진 ‘목소리’와 ‘감정’에 대한 본질적인 질문을 던진다. 목소리란 단순한 소리의 파동이 아니다. 그것은 사람의 존재가 드러나는 통로다. 이제 그 통로를 AI가 차지할 수 있다는 사실, 그것이 과연 진짜라 불릴 수 있을까?


기술은 어느 순간, 우리 삶에 너무 깊숙이 스며들어 우리가 그것을 넘어서 보지 못하게 만든다. 슈퍼톤은 AI 음성 기술을 이용해 고인의 목소리까지 되살리는 꿈을 꾸었다. 고인의 목소리 속에 담긴 감정까지 복제할 수 있다는 가능성은 이제 더 이상 영화 속 상상이 아니다. 우리는 그 복제된 감정을 듣고, 그것이 진짜인지 묻는다. ‘진짜’라는 단어가 얼마나 무겁고, 또한 얼마나 애매한지, 그 무게를 AI 음성 기술이 시험하고 있다.


슈퍼톤은 2016년, 이교구 공동창업자가 음성 합성의 한계를 뛰어넘기 위한 도전을 시작한 회사다. 그들은 단순히 목소리를 복제하는 기술을 넘어서, 사람의 목소리를 ‘사람’처럼 느껴지게 만드는 기술을 개발했다. 슈퍼톤의 기술은 이제 단순한 복제에 그치지 않는다. AI 음성은 감정까지 담을 수 있는 능력을 가졌다. BTS의 음성을 기반으로 만든 ‘슈퍼톤 싱어’는 이 기술의 상업적 가능성을 입증하며, 2021년 HYBE에 인수되었다. 현재 슈퍼톤은 AI 음성을 활용해 가수들의 목소리를 복제하고, 맞춤형 음성 합성 서비스를 제공하고 있다.


그러나 AI 음성 기술은 단순히 목소리를 복제하는 데 그치지 않는다. 그 안에 담긴 감정의 진위가 문제다. AI가 만든 감정은 과연 ‘진짜’일까? 우리가 고백하는 사랑, 숨을 죽인 슬픔, 마음속에 가득 찬 분노. 이 감정들이 이제 컴퓨터 프로그램 속에서 태어난다. 감정이 복제된 AI 음성이 사람들의 마음을 움직일 수 있을까? 아니면 그것은 단지 기계가 만들어낸 ‘가짜’ 감정에 불과한 것일까?


AI가 감정을 복제한다고 할 때, 우리는 그 복제를 단순히 기술적인 혁신으로만 받아들일 수 없다. 그 감정이 담긴 AI 음성이 사람들의 마음을 울린다면, 그 감정이 진짜로 감동을 주는 것인지, 아니면 그저 계산된 감동에 불과한 것인지 의문을 품게 된다. 이 복제된 감정이 과연 ‘진짜’ 감정의 본질을 담아낼 수 있을까?


AI 음성 기술은 이제 기술적인 차원을 넘어서, 감정의 본질을 ‘훔친다’고 해도 과언이 아니다. ElevenLabs, Resemble AI, Play.ht와 같은 기업들이 감정을 담은 음성 합성을 제공하며, 창작의 영역을 넘어 교육, 상담, 치료 분야까지 영향을 미친다. 2024년, AI 감정 목소리로만 구성된 오디오 드라마가 아이튠즈 상위권에 올랐고, 유튜브에서는 AI 성우가 연기한 뉴스가 수백만 뷰를 기록했다. 그 소리는 단순히 소리의 파장이 아니다. 그것은 감정의 진동, 마음의 흔들림을 전달하는 매개체가 된다.


우리는 이제 목소리의 진위만을 묻지 않는다. 그 안에 담긴 감정의 진위를 묻는다. ‘이 감정은 진짜인가?’ 이 질문은 단순한 기술적 궁금증을 넘어서, 우리가 ‘진짜’를 어떻게 구별하고, 어떻게 믿을 것인지를 묻는 철학적 질문이 된다. 초음파 워터마킹 기술은 그 진위를 판별하는 첫 번째 시도다. AI가 만든 목소리의 진위를 판별할 수 있는 능력을 부여하는 이 기술은, 우리에게 ‘진짜’와 ‘가짜’를 구별할 기준을 마련해 준다.


그러나 감정의 진위를 묻는 것은 단지 기술적 문제만이 아니다. 우리가 경험하는 감정은 ‘진짜’라고 부를 수 있는 것일까? 감정은 뇌의 화학작용에 불과한 것일까? AI는 인간의 감정을 복제하려고 시도한다. 그렇다면 그 복제된 감정은 인간을 얼마나 더 잘 이해하고, 그 이해로 사람들에게 다가갈 수 있을까?


AI 음성 기술이 영화, 오디오북, 게임, 메타버스에서 감정을 담아내는 방식은 기존의 콘텐츠 산업에 전례 없는 변화를 일으킨다. 감정을 복제한 AI 음성이 사람의 감정을 어떻게 반영하고, 어떻게 진실을 전할 것인가? 그것은 단순히 기술의 발전으로 끝날 일이 아니다. 그 감정의 진실성과 가짜의 경계는 우리의 삶을 어떻게 재구성할 것인가에 대한 문제로 다가온다.


AI 음성 기술은 그 자체로 윤리적 문제를 동반한다. 감정을 담은 AI 음성이 허위 정보를 전달하는 상황은 상상만 해도 끔찍하다. 선거에서, 심리상담에서, 종교적 메시지에서 감정의 진위가 중요한데, AI 음성이 그 진위를 왜곡한다면 그것은 더 이상 단순한 기술의 오류가 아니다. 우리는 이 기술을 사용할 때, 그 결과가 어떤 윤리적 책임을 지게 되는지를 반드시 고민해야 한다.


AI 음성 기술은 헬스케어 분야에서도 중요한 역할을 한다. 자폐 스펙트럼 아동을 위한 감정 학습 음성, 우울증 환자를 위한 정서 반응형 대화 모델, 고령자를 위한 디지털 동반자. 감정을 담을 수 있는 AI 음성은 이제 그저 기술을 넘어서 사람들의 삶을 바꿀 수 있는 힘을 지니게 되었다. 기술이 사람을 돕는 도구로 사용될 때, 그 기술은 단순히 효율성을 넘어 인간적인 가치를 지니게 된다.


소수 언어의 시장은 AI 음성 기술에 큰 기회를 제공한다. 영어, 중국어, 스페인어와 같은 주요 언어 시장이 포화 상태에 이른 지금, 인도 방언, 인도네시아어, 아프리카 언어들에서는 AI 음성 기술의 잠재력이 더욱 두드러진다. Vernacular.ai는 인도의 10개 지역 언어를 지원하며, Kata.ai는 인도네시아에서 시장 점유율 1위를 기록하고 있다. 이 소수 언어 시장의 성장은 단순한 경제적 확장이 아니라, 문화적 가치와 디지털 격차를 줄이는 데 중요한 역할을 한다.


AI 음성 기술의 발전은 전 세계 언어의 다양성을 포용하며, 디지털 격차를 해소하는 중요한 도전이 된다. 특히, 유네스코가 경고한 7,000여 개 언어의 소멸 위기를 해결하기 위해, 음성 AI는 중요한 역할을 할 것이다. 이 기술은 이제 전 세계 다양한 언어와 문화를 포용하는 기회가 된다.


AI 음성 기술의 진화는 단순히 ‘기술’이 아니다. 그것은 우리가 인간과 감정, 그리고 기술 사이의 경계를 어떻게 다시 정의할 것인가에 대한 문제다. 감정이 복제된 AI 음성이 인간의 감정을 얼마나 잘 이해할 수 있을지, 그리고 우리가 그것을 얼마나 믿을 것인지를 묻는 문제로, 이 기술은 우리의 존재와 감정을 되돌아보게 만든다. AI가 만든 감정은 진짜일 수 있을까? 그것이 우리가 질문하는 진짜 ‘감정’에 다가갈 수 있을까?


결국, 우리는 이 질문을 통해 더 큰 질문에 다가간다. 진짜와 가짜의 경계는, 우리가 인간으로서 느끼는 감정이 무엇인지를 결정짓는 것이다. AI가 만든 감정은 우리의 진짜 감정을 담아낼 수 있을까? 아니면, 그 감정은 단지 기계적인 연출일 뿐일까? 기술이 만든 감정은 결국, 우리가 그것을 어떻게 받아들이고 이해할 것인지를 묻는 문제로 남을 것이다.

keyword