AI 도플갱어가 나 대신 출근했다

AI 아바타는 어떻게 만드는 걸까?

by 먀 ai

[2025년 10월 28일 먀 AI 뉴스레터로 발행한 글입니다.]


새벽 4시에 라이브 방송을 통해 상품을 소개하는 쇼호스트가 있습니다. 바로 이 분인데요.

AI 아바타로 만든 쇼호스트. 출처: 실리콘 인텔리전스

그녀는 새벽까지 일을 해도 피곤하지 않습니다. 새벽조는 AI 아바타가 출근하기 때문이지요. 위 이미지는 쇼호스트의 AI 아바타가 홈쇼핑을 진행하는 모습인데요. 감쪽같지 않나요?


AI 아바타의 모든 것

AI 아바타를 만들기 위해 가장 먼저 필요한 건 바로, 실제 인물의 영상 및 음성 데이터 수집입니다. 불과 몇 년 전만 해도 30분 이상의 영상이 필요했는데요. 요즘은 단 1분가량의 짧은 녹화본만으로도 대상 인물의 생김새, 표정, 말투, 목소리 등의 패턴을 복제할 수 있습니다.


방금 본 AI 쇼호스트를 만든 중국의 실리콘 인텔리전스(Silicon Intelligence)사는 1분 분량의 영상과 8,000위안(약 110만 원) 정도의 비용으로 실존 인물과 똑같은 AI 아바타를 만들어 준다고 합니다!


이런 AI 아바타는 어떻게 만들어지는 걸까요?


1단계: 목소리 만들기

AI 아바타의 목소리를 만들려면 가장 먼저 음성 복제를 해야 합니다. 음성 복제는 대상 인물의 목소리를 그대로 흉내 내어 어떤 문장이든 말하게 해주는 기술인데요. 최근에는 전화받는 목소리로 음성을 복제해 악용한 뉴스도 나왔는데요. AI는 이제 수 초 분량의 음성 샘플만으로도 인물의 말투와 음색, 억양, 그리고 말의 리듬까지 학습해 원하는 문장을 자연스럽게 읽도록 만들 수 있습니다.


AI가 사람 목소리를 복제하는 데도 여러 가지 방법이 있는데요. 대표적인 기술을 간략하게 살펴볼까요?


VALL-E: 작은 조각을 퍼즐처럼 맞추는 방식

VALL-E는 먼저 사람의 목소리를 작게 나눈 조각, 즉 '소리 토큰(token)'으로 바꿉니다. 글자를 음절로 쪼개듯이, 소리를 컴퓨터가 이해할 수 있는 단위로 바꾸는 과정이지요. 그런 다음 이 토큰들을 자연스럽게 이어 붙여 문장을 만들면, 입력된 음성의 말투나 억양, 그리고 감정을 그대로 복제해서 생성할 수 있습니다. 피곤한 목소리로 "잘 지냈어요?"라고 말한 짧은 음성 샘플을 입력하면, "안녕하세요?"라는 말도 피곤한 말투로 만들어지지요.


EXPRESS-Voice: 큰 덩어리를 점점 조각해 나가는 방식

EXPRESS-Voice는 목소리를 만들 때 전체 분위기부터 잡습니다. 이 사람이 어떤 말투로 말할지, 감정은 어떤지, 속도는 어떤지 큰 흐름을 먼저 쭉 그리는데요. '이 문장은 차분하게 말하다가 끝만 살짝 올리자' 같은 느낌을 먼저 정한 다음, 그 흐름을 바탕으로 정교하게 다듬는 방법입니다. 처음에는 흐름 위주로 톤을 대략 잡고, 두 번째 단계에서 '여기서는 혀를 조금 더 굴리자', '이 부분은 살짝 쉬어야 자연스럽겠어!' 식으로 세밀하게 고치는 방법이지요.


2단계: 입술과 표정 일치시키기

음성이 만들어졌다면, 이제 그 음성과 입술이 맞아야겠지요? 우리는 가끔 소리가 들리지 않아도, 입 모양 만으로도 하는 말을 맞힐 수 있을 만큼, 음성과 입 모양 일치는 중요한데요. 이때 쓰이는 기술 중 하나가 바이심 매핑(Viseme Mapping)입니다.


바이심 매핑은 사람이 말할 때의 입과 턱의 모양을 정의해, 특정 소리에 따라 분류합니다. 언어학적 음성 단위인 '음소'에 따라 영상 속 입 모양 단위인 '바이심'으로 변환한다고 볼 수 있습니다. 예를 들어 [b]와 [p] 발음은 모두 입술을 다물었다 열기 때문에 같은 바이심으로 매핑되겠지요?


실제 합성 과정에서는 턱이나 볼 근육 등 주변 표정 변화도 함께 조정해 자연스러운 결과를 만드는데요. 여기서 언어가 달라지면, 그 발음 체계에 맞춘 바이심을 따로 학습해야 합니다.

발음에 따른 입 모양 변화를 정의하고 기록하는 바이심 매핑 예시. 출처: 마이크로소프트

사람은 말을 할 때 입술뿐만 아니라 눈, 눈썹, 머리 움직임까지 연동되지요?


AI 아바타도 이런 미세한 표정 변화를 구현해야 합니다. 발음에 맞는 입 움직임과 얼굴 근육 변화를 만들어내야 하지요. 음성의 발음을 분석해 그에 상응하는 얼굴 동작을 합성하는 것이 바로 2단계의 목표입니다.


3단계: 손짓발짓 맞추기

마지막으로 몸짓과 제스처 생성입니다! 사람들은 무의식 중에 영상 속 인물이 얼마나 실제 인간처럼 자연스럽게 행동하는지를 감지할 수 있습니다. 애매하게 부자연스러운 부분이 있으면 금세 '불쾌한 골짜기'라고 불리는 위화감을 느끼게 되지요.

인간을 어설프게 닮아, 불쾌한 골짜기 예시로 자주 등장하는 로봇. 출처: KBS1

진짜 사람처럼 보이려면 단순히 입 모양만 맞아서는 안 됩니다. 고개를 끄덕이거나 손짓을 하는 등 전신의 제스처도 자연스러워야 하지요.


매번 얼굴이나 손동작을 새로 계산하면 너무 느리니까, 이미 배운 동작을 다시 활용하거나, 비슷한 움직임을 미리 만들어 두고 이어 붙이는 방식도 함께 사용되는데요. AI 쇼호스트가 "위에 있는 구매 버튼을 눌러주세요!"라고 말할 때는 화면 위쪽을 손가락으로 가리키고, 상품을 소개할 때는 화면 아래를 가리키는 것과 같이 어느 정도 정해진 움직임은 미리 준비할 수 있습니다.




자신의 AI 아바타를 만들어 본 MIT 테크놀로지 리뷰의 리아논 윌리엄스는 '시니컬하고 딱딱한 전형적인 영국인인 자신에 비해, AI 아바타는 말할 때 생기가 넘친다는 점'은 조금 다르지만, 전반적으로 아주 비슷하다고 말합니다. 곧 자기 자신과 대화할 수 있을 미래를 담담히 받아들이며, 그녀는 이렇게 후기를 마무리합니다:

리아논(왼쪽)과 그녀의 AI 아바타(오른쪽). 출처: 각각 링크드인 & MIT 테크놀로지 리뷰


울어본 적도, 사랑에 빠져본 적도,
마라톤을 완주해 본 적도 없는 AI 리아논은
행복이 뭔지 모른다.

하지만 그녀는 에드 시런이 영국 최고의 가수인 이유를 기가 막히게 설명할 수 있을 것이다.

그리고 오직 내 친구들과 가족들만이,
그건 진짜 리아논이 아니라는 걸 알아챌 것이다.



[먀 AI 뉴스레터]

구독하기: https://mmmya.stibee.com/


keyword
매거진의 이전글AI 뇌도 썩을 수가 있다고?