AI로 영상 만들기

전세계 모든 방법. 8장

by 토사님

Part IV. 포스트: 결대로 다듬는 기술

ChatGPT Image 2026년 2월 18일 오후 06_48_06.png

8장. 사운드: TTS·보이스클론·더빙·뮤직 생성(Suno/Udio/ElevenLabs 등)

자막·번역·접근성(다국어·오디오 디스크립션·색청중 고려)


18.1 목소리 설계 — 말하는 존재를 만드는 기술

영상은 화면으로 시작하지만, 사람은 목소리로 믿는다

어떤 영상은 화질이 거칠어도 끝까지 보게 됩니다.
반대로 어떤 영상은 4K인데도 10초 만에 꺼버립니다.


차이는 대부분 화면이 아니라 목소리에서 생깁니다.


사람은 눈으로 정보를 이해하지만,
귀로는 “존재”를 판단합니다.

잘 만든 음성은 설명이 아니라 화자를 만든다.


그래서 요즘 영상 제작에서 음성은 마지막 단계가 아니라
연출의 시작점이 되고 있습니다.


18.1.1 최신 TTS — 읽는 소리에서 연기하는 소리로

예전의 음성 합성은 “글 읽기”였습니다.

일정한 속도

같은 높낮이

감정 없음

그래서 정보 전달에는 쓸 수 있었지만
이야기에는 쓰기 어려웠습니다.


지금의 TTS는 다릅니다.
문장을 읽는 것이 아니라 상황을 해석합니다.


예를 들어 같은 문장도 이렇게 달라집니다.

“괜찮아요.”

상담 톤 → 따뜻하고 느림

다큐 톤 → 차분하고 낮음

광고 톤 → 밝고 또렷함

긴장 장면 → 짧고 건조함


이 차이는 단어가 아니라 호흡과 쉼에서 생깁니다.


그래서 음성 제작의 핵심은
텍스트를 잘 쓰는 것이 아니라
어떻게 말할지 지시하는 것입니다.


간단한 작성 방법

스크립트에 감정을 괄호로 적어줍니다.


예시:

(조용히) 오늘 이야기는 조금 다릅니다. (한 박자 쉬고) 우리는 늘 결과만 봅니다. (미소) 하지만 시작은 늘 작습니다.


이렇게 하면 AI는 단어보다 상황을 먼저 이해합니다.


좋은 음성은 잘 읽는 음성이 아니라
잘 멈추는 음성입니다.


18.1.2 보이스 클론 — ‘사람’을 만드는 단계

요즘은 목소리를 만드는 것을 넘어
“화자”를 만드는 작업으로 발전했습니다.


보이스 클론은 단순히 음색 복제가 아니라
영상의 정체성을 만드는 요소입니다.


왜 필요한가

채널이나 브랜드는 반복됩니다.
시청자는 내용보다 먼저 목소리를 기억합니다.

같은 사람이 말하는 느낌

같은 거리감

같은 성격

이 세 가지가 유지되면
영상은 시리즈처럼 느껴집니다.


즉 보이스 클론의 목적은
편리함이 아니라 일관성입니다.


실전 사용 팁

처음부터 완벽한 음성을 만들려 하지 마세요.

기준 톤 하나 정하기

모든 영상에서 유지

영상마다 감정만 변화

목소리는 캐릭터입니다.
매번 다른 캐릭터가 나오면 영상은 흩어집니다.


중요한 주의점

목소리는 사람의 정체성과 연결됩니다.
그래서 반드시 지켜야 할 원칙이 있습니다.

동의 없는 음성 복제 금지

합성 음성임을 표시

실제 인물로 오해될 표현 피하기

좋은 기술은 신뢰 위에서만 오래 사용됩니다.


18.1.3 더빙과 다국어 — 같은 사람이 여러 언어로 말하게 하기

영상이 다른 나라로 가는 순간
문제는 번역이 아니라 “사람”이 됩니다.


자막 번역만 하면
정보는 전달되지만 감정은 사라집니다.


그래서 요즘은 단순 번역 대신
동일 인물 다국어 음성을 사용합니다.


즉 한국어로 말한 사람이
영어·일본어·스페인어로도 같은 톤으로 말합니다.


중요한 것은 발음이 아니라
감정의 동기화입니다.


기본 과정

원본 음성 생성

의미 번역

감정 유지 음성 생성

입모양 타이밍 맞춤

이 과정이 잘 되면
시청자는 번역을 읽는 것이 아니라
“직접 말하는 느낌”을 받습니다.


18.1.4 실전 워크플로 — 가장 자연스러운 음성 만드는 순서

많은 초보자가 한 번에 완성하려다 실패합니다.
음성은 한 번에 만들지 않습니다.


권장 순서

스크립트 작성
→ 짧게, 말처럼 쓰기


감정 표시 추가
→ 괄호로 톤 지시


음성 생성
→ 여러 버전 비교


숨과 간격 편집
→ 너무 정확하면 기계처럼 들림


배경음과 거리 조정
→ 공간감 추가


간단 테스트

눈을 감고 들어봅니다.

영상 없이도 상황이 떠오르면 성공

문장만 들리면 실패

좋은 음성은 설명이 아니라
장면을 떠올리게 합니다


정리 — 목소리는 정보가 아니라 존재다

영상에서 화면은 무엇이 일어나는지 보여주고,
목소리는 누가 존재하는지를 느끼게 합니다.


그래서 사람은 이렇게 말합니다.


“영상이 좋다”가 아니라
“이 사람이 좋다”


AI 음성의 목표는 사람을 속이는 것이 아니라
존재를 설계하는 것입니다.


그리고 그 순간
영상은 단순한 정보에서
이야기가 됩니다.


18.2 음악 생성 — 감정 곡선을 설계하는 엔진

음악은 배경이 아니라, 장면의 심장 박동이다

영상에 음악을 얹는다고 말하지만,
실제로는 음악이 영상을 이끕니다.

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
토사님작가님의 멤버십을 시작해 보세요!

토사님의 브런치스토리입니다.

171 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 17개의 멤버십 콘텐츠 발행
  • 총 714개의 혜택 콘텐츠
최신 발행글 더보기
이전 17화AI로 영상 만들기