brunch

AI로 영상 만들기

전세계 모든 방법

by 토사님

Part III. 프로덕션: 생성 기법의 모든 길

ChatGPT Image 2025년 11월 26일 오후 09_33_54.png

11장. 텍스트→비디오 마스터클래스

모델별 룩&무빙 컨트롤, 씨드·연장·키프레임, 실패 복구 레시피


11.1 2025 텍스트→비디오 엔진 지도

“이 아이디어를, 지금, 누구에게 맡길 것인가?”

AI로 영상을 만든다는 건
이제 “앱 하나를 잘 쓰는 법”이 아니라
수많은 엔진들 사이에서 ‘캐스팅’을 잘하는 일에 가까워졌습니다.

같은 한 줄 프롬프트라도
Sora에게 던지느냐, Veo에게 던지느냐, Runway·Luma·Pika·Kling에게 던지느냐에 따라
톤, 물리감, 카메라까지 완전히 다른 영화가 나옵니다.

이 절에서는 먼저,
지도를 펴고 어디가 어디인지부터 확인합니다.


11.1.1 2025 텍스트→비디오 모델 지형도

현재(2025) 기준으로, 실전에서 자주 언급되는 주요 엔진들을 큰 축으로 묶으면 이렇게 나눌 수 있습니다.


플래그십·시네마틱 지향형


Sora 2 (OpenAI)
“움직이는 물리 세계를 이해하고 시뮬레이션하는 모델”이라는 목표로,
최대 1분 분량의 고품질 영상을 만들어내는 텍스트→비디오 엔진.


Veo 3.1 (Google DeepMind)
영상 + 오디오를 함께 생성하는 모델.
1080p 이상, 1분 이상 길이의 현실적인 영상과 동기화된 사운드를 통합해서 만든다.


크리에이터·마케터 실전형

Runway Gen-3 / Gen-4
텍스트→비디오, 이미지→비디오, 모션 브러시, 레퍼런스 스타일 등
“실제 크리에이터들이 바로 써먹게” 설계된 도구들. Gen-4는 레퍼런스를 섞어
일관된 스타일과 피사체를 유지하는 데 초점을 맞춘 최신 모델이다.


Luma Dream Machine / Ray 계열
“빠른 일관된 모션, 초현실적인 디테일, 논리적인 사건 흐름”을 표방하는 모델.
웹과 iOS에서 쉽게 접근할 수 있어 유튜브, 광고, 뮤직비디오 제작에 많이 쓰인다.


숏폼·스타일·SNS 특화형

Pika 2.5 & Turbo 모드
짧은 클립(대개 10–20초)에 최적화된 크리에이터용 엔진.
텍스트/이미지→비디오, 다양한 스타일 프리셋, 카메라 컨트롤, lip-sync,
‘Pikaframes’ 같은 이미지→비디오 기능으로 짧은 콘텐츠에 강력하다.


Kling (Kuaishou)
중국 숏폼 플랫폼에서 출발한 고해상도(최대 1080p) 텍스트→비디오 엔진.
짧지만 역동적인 모션, 카메라 무빙, 높은 사실감을 강점으로 갖는다.


오픈소스·연구·실험형

Stable Video Diffusion 계열
직접 로컬·클라우드에 올려 커스텀 파이프라인을 만드는 개발자·연구자용.
물리적으로나 편의성 면에서 상용 서비스보다 떨어질 수 있지만,
**“내가 직접 통제하고 실험할 수 있다”**는 점이 가장 큰 장점이다.


11.1.2 샷 길이·해상도·오디오 — “이 모델은 어디까지 버티는가?”

텍스트→비디오 모델은
“얼마나 리얼하게 만드느냐” 못지않게
**“얼마나 길게·무겁게 버티느냐”**가 중요합니다.

대략적으로 정리하면:


Sora 2

최대 약 1분 길이의 비디오를 생성하면서
프롬프트에 충실한 물리 세계 시뮬레이션을 목표로 한다.

최근 버전에서는 영상과 동기화된 오디오(대사·효과음)까지 함께 생성.

Veo 3.1

Veo 3 계열은 1080p 이상, 1분 이상 영상에
**동기화된 오디오(대사·효과·환경음)**를 통합할 수 있다.

Google의 Flow 같은 툴에서 필름메이킹 워크플로우와 결합되어 쓰임.


Runway / Luma / Pika / Kling

보통 5–20초 사이 샷에 최적화되어 있고,
이를 여러 개 만들어 편집에서 이어붙이는 방식이 일반적입니다.

Pika·Kling 계열은 크리에이터를 위해 SNS 길이(10–20초) 위주로 안내하고,

Luma·Runway는 광고·뮤직비디오·브랜드 영상 등에서
짧은 샷 여러 개를 조합해 30초–1분 영상을 만드는 흐름이 보편적입니다

그래서 프로덕션에서는 보통 이렇게 생각합니다:

“1분짜리 완성 영상을 직접 뽑아달라고 하기보다
10초짜리 ‘잘 만든 샷’ 6개를 뽑아 편집에서 합치는 게 훨씬 안전하다.”


11.1.3 텍스트→비디오 기본 프롬프트 구조

어떤 모델을 쓰더라도,
텍스트→비디오 프롬프트는 여섯 칸짜리 폼이라고 생각하면 편합니다.

주체(Subject) “70대 노인”, “먼지 쌓인 책상”, “비에 젖은 골목”

행동(Action) “천천히 일어나 창밖을 바라본다”, “손가락으로 먼지를 쓸어내린다”

카메라(Camera) 샷 크기: wide / medium / close-up 앵글: high / low / over-the-shoulder 렌즈: 24mm / 50mm / 85mm 느낌

환경(Environment) 새벽/밤/황혼, 실내/실외, 비/눈/먼지, 도시/시골 등 “안개 낀 새벽의 골목, 간판 불빛이 희미하게 깜빡인다”

스타일(Style) 리얼/필름/애니메이션/수채화/네온 등 영화·감독·화가 레퍼런스를 한두 개 정도 (과하면 망가짐)

제약(Constraints) 길이(예: 8초), 화면비(예: 16:9, 9:16), 해상도, 속도감 “slow-paced, physically accurate motion, no exaggerated distortion”

예를 들어, 이렇게 쓸 수 있습니다:

“A 70-year-old man in a small, dimly lit room,
medium shot, 50mm lens, low angle.
He slowly stands up and walks toward the window as dust floats in the golden afternoon light.
Realistic cinematic style, soft color grading, 8-second clip, 16:9.”

이 정도만 잘 써도,
어지간한 모델에서는 이미 “영화의 한 컷 같은 장면”이 나옵니다.


11.1.4 모델별 프롬프트 성향 프로파일

같은 프롬프트를 넣어도
엔진마다 성격이 다릅니다.

프롬프트를 어떻게 ‘조미료’ 치느냐가
모델 선택만큼이나 중요해지는 지점입니다.


아주 거칠게 요약하면:

Sora 계열

목표 자체가 “물리 세계 시뮬레이션”에 가까워서,

상황·맥락·원인과 결과를 길게 써줄수록 힘을 발휘합니다.

프롬프트에 “시간의 흐름, 이유, 감정 변화”를 담으면 좋습니다.

Veo 3.1

영상 + 오디오가 통합되기 때문에,

소리·대사·환경음까지 포함한 장면 묘사에 강합니다.

“어떤 음악/소리 분위기인지” 함께 써주는 게 유리합니다.

Runway / Luma

실전 크리에이터를 위한 툴이라,

“10초 안에 메시지가 전달되는 장면” 묘사에 최적화됩니다.

브랜드, 제품, 인물, 메시지를 간결하게 적고
카메라·조명을 비교적 정확히 써주는 게 효율적입니다.


Pika / Kling

숏폼·SNS 친화형이라,

다이내믹한 카메라와 과감한 스타일 실험에 잘 반응합니다.

“짧지만 강렬한 이미지”, “특정 액션 한 번”에 집중해 적으면 좋습니다.

Stable Video Diffusion·오픈소스 계열

프롬프트뿐 아니라 모델 자체를 바꾸고 싶은 사람에게 유리합니다.

대신 설정·튜닝에 시간을 많이 써야 하므로,
“결과만 빨리 보고 싶은 창작자”보다는
“도구까지 실험하고 싶은 연구자·개발자·하드코어 크리에이터” 쪽에 가깝습니다.


11.2 룩 & 무빙 완전 제어 — 씨드·연장·키프레임으로 ‘조향하는 창작자’ 되기

“AI가 영상을 만든다”에서
“나는 AI의 방향을 잡는다”로 옮겨가는 지점

텍스트→비디오의 진짜 실력 차이는
프롬프트를 한 줄 더 멋지게 쓰는 데서 나지 않습니다.

룩(look), 무빙(moving), 씨드(seed), 연장(extend), 키프레임(keyframe).
이 다섯 가지를 다룰 줄 아는 순간,
창작자는 운에 기대는 사람이 아니라 조향하는 사람이 됩니다.

이 절은 그 다섯 가지를
‘개념’이 아니라 ‘손에 남는 기술’로 만드는 파트입니다.


11.2.1 룩 컨트롤 — 스타일·레퍼런스·락(Lock)으로 세계의 얼굴을 고정하기

우선 “룩(look)”부터 잡읍시다.
룩이란 이 세계의 피부색, 공기의 색, 빛의 질감입니다.

2025년 현재, 주요 엔진들은 모두
“레퍼런스로 룩을 고정하는 기능”을 강화하고 있습니다.

Runway Gen-3 / Gen-4 + Frames

한 장의 레퍼런스 이미지를 넣으면,
그 색감과 스타일을 동영상 전체에 입힐 수 있습니다.

Frames에서는 이미지에서 색·질감을 뽑아 Custom Style로 저장해 두고
이후 생성·편집에 반복 사용 가능.

Luma Dream Machine 2 + Modify Video / Video-to-Video

실제 촬영한 영상을 올리고,
“이 모션은 그대로 두고, 룩만 바꿔줘”라고 할 수 있습니다.

예: 집에서 찍은 원본을 그대로 쓰되,
“블레이드러너풍 네온 시티 룩으로 변환” 같은 식.

Pika 2.5

프롬프트로 스타일(리얼리스틱, 카툰, 시네마틱 등)을 지정하고,

특정 프리셋·효과를 섞어 스타일을 쉽게 바꾸는 구조.

Kling 2.1 / 2.5 Turbo

1080p 고해상도와 강한 장면 일관성을 강점으로 하는 텍스트→비디오 엔진.

“세계관 하나를 통째로 고정한 듯한” 룩을 뽑는 데 유리합니다.

여기서 중요한 건,
룩은 “예쁘다/안 예쁘다”가 아니라 **“나의 세계를 식별하게 하는 DNA”**라는 것.

그래서 룩을 컨트롤할 때는 꼭 이렇게 해보세요.

룩북에서 한 문장 뽑기 “따뜻한 고요, 금빛 먼지, 오후 4시의 공기.”

이 문장을 각 엔진 프롬프트의 마지막에 고정으로 붙이기

마음에 드는 결과가 나오면 그 룩을 Runway·Luma·Pika·Kling의 스타일 기능으로 저장 **“이 룩으로 다시 만들어줘”**를 반복

이렇게 하면,
영상이 바뀌어도 세계의 공기 냄새는 그대로 남습니다.


11.2.2 무빙 컨트롤 — 카메라·피직스·페이싱으로 “장면의 심장 박동” 만들기

다음은 움직임입니다.
AI가 잘해준다고 믿고 맡기면,
자주 나오는 결과는 이렇습니다:

괜히 흔들리는 카메라

의미 없는 줌 인/줌 아웃

감정과 상관없는 속도 변화

그래서 무빙은 반드시 “문장으로” 잡아줘야 합니다.


1) Pika — 프롬프트로 카메라 연주하기

Pika 2.5는 프롬프트에서
-camera zoom in,

-camera pan,

rotate

같은 옵션으로

카메라 스타일을 지정할 수 있습니다.

예를 들어:

“a lonely dog waiting at the door -camera slow zoom in -fps 16”


지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
토사님작가님의 멤버십을 시작해 보세요!

토사님의 브런치스토리입니다.

158 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 120개의 멤버십 콘텐츠 발행
  • 총 639개의 혜택 콘텐츠
최신 발행글 더보기
이전 10화AI로 영상 만들기