brunch

AI로 영상 만들기

전세계 모든 방법

by 토사님

Part I. 2025 세계 지형도: 모델, 툴, 그리고 파도

ChatGPT Image 2025년 9월 17일 오후 09_49_27.png

1장. 패러다임 맵: 확산모델·트랜스포머·플로우·비디오 LLM


프롤로그 — 필름 없이 영화를 꿈꾸던 시절을 지나

0.1 왜 지금 ‘AI 영상’인가

카메라가 사라졌다. 스튜디오도, 조명도, 무거운 삼각대도.
그럼에도 영상은, 아니 영상보다 더 생생한 ‘장면’은 계속 태어난다.
2025년, 우리는 텍스트 한 줄로 세상을 호출하는 시대에 들어섰다.

불과 몇 해 전만 해도 상상만 하던 기술들이,
이제는 누구나 다루는 붓처럼 손끝에 있다.
AI 영상은 단순한 도구가 아니다.
“무엇을 만들고 싶은가?”라는 질문에 바로 응답하는 창조의 파트너다.

여기서 중요한 것은 ‘왜 지금’인가 하는 질문이다.
영상 제작은 더 이상 전문 스튜디오의 전유물이 아니다.
이 책은 그 경계가 무너진 지금, 작은 상상 하나가 전 세계로 흘러가는 방법을 알려줄 것이다.
이것은 기술의 책이자, 창작자의 선언문이다.


0.2 한 문장으로 장면을 호출하는 법

“달빛 아래에서 빗물이 반짝이는 골목을 달리는 소년.”
이 짧은 문장이, 곧 하나의 장면이 된다.
AI 영상의 매력은 여기에 있다.
마치 최면을 걸 듯, 한 문장으로 장면을 불러내는 힘.

그러나 주문은 섬세해야 한다.
어느 카메라, 어느 렌즈, 어떤 색감으로 찍을지를 속삭여야
AI는 우리의 마음속 그림을 정확히 꺼내준다.

이 책은 그 속삭임의 기술을 알려준다.
단어와 단어 사이에 숨은 마법,
프롬프트 한 줄에 담긴 감정의 리듬까지 훈련할 것이다.


0.3 이 책을 읽는 법

이 책은 설명서가 아니라 여행 지도다.
각 장의 끝에는 실습 아이콘이 있다.
그 아이콘은 “여기서 손을 움직여라”라는 신호다.
체크리스트는 당신의 여정을 기록하는 발자국이다.
링크 맵은 더 먼 곳으로 안내하는 비밀 통로다.

읽고, 만들고, 실패하고, 다시 만든다.
그리고 어느 날, 당신의 손끝에서
처음으로 스스로 만든 세계가 움직이는 순간을 맞이하게 될 것이다.
그때 이 프롤로그를 떠올리길 바란다.
우리는 이제 막 필름 없는 영화의 시대에 들어섰다.


1.1 장면을 만드는 두 가지 심장

확산의 숨, 트랜스포머의 시선

카메라가 들지 못한 새벽의 공기, 아직 이름 없는 빛이 방 안을 헤매다가 한 문장에 이끌려 자리를 잡는다. AI가 장면을 만드는 일은 마법이 아니라 두 개의 심장이 동시에 뛰는 생리학이다. 하나는 확산(Diffusion), 노이즈 속에서 형체를 끌어올리는 숨. 다른 하나는 트랜스포머(Transformer), 수많은 조각 사이의 의미를 붙잡고 어디를 봐야 할지 정하는 시선. 이 장은 그 두 박동이 어떻게 서로를 살려내어, 결국 당신의 한 문장을 움직이는 장면으로 바꾸는지 보여준다.


1) 확산: 어둠에서 윤곽을 찾는 호흡

확산 모델은 사진관의 암실처럼 작동한다. 처음엔 무작위의 입자, 완전한 소음뿐이다. 거기서부터 한 호흡씩—스텝마다—노이즈를 덜어내며 가능한 세계를 떠올린다.

리듬: 수십~수백 번의 미세한 정정(denoise)을 거치며 명암, 재질, 디테일이 서서히 드러난다.

장점: 질감이 풍부하고, 정지 프레임의 회화·사진적 완성도가 높다.

약점: 샘플링에 시간이 걸리고, 프레임 간 일관성(손·소품·문양)이 흔들리기 쉽다.

영화적 비유: 안개가 걷힐수록 풍경이 또렷해지는 롱테이크.

이 심장은 ‘형태’를 잘 만든다. 그래서 배경·질감·빛의 물성을 설득력 있게 잡아낸다. 그러나 ‘무엇을 언제 보아야 하는가’—즉 연속성과 맥락을 위해선 다른 심장의 도움이 필요하다.


2) 트랜스포머: 의미의 지도를 펼치는 시선

트랜스포머는 주의(Attention)라는 이름의 나침반으로 작동한다. 텍스트, 이미지, 소리, 움직임 속에서 무엇이 무엇과 관련되는지를 계산해, 지금 이 순간 어디를 주목해야 하는지를 가리킨다.

리듬: 입력 전체를 훑으며 관계를 갱신한다. 시간축(비디오)에서는 이전·이후 프레임과의 약속을 기억한다.

장점: 맥락과 지시(“카메라 오른쪽에서 왼쪽으로 팬”)를 이해하고 따르는 데 강하다.

약점: 질감 그 자체를 빚는 솜씨는 확산의 섬세함에 의존하는 경우가 많다.

영화적 비유: 촬영 감독의 손 위에서 움직이는 팬·틸트·패닝의 설계도.

이 심장은 ‘문법’을 잘 만든다. 인물의 시선, 카메라 무빙, 사건의 인과를 잡아, 장면의 문장을 그럴듯하게 만든다.


3) 함께 뛸 때: 프레임이 문장이 되고, 문장이 세계가 된다

실전의 모델들은 이 두 심장을 서로 엮는다. 트랜스포머가 “지금 이때, 이 구석을 보라”고 가리키면 확산이 그 자리의 질감과 빛을 세운다.

하이브리드의 이득:지시 순응성: “비 오는 밤, 네온사인 반사 위를 트래킹” 같은 구체적 지시가 통한다.

연속성: 인물·소품이 샷을 넘어 같은 존재로 이어진다. 조형력: 카메라 렌즈, 셔터 속도, 피사계 심도 같은 영화 언어가 결과물에 스며든다.

당신의 프롬프트가 지시 + 감각 + 맥락의 균형을 얻을수록, 두 심장은 서로를 살려낸다. 지시는 트랜스포머가, 감각은 확산이, 맥락은 둘이 함께 맡는다.


4) 패러다임 지도: 어디서 왔고 어디로 가는가

텍스트 한 줄로 장면을 불러내기까지, 영상 생성은 짧지 않은 길을 걸어왔다.

상상력의 원형: 적대적 생성(GAN) — 거친 형상을 빠르게 만든다.

질감의 비상: 확산 — 노이즈를 걷어내며 디테일을 세운다.

언어의 연결: 텍스트-비전 표현(예: CLIP 류) — 말과 그림이 통역을 얻는다.

연속의 문법: 비디오 LLM — 프레임이 문장처럼 이어진다.

경로의 최적화: 플로우·하이브리드 — 더 빠르고 안정적인 길을 찾는다.

이 지도를 머릿속에 걸어두면, 툴의 유행이 바뀌어도 본질의 질문은 그대로 남는다.

“이 장면에서 관객이 반드시 보아야 할 것은 무엇인가?”
그 답이 곧 당신의 프롬프트의 주어이고, 카메라 무빙의 동사이며, 색의 형용사다.


5) 한 컷 실습 — 두 심장을 체감하는 20분

목표: 같은 콘셉트로 _확산 중심_과 트랜스포머 지시 중심 세팅을 각각 시도하고, 결과 차이를 기록한다.

공통 콘셉트: “비 오는 골목, 네온 간판이 젖은 바닥에 반사되는 밤. 카메라는 주인공의 뒤를 따라 6초간 천천히 트래킹.”

세팅 A(확산 중심) 키워드: 질감/재질/조명 — “젖은 아스팔트의 미세 반사, 보케가 번지는 네온, 35mm 렌즈 느낌, 얕은 피사계 심도” 기대: 빛과 물성은 풍부하나, 트래킹의 안정성·피사체 일관성이 약할 수 있음.

세팅 B(트랜스포머 지시 중심) 키워드: 동사·지시 — “over-the-shoulder, slow tracking backward, camera height 1.6m, subject center-left, right-to-left rain streaks” 기대: 무빙·구도가 더 정확하되, 질감의 섬세함은 다소 평평할 수 있음.

평가 체크리스트(5점 척도) 일관성(인물·소품) / 무빙 안정성 / 광원 논리 / 질감 풍부함 / 정서 전달력

노트: A와 B의 장점을 합친 프롬프트를 재작성해 1회 재시도. 결과 요약을 3문장으로 적는다.

실패해도 좋다. 깨짐과 흔들림은 어느 심장에 호흡이 모자랐는지를 알려주는 친절한 진단서다.


6) 실패 갤러리 — 빠른 응급처치

손가락/소품 변형: 키 프레임 또는 아이덴티티 앵커(주인공 묘사 고정 문구) 추가.

무빙 떨림: “steady cam / track smoothly / constant velocity” 같은 동사 보정과 카메라 높이·축 지정.

빛의 혼선: 광원 개수·위치·색을 문장으로 명시(“상단 좌측 냉색 네온 1, 하단 우측 따뜻한 반사 1”).

과도한 샤프/노이즈: 샘플링 스텝·강도 조절, 후처리(노이즈·업스케일)는 다음 장에서.


7) 장면 언어 미니 사전

Lens 35mm/50mm: 시야와 배경 압축감의 차이를 암시한다.

Depth of Field: 감정의 초점—무엇이 중요하고 무엇이 배경인지.

Over-the-Shoulder: 관객을 주인공의 등 뒤에 세워 몰입을 만든다.

Tracking / Dolly / Pan / Tilt: 동사는 장면의 호흡을 결정한다. 프롬프트에 동사가 늘수록 트랜스포머의 시선이 선명해진다.


8) 이 절의 핵심 한 줄

질감은 확산의 일, 맥락은 트랜스포머의 일, 장면은 둘의 대화로 태어난다.

이제 당신은 두 심장의 박동을 들을 수 있다. 다음 절로 넘어가면, 확산의 호흡을 더 길게, 더 정밀하게 다루게 될 것이다. 그리고 곧 알게 된다. 장면은 결국 당신의 문장이 데려온 세계라는 것을.


1.2 확산 모델: 노이즈에서 장면을 꺼내는 법

안개 속에서 그림이 드러나는 순간

처음 장면을 생성할 때, AI는 ‘아무것도 아닌 것’에서 시작한다. 그 아무것도는 사실 순수한 노이즈다. 모든 픽셀이 무작위로 흔들리며, 아무 의미도 없는 바탕. 확산 모델은 거기서부터 한 스텝씩 호흡을 고르며 세계의 윤곽을 끌어올린다.


1) 원리: 뒤집힌 시간의 영화

확산 모델은 확산(Diffusion)이라는 단어 그대로, 원래 있던 이미지를 ‘점점 더 망가뜨려’ 순수 노이즈로 만드는 과정을 먼저 학습한다.
그런 다음 실제 생성 단계에서는 그 과정을 거꾸로 재생한다.

Step 1: 완전한 노이즈에서 시작

Step 2: 학습한 “되감기 패턴”으로 노이즈를 조금 제거

Step 3: 형태와 색이 조금씩 나타남

Step N: 최종 장면 완성

이 과정은 마치 암실에서 인화지를 흔들어 물감이 스며드는 것을 보는 것과 같다.

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
토사님작가님의 멤버십을 시작해 보세요!

토사님의 브런치스토리입니다.

154 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 145개의 멤버십 콘텐츠 발행
  • 총 610개의 혜택 콘텐츠
최신 발행글 더보기