brunch

AI로 영상 만들기

전세계 모든 방법.12장

by 토사님

Part III. 프로덕션: 생성 기법의 모든 길

ChatGPT Image 2025년 12월 3일 오후 06_41_27.png

12장. 이미지/사진→비디오 &애니메이션화(포즈/아이덴티티 유지)


12.1 2025년 이미지→비디오 엔진 지도

“한 장에서 시작하는 영화”

영상의 시대라 말하지만,
우리가 가진 건 대체로 정지된 것들입니다.
사진 한 장, 포스터 한 장, 일러스트 한 장.


12장은 묻습니다.

“지금 내 손에 있는 이 한 장으로,
나는 어디까지 ‘움직임’을 만들 수 있을까?”

그 질문에 답하기 위해, 먼저 지도를 펴야 합니다.
어떤 방식이 있고, 어떤 엔진들이 있고,
어떤 소스에 무엇을 맡기는 게 현명한지.

이 절은 그렇게 이미지→비디오 세계의 전체 숲을 먼저 보여주는 파트입니다.


12.1.1 이미지→비디오 방식의 세 가지 계열

이미지→비디오(image-to-video)는 겉으로 보기엔 다 비슷해 보이지만,
실제로는 세 가지 완전히 다른 철학으로 나뉩니다.


1) 포즈 유지형 애니메이션

핵심은 이 한 문장입니다.

“사람은 그대로 두고, 표정과 공기만 바꿔라.”

정면 인물 사진, 초상화, 프로필, 캐릭터 일러스트 등에 적합

얼굴과 포즈는 거의 그대로 유지한 채

눈 깜빡임

미세한 표정 변화

머리카락·옷자락의 살짝 움직임

카메라의 아주 천천한 줌 인/줌 아웃
이런 요소만 더해 **“살아 있는 사진”**을 만든다.

이 계열은 아이덴티티를 훼손하지 않는 것이 최우선이기 때문에,
12.2에서 다룰 “포즈·아이덴티티 유지”와 가장 깊게 연결됩니다.


2) 씬 확장형 애니메이션

여기서 질문은 조금 달라집니다.

“이 사진이 한 프레임이라면,
그 앞과 뒤에는 어떤 움직임이 있었을까?”

풍경 사진, 건축 사진, 제품 사진, 콘셉트 아트 등에 잘 맞는 방식

사진을 **“1번 프레임”**으로 삼고

카메라가 천천히 이동하거나(트래킹/패닝)

구름이 흐르고, 물결이 일고, 빛이 움직이고

배경 요소들(사람, 자동차, 나뭇잎)이 미세하게 움직이며
**“씬 전체가 살아난 느낌”**을 준다.

여기서 중요한 건
**“원래 있던 구도·원근·빛의 논리를 지키는 것”**입니다.


Runway Gen-3 Alpha처럼
이미지와 비디오를 함께 학습한 모델은
텍스트→비디오뿐 아니라 Image-to-Video에서도
이런 공간·모션 이해를 활용합니다.

Luma Dream Machine 역시

이미지→비디오 모드로 정지 이미지를 업로드하고 프롬프트를 주면,
해당 이미지를 바탕으로 자연스러운 카메라 무빙과 모션이 있는 짧은 영상을 생성해 줍니다.


3) 스타일 변환형 애니메이션

세 번째 계열은 보다 과감합니다.

“이 이미지는 씨앗이다.
씨앗만 같으면, 나무 모양은 달라도 된다.”

원본 이미지를 출발점으로만 쓰고,
카메라·환경·스타일을 크게 바꾸는 방식

예를 들어, 평범한 사진을 사이버펑크 네온 도시 속 장면으로 흑백 스케치를 풀컬러 애니메이션으로 연필 드로잉을 수채화 세계 속 장면으로

Pika 2.5의 Image-to-Video처럼,
이미지 한 장을 업로드하고 프롬프트로 카메라, 스타일, 모션을 지정해
짧은 애니메이션 클립(보통 3~10초 등)을 만들어 주는 도구들이 대표적입니다.


오픈소스 계열인 Stable Video Diffusion(SVD)도
이미지를 입력 프레임으로 받아 짧은 비디오를 생성하는 img2vid 모델로 설계되어 있어,
보다 자유롭게 커스텀 파이프라인을 구성하고 싶은 창작자·연구자가 이런 스타일 변환에 활용합니다


12.1.2 2025년 기준 주요 엔진 지도 — 누가 어떤 역할을 맡고 있는가

이제 “방식”을 봤으니,
“배우들”, 즉 도구들을 한 번에 정리해볼 차례입니다.


Runway Gen-3 / Gen-4 / Frames — 크리에이터용 멀티툴

Runway의 Gen-3 Alpha는
텍스트·이미지·비디오를 함께 학습한 모델로,
Text→Video, Image→Video, Video-to-Video를 모두 지원합니다.

여기에 2024년 말 공개된 Frames는
특정 스타일을 정하면 그 스타일을 유지하면서도 다양한 변주를 만드는 데 강합니다.

이미지→비디오 관점에서 Runway는:

사진/이미지를 넣고

“카메라가 천천히 오른쪽으로 이동하게 해줘”,

“빛만 바뀌게 해줘” 같은 지시로
씬 확장형 애니메이션을 만들기 좋고,

모션 브러시, 키프레임 기능을 통해
움직였으면 하는 부분만 선택적으로 움직이는 제어가 가능합니다.


Luma Dream Machine / Ray — 실사·공간감·카메라 무빙에 강한 엔진

Luma의 Dream Machine과 Ray 계열은
“이미지→비디오” 모드를 통해
정지 이미지를 시네마틱한 영상으로 확장합니다.

특징은:

실사 사진 기반의 고품질 모션

건축, 풍경, 제품, 인물 사진에서
카메라가 실제로 그 공간을 도는 듯한 느낌을 잘 살린다.

웹·iOS 앱에서 비교적 직관적 인터페이스

“이미지→비디오” 튜토리얼과 베스트 프랙티스가 많이 공유되어 있어,
실무자·마케터들이 쉽게 접근할 수 있다.


Pika 2.5 — 일러스트, 숏폼, 스타일 플레잉에 최적

Pika는 **“아이디어→숏폼 영상”**을 표방하는 플랫폼으로,
텍스트·이미지·키프레임 등 다양한 입력을 받습니다

특히 Image-to-Video 툴은:pika-art.net+1

한 장의 이미지를 업로드한 다음,

카메라 움직임

모션 효과

스타일(카툰, 시네마틱, 3D, 아트필름 등)을
프롬프트로 지정하면

짧고 임팩트 있는 SNS용 애니메이션을
아주 빠르게 뽑을 수 있습니다.

일러스트, 웹툰 컷, 콘셉트 아트 등
“원래부터 그림인 것들”을 움직이는 데 특히 좋습니다.


Kling 2.x — 고해상도·강한 모션의 이미지→비디오

중국 Kuaishou 계열의 Kling 2.x는
텍스트→비디오뿐 아니라 Image→Video도 지원하며,
최대 1080p까지 고화질 영상을 생성합니다.


특징은:

풍부한 모션과 디테일,

다이내믹한 카메라 이동,

짧은 시간 안에 “툭 튀는” 장면을 뽑는 데 유리한 것.

특히 풍경·도시·제품 사진 같은 경우,
이미지 기반으로 카메라가 과감하게 움직이는 장면을 만들 때 강점을 보입니다.


Stable Video Diffusion (img2vid) — 오픈소스 실험실

Stability AI의 Stable Video Diffusion(SVD) 계열은
처음부터 image-to-video(img2vid) 모델을 지향하며 설계되었습니다.

한 장의 이미지를 입력으로 받아
14~25 프레임 정도의 짧은 비디오를 생성


Hugging Face, 로컬, ComfyUI 등과 결합해
완전히 커스텀된 파이프라인을 만들 수 있어,
연구자·개발자·하드코어 크리에이터들이
독특한 실험을 할 때 선택하는 카드입니다.

상용 서비스처럼 버튼 몇 번으로 끝나는 대신,
“직접 파이프를 만들고 싶은 사람”에게 어울리는 세계입니다.


12.1.3 어떤 소스에 어떤 툴이 맞는가 — 캐스팅 규칙 만들기

마지막으로, 실전에서 가장 중요한 질문입니다.

“내가 지금 가진 이 이미지에는
누구를 캐스팅해야 할까?”

이미지의 종류별로 생각해보면 선택이 훨씬 쉬워집니다.


1) 실사 인물 사진 (프로필, 인물 스틸, 배우·모델컷)

목표는 대부분 이렇습니다.

“같은 사람처럼 보이는데,
살짝 살아 있는 느낌만 더 나면 좋겠다.”

우선 고려 Runway Gen-3 / Gen-4 Luma Dream Machine (필요하다면) 얼굴 애니메이션 특화 툴들

이유

실사 얼굴·포즈를 무너뜨리지 않고
미세한 모션과 조명·카메라 움직임을 주는 데 더 안정적이기 때문입니다.

이 경우 12.2에서 다룰
아이덴티티 유지 프롬프트(“얼굴 구조와 나이, 표정의 기본은 바꾸지 말 것”)가 필수입니다.


2) 일러스트·웹툰·컨셉 아트

여기서는 조금 더 자유롭게 놀 수 있습니다.

우선 고려 Pika 2.5 Image-to-Video Runway (스타일/애니메이션 실험용) Stable Video Diffusion(img2vid) 기반 커스텀 파이프라인

이유

이미 ‘그림’이기 때문에
현실 물리감을 조금 벗어나도 어색하지 않고,


스타일 변환과 과감한 카메라 모션이 오히려 장점이 됩니다.

웹툰 작가는
한 컷에서 바람, 빛, 머리카락만 움직이는 **“살아 있는 컷”**을 만들고,
일러스트 작가는
정적인 포스터를 짧은 애니메이션 티저로 만들 수 있습니다.


3) 제품·건축·풍경 사진

여기서 중요한 건 공간감과 카메라 무빙입니다.

우선 고려 Luma Dream Machine / Ray Runway Gen-3 Kling 2.x

이유

이 엔진들은
“카메라가 실제로 이 공간을 돌아다니는 느낌”을
꽤 그럴듯하게 만드는 데 강점을 보입니다.

브랜드 입장에서는
정지된 카탈로그 사진을
“살짝 움직이는 시네마그래프”로 변환할 수 있고,
건축·공간 디자이너에게는
“렌더 한 장 → 짧은 투어 영상”의 길을 열어줍니다.


4) 브랜드 룩·세계관이 이미 정의된 이미지들

이미 10장, 20장의 이미지로
브랜드 룩북·세계관이 구축되어 있다면,
가장 중요한 건 일관성입니다.

우선 고려 Runway Gen-3 + Frames (스타일 일관성)Runway+1 Luma의 스타일 레퍼런스 기능Luma AI+2Luma AI+2

전략

“이 5장의 이미지를 이 브랜드의 룩북으로 삼고,
여기서 공통 색감·조명을 추출해줘.”

그 룩을 기반으로 이미지→비디오를 돌려
어디를 움직여도 항상 “한 세계”처럼 보이게 만드는 것.


12.2 포즈·아이덴티티 유지 기술

“같은 사람, 같은 몸, 같은 세계”

이미지 한 장을 움직이게 만들 때
우리가 진짜로 지키고 싶은 것은,
종종 “모션”이 아니라 **“정체성”**입니다.

사진 속 그 사람, 그림 속 그 캐릭터가
영상 안에서도 여전히 그 사람처럼 보이느냐,
이게 퀄리티의 절반을 먹고 들어갑니다.


이 절에서는 다음 세 가지를 다룹니다.

아이덴티티를 이루는 요소가 무엇인지

포즈·구도를 무너지지 않게 붙드는 방법

얼굴·포즈를 지키면서 움직임만 주는 실전 기술


12.2.1 아이덴티티(Identity)를 지키는 요소들

“얼굴 한 장에 얼마나 많은 정보가 담겨 있는가”

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
토사님작가님의 멤버십을 시작해 보세요!

토사님의 브런치스토리입니다.

156 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 124개의 멤버십 콘텐츠 발행
  • 총 634개의 혜택 콘텐츠
최신 발행글 더보기
이전 11화AI로 영상 만들기