AI 뮤비 영상 제작편 - #2. 키스틸부터 모션화까지

미드저니로 장면 일관성을 잡는 영상 제작 가이드 - 뮹작가

by WAVV


지난 글에서 세계관·무드보드·콘티까지 뼈대를 세워 두었습니다.

이제는 그 콘티 위에 실제 이미지를 한 장씩 쌓아 올릴 차례입니다.


이번 글에서는


1️⃣ Omni Reference, Style Reference 등을 활용해 장면 일관성을 지키는 세팅 팁,

2️⃣ Midjourney로 키 스틸컷(핵심 장면 이미지)를 뽑고,

3️⃣ 그 이미지를 Animate 기능으로 모션화하는 방법,

4️⃣ 그리고 최근 업데이트된 나노바나나 프로(Nano Banana Pro)를 함께 활용해 Midjourney에서 만든 컷의 얼굴·텍스트·조명 디테일을 보완하는 방법을 정리해보려고 합니다.





0️⃣ 프롬프트 한 방에 끝난다는 환상부터 버리기

아이디어 → 실험 → 수정 반복


AI 영상 작업을 시작하면 누구나 한 번쯤 이런 기대를 합니다.

“프롬프트만 잘 쓰면 한 번에 끝나겠지?”


하지만 실제로는 정반대에 가깝습니다.

스크린샷 2025-11-23 오후 4.51.08.png AI를 사용할 때 저희 팀이 느꼈던 감정은 대략 이랬습니다.


이전 편들에서도 여러 번 말씀드렸다시피, AI는 "뿅!"하고 완성시켜 주는 마법 지팡이가 아니었습니다.

대부분의 결과물은 “내가 원하던 게 이게 아닌데…?”에 가깝고, 그중 일부 장면만 건져서 계속 다듬어가는 과정이 반복됩니다.


아이디어 → 실험 → 수정.
이 사이클을 최대한 빨리, 많이 돌려보자.



'한 번에 잘 나와야 한다'는 생각을 내려놓는 순간부터, 각 시도는 실패가 아니라 ‘다음 키 스틸에 가까워지는 실험’이 됩니다.

이제부터는 그 실험을 어떻게 설계했는지,

Midjourney에서 키 스틸을 뽑고 모션을 얹는 과정을 차례로 살펴보려고 합니다.




1️⃣ Midjourney에서 ‘일관된 장면’을 만드는 기본 세팅

Omni Reference와 Style Reference 세팅


3분짜리 뮤직비디오를 만들다 보면 장면이 수십 개가 됩니다.

이때 컷마다 얼굴·톤·질감이 조금씩 달라지기 시작하면, 바로 “AI로 만들었구나” 하는 티가 나기 시작하죠.


그래서 저희는 Midjourney에서 항상 두 가지 축을 먼저 고정했습니다.


Omni Reference (-oref) – “누가 등장하는가” (캐릭터·오브젝트 정체성)

Style Reference (-sref) – “어떤 세계에서 찍힌 것처럼 보이는가” (그림체·색감·조명)


이 두 가지만 잘 잡아도,

씬이 바뀌어도 “같은 세계관 안에서 카메라만 이동하는 느낌”을 만들 수 있습니다.



(1) Omni Reference: 캐릭터 정체성 고정하기


Omni Reference는 한 장의 이미지를 기준으로

“이 사람(혹은 이 캐릭터)을 계속 데려와줘”라고 지정하는 기능입니다.

스크린샷 2025-11-23 오후 4.57.16.png 미드저니 이미지 생성 시, Omni Reference 이미지를 넣고, 강도를 조정할 수 있습니다.

✍ 저희는 이렇게 썼어요.


1️⃣ 먼저 캐릭터시트를 만듭니다. (캐릭터시트를 만드는 법은 이전 편을 참고해 주세요.)


정면 / 45도 / 측면 얼굴

기본 표정 + 감정이 실린 표정 몇 가지

헤어스타일, 옷 실루엣이 잘 보이게

배경은 없거나 흰색 단색을 추천드립니다.

이 중 가장 “대표 얼굴”이 잘 나온 컷을 골라, Omni Reference용 이미지로 삼습니다.


2️⃣ 이후 프롬프트를 적을 때마다 텍스트 프롬프트 + Omni Reference 이미지를 같이 넣어 “이 캐릭터 그대로, 이번에는 다른 장면에 등장시키기”를 요청합니다.


이렇게 하면, 배경이 바뀌어, 구도가 달라져도

머릿속에서 떠올린 ‘그 주인공’이 계속 이어지는 느낌을 만들 수 있습니다.

한 마디로, “세계관의 배우 캐스팅을 한 번 해두고, 계속 그 배우만 쓰는 셈”이죠.



(2) Style Reference (--sref): 미드저니 스타일로 그림체·톤 통일하기


캐릭터 정체성이 Omni Reference에서 고정된다면,
그림체·색감·조명·질감은 Style Reference가 담당합니다.


Midjourney를 들어가 보면, 여러 가지 스타일을 미리 보여주는 Style 예시 이미지들이 있습니다.
여기서 프로젝트와 잘 맞을 것 같은 스타일을 고르고, Style Reference(--sref)로 잡아주면 됩니다.


스크린샷 2025-11-23 오후 5.34.34.png
스크린샷 2025-11-23 오후 5.36.27.png
미드저니 > Explore 메뉴의 Styles 탭에서 다양한 스타일을 참고하고 사용할 수 있어요. (출처: Midjourney)


✍ 저희는 이렇게 썼어요.


1️⃣ Midjourney 스타일 미리 보기를 보면서 “이 뮤비는 이런 그림체였으면 좋겠다” 싶은 스타일을 눈으로 먼저 고르고,

2️⃣ 해당 스타일코드(--sref)를 사용하여 레퍼런스 이미지를 생성했습니다.

3️⃣ 이 레퍼런스 이미지들 중에서 '대표 이미지'를 선정해 'Style Reference'로 고정했습니다.


콘티에 맞춰 장면을 바꾸되,

질감·색감·조명 느낌은 해당 레퍼런스를 계속 참조하게 하는 식으로 사용했습니다.


스크린샷 2025-11-23 오후 5.00.59.png 미드저니 이미지 생성 프롬프트 예시


예를 들어 프롬프트 구조는 말로 하면 이런 느낌입니다.

“이 캐릭터(Omni Reference 기준 이미지)를 데려와서,
이 스타일(Style Reference 이미지)의 그림체·색감·조명으로,
[콘티에 맞는 상황/감정/구도]의 장면을 만들어줘.”


이렇게 하면 콘티에 따라:

어떤 씬에서는 바닷가 집이 나오고

어떤 씬에서는 우주 복숭아가 나오고

어떤 씬에서는 외계 정원이 나오더라도,

“같은 감독, 같은 카메라, 같은 필름으로 찍은 작품” 같은 인상을 유지할 수 있습니다.



✅ 정리하면,

Omni Reference가 “누가 나오는지”를 고정해 주고,

Style Reference(--sref)가 “어떤 세계의 공기·색·조명인지”를 고정해 줍니다.


이 두 가지를 먼저 세팅해 두면,
그다음엔 씬마다 카메라 앵글·동선·감정만 바꿔가며 키 스틸을 뽑는 데 훨씬 집중할 수 있습니다.




✨ 카메라 앵글과 빛 연출로 퀄리티 업!

샷 구도·앵글·조명 프롬프트 예시


콘티 단계에서 미리 정리해 둔 색감과 카메라 무드 정보들을 프롬프트에 그대로 옮겨줍니다.


✅ 카메라 앵글 키워드 예시

shot type: wide shot, establishing shot, medium close up, extreme close up

camera position: from behind, over-the-shoulder, low angle, high angle, top-down view

camera movement: slow pan to the right, dolly in, tracking shot, handheld feel


✅ 빛·질감 키워드 예시

빛: golden hour lighting, soft backlight, rim light, cinematic lighting, volumetric light

질감: dreamy haze, soft bloom, film grain, glossy reflections, reflective water surface


u3269593864_Ultra_wide_animated_fantasy_shot_ocean_with_giant_ce4f77d3-89cc-4fbf-85bb-d99e1657ed96_3.png 미드저니 이미지 생성 예시

프롬프트 예시:

“a young girl with orange hair, sitting in glowing peach-colored sea foam by the ocean, medium wide shot, 3/4 profile, camera slightly below eye level, horizon low in the frame, golden hour lighting, soft backlight, dreamy haze, subtle film grain, pink-peach color palette, reflective water, cinematic composition”


이렇게 카메라·빛·팔레트에 대한 표현을 꾸준히 반복해 주면,

키 스틸들이 장면만 달라질 뿐 같은 세계관에서 찍힌 영상처럼 보이게 됩니다.




2️⃣ 키 스틸 먼저, 모션은 나중에

썸네일급 한 장면을 골라 Start Frame으로


이제 본격적으로 키 스틸 → 모션화 단계입니다.

앞선 과정들을 통해 일관성이 유지되고, 썸네일로 쓸만한 컷들이 준비되었다면,

그다음 단계인 모션 생성(Animate)으로 넘어갔습니다.



Start Frame 기반 Animate

Midjourney에서 스틸 컷에 모션을 주는 방식은 크게 두 가지입니다.


① Animate 버튼을 눌러 해당 이미지를 Start Frame으로 사용하는 방식

② Start + End Frame을 지정해서 보간(Interpolation) 하는 방식


스크린샷 2025-11-23 오후 6.06.42.png
스크린샷 2025-11-23 오후 6.08.00.png
이미지 Animate은 Auto(자동)과 Manually(수동) 방식이 있습니다. 수동으로 프롬프트를 추가하거나 Ending Frame을 지정할 수 있습니다.


저희가 주로 사용한 건 ①번 방식이었습니다.


Starting Frame을 지정하여 Animate 생성 결과 예시


키 스틸을 Start Frame으로 삼으면

초반 1~2 프레임에서 이미 “그림이 망가지는” 일을 줄일 수 있고

색감·구도·캐릭터가 이미 완성된 상태에서 모션만 입히게 되니까

결과적으로 처음부터 영상을 뽑는 것보다 실패율이 줄어듭니다.




3️⃣ 모션 생성에서 절반은 버릴 걸 각오하기

Extend보다 '길게 만들고 짧게 쓰기' 전략


AI 모션 생성할 때 느낀 점입니다. (source: 영화 [타짜])


“5초 생성해도 보통 쓸 만한 건 1–2초뿐입니다.”


몇 번 돌려보시면 공감하실 것 같은데요.

0~1초: 시작부가 어색하거나, 카메라가 급하게 튀거나

2~3초: 비교적 안정적이고 자연스러운 구간

4~5초: 움직임이 과도해지거나, 얼굴·손이 일그러지는 경우가 많습니다.



5초짜리 영상을 생성할 때에는, 처음부터 끝까지 완벽하게 내 의도를 넣은 영상을 만들 기대를 버리고, 5초에서 1~2초라도 원하는 구간이 나온다면 거기서 멈추는 걸 추천드립니다. 필요한 구간만 잘라서 사용하시는 게 시간도 아끼고 정신건강에도 좋습니다.



어차피 후편집으로 생성한 영상들을 이어 붙여야 하는데요.

그때 원하는 구간만 인·아웃 포인트를 찍어 잘라 사용하면 됩니다.



✅ Midjourney Extend 기능에 대한 개인 의견


물론 Midjourney의 Extend 기능으로 영상을 더 길게 이어 붙일 수도 있습니다.

기본 영상 생성 5초

이후 Extend 버튼을 통해 +4초씩 늘릴 수 있고, 최대 4회 연장 가능

최대 영상 길이 21초


하지만 길이를 늘릴수록 중간에 어색한 구간도 같이 늘어나고, 어차피 짧게 잘라 쓸 거라면, 여러 번 나눠 만드는 편이 낫다고 느꼈습니다.


그럼에도 불구하고 한 장면을 길게 가져가고 싶다면, 5초짜리 여러 개를 연달아 만들되

중간 어색한 부분을 음악 리듬 포인트(킥/스네어/보컬 시작)에 맞춰 자르고

편집 단계에서 디졸브·플래시·블러 전환으로 자연스럽게 이어 붙이는 방법을 추천드립니다.



4️⃣ Nano Banana Pro로 디테일 보정하기

Midjourney 말고도 써볼 만한 툴들


이번 프로젝트는 Midjourney 중심으로 작업했지만,

현재 글을 쓰는 시점(2025년 말 기준)에는 다른 선택지들도 꽤 좋게 나와 있습니다.


'일관성 유지' 관점에서 눈여겨볼 툴로 ✨나노바나나 프로와 ✨QWEN을 함께 소개드리고 싶어요.



✨ 나노바나나 프로: 캐릭터·텍스트 디테일 담당


Midjourney가 세계관·톤·키 스틸을 잡는 데 좋다면, 나노바나나 프로는 그 위에서 얼굴·손·텍스트 디테일을 다듬는 역할에 가깝습니다.


마음에 드는 Midjourney 컷을 가져와서

손가락 모양만 자연스럽게 정리하거나

흐릿한 눈동자·입술 라인을 또렷하게 고치거나

간판·네온사인·타이틀 같은 텍스트 요소를 다시 그릴 때 유용합니다.


예를 들면 아래 미드저니로 만들었던 이미지를 자세히 보시면, 캐릭터의 손가락이 어색하게 생성되었습니다. 이 이미지를 나노바나나 프로를 통해 손가락 부분만 자연스럽게 고칠 수 있습니다 ✨


스크린샷 2025-11-23 오후 6.34.46.png
프로 테스트2.jpg
(좌) 미드저니로 만들었던 손가락 오류 부분을 (우) 나노바나나 프로로 깔끔하게 수정했습니다.


예시 프롬프트:

“이 이미지를 기준으로, 얼굴과 배경은 그대로 두고 손가락이 어색한 부분만 자연스럽게 보이도록 다시 그려줘.”
“같은 장면인데, 오른쪽에 ‘Peach Dream’이라는 네온사인 텍스트를 손글씨 느낌의 핑크색으로 자연스럽게 넣어줘.”



✨ Qwen: 카메라 앵글 컨트롤


Qwen의 Image Editing Angle 기능은 한 장의 이미지를 두고 카메라 앵글과 라이팅을 수정하는 데 강점을 보입니다.


같은 컷으로

위에서 내려다보는 버전

낮 → 노을 / 밤 버전

정면광 → 역광 실루엣 버전

을 빠르게 여러 개 만들어볼 수 있습니다.


스크린샷 2025-11-23 오후 6.57.30.png Qwen Image Edit - 카메라 각도를 조정한 결과입니다.


예시 프롬프트:

“이 장면을 카메라를 조금 더 아래에서 올려다보는 구도로 바꿔줘.”
“해 질 무렵 느낌으로 바꾸고, 하늘은 더 붉게, 인물은 역광 실루엣이 되게 조명을 조정해 줘.”



정리하면,

✅ Midjourney로 전체 세계관과 키 스틸을 잡고

✅ Nano Banana Pro로 얼굴·텍스트·손 같은 디테일을 보정하고

✅ Qwen으로 카메라 앵글·라이팅 버전을 다양하게 시험해 본 뒤

✅ 최종적으로 마음에 드는 컷만 골라 타임라인에 올리는 구조가,


지금 시점에서 꽤 현실적인 AI 뮤비 제작 조합이라고 생각합니다.



✍ 다음 편 예고

자, 이제 뮤비 완성까지 거의 다 왔습니다!

다음 편에서는 이렇게 만들어진 AI 영상 클립들을 타임라인 위에 올려, 캡컷·Edits·프리미어로 ‘진짜 뮤직비디오’로 완성하는 과정을 정리해 볼게요.




✔ AI 모션 생성 FAQ


Q1. Start Frame만 쓸지, Interpolation까지 써볼지 기준이 있을까요?


처음이라면 Start Frame 위주로 익숙해진 뒤,

나중에 Interpolation을 “특수 효과” 정도로 섞어보는 걸 추천합니다.

Start Frame 중심: 장면 하나를 안정적으로 움직이고 싶을 때, 캐릭터와 배경 일관성이 가장 중요할 때

Start + End Frame Interpolation: “장면 A에서 장면 B로 부드럽게 넘어가는 느낌”을 실험해보고 싶을 때, 가운데 구간이 조금 깨져도 괜찮은, 추상적인 전개일 때


Q2. 5초 생성해서 5초 전부 쓰고 싶은데, 방법이 없을까요?


완전히 불가능한 건 아니지만, 그만큼 프롬프트·레퍼런스·테스트에 시간을 많이 써야 합니다.

감정 변화가 적은 장면

배경과 카메라 움직임이 단순한 장면

캐릭터 행동이 제한적인 장면 (예: 가만히 바라보기, 천천히 걷기 정도)

이런 컷은 5초 내내 써도 비교적 안정적인 편입니다.

그래도 기본 전략은 “길게 생성, 짧게 사용”으로 잡아두는 편이 실무에서 훨씬 마음이 편했습니다.


Q3. 이미지 생성 시, Midjourney 대신 Nano Banana Pro로만 작업해도 될까요?

가능하긴 하지만, 두 툴의 강점이 조금 다릅니다.

Midjourney: 스타일·세계관·무드보드 기반으로 “한 세계”를 만들어가는 데 강함

Nano Banana Pro: 사진 편집·캐릭터 디테일 유지·텍스트 렌더링·멀티이미지 편집에 강점


그래서 저는

Midjourney로 세계관·키 스틸·톤을 잡고

Nano Banana Pro로 얼굴/텍스트/디테일 보정을 하는 하이브리드 방식을 추천드립니다.




#AI 뮤비 제작기 #Midjourney Animate #AI 뮤직비디오 모션 #OmniReference #NanoBananaPro #Qwen카메라컨트롤




이전 06화AI 뮤비 영상 제작편 - #1. 콘티 짜기