미드저니로 장면 일관성을 잡는 영상 제작 가이드 - 뮹작가
지난 글에서 세계관·무드보드·콘티까지 뼈대를 세워 두었습니다.
이제는 그 콘티 위에 실제 이미지를 한 장씩 쌓아 올릴 차례입니다.
이번 글에서는
1️⃣ Omni Reference, Style Reference 등을 활용해 장면 일관성을 지키는 세팅 팁,
2️⃣ Midjourney로 키 스틸컷(핵심 장면 이미지)를 뽑고,
3️⃣ 그 이미지를 Animate 기능으로 모션화하는 방법,
4️⃣ 그리고 최근 업데이트된 나노바나나 프로(Nano Banana Pro)를 함께 활용해 Midjourney에서 만든 컷의 얼굴·텍스트·조명 디테일을 보완하는 방법을 정리해보려고 합니다.
AI 영상 작업을 시작하면 누구나 한 번쯤 이런 기대를 합니다.
“프롬프트만 잘 쓰면 한 번에 끝나겠지?”
하지만 실제로는 정반대에 가깝습니다.
이전 편들에서도 여러 번 말씀드렸다시피, AI는 "뿅!"하고 완성시켜 주는 마법 지팡이가 아니었습니다.
대부분의 결과물은 “내가 원하던 게 이게 아닌데…?”에 가깝고, 그중 일부 장면만 건져서 계속 다듬어가는 과정이 반복됩니다.
아이디어 → 실험 → 수정.
이 사이클을 최대한 빨리, 많이 돌려보자.
'한 번에 잘 나와야 한다'는 생각을 내려놓는 순간부터, 각 시도는 실패가 아니라 ‘다음 키 스틸에 가까워지는 실험’이 됩니다.
이제부터는 그 실험을 어떻게 설계했는지,
Midjourney에서 키 스틸을 뽑고 모션을 얹는 과정을 차례로 살펴보려고 합니다.
3분짜리 뮤직비디오를 만들다 보면 장면이 수십 개가 됩니다.
이때 컷마다 얼굴·톤·질감이 조금씩 달라지기 시작하면, 바로 “AI로 만들었구나” 하는 티가 나기 시작하죠.
그래서 저희는 Midjourney에서 항상 두 가지 축을 먼저 고정했습니다.
✅ Omni Reference (-oref) – “누가 등장하는가” (캐릭터·오브젝트 정체성)
✅ Style Reference (-sref) – “어떤 세계에서 찍힌 것처럼 보이는가” (그림체·색감·조명)
이 두 가지만 잘 잡아도,
씬이 바뀌어도 “같은 세계관 안에서 카메라만 이동하는 느낌”을 만들 수 있습니다.
Omni Reference는 한 장의 이미지를 기준으로
“이 사람(혹은 이 캐릭터)을 계속 데려와줘”라고 지정하는 기능입니다.
✍ 저희는 이렇게 썼어요.
1️⃣ 먼저 캐릭터시트를 만듭니다. (캐릭터시트를 만드는 법은 이전 편을 참고해 주세요.)
정면 / 45도 / 측면 얼굴
기본 표정 + 감정이 실린 표정 몇 가지
헤어스타일, 옷 실루엣이 잘 보이게
배경은 없거나 흰색 단색을 추천드립니다.
이 중 가장 “대표 얼굴”이 잘 나온 컷을 골라, Omni Reference용 이미지로 삼습니다.
2️⃣ 이후 프롬프트를 적을 때마다 텍스트 프롬프트 + Omni Reference 이미지를 같이 넣어 “이 캐릭터 그대로, 이번에는 다른 장면에 등장시키기”를 요청합니다.
이렇게 하면, 배경이 바뀌어, 구도가 달라져도
머릿속에서 떠올린 ‘그 주인공’이 계속 이어지는 느낌을 만들 수 있습니다.
한 마디로, “세계관의 배우 캐스팅을 한 번 해두고, 계속 그 배우만 쓰는 셈”이죠.
캐릭터 정체성이 Omni Reference에서 고정된다면,
그림체·색감·조명·질감은 Style Reference가 담당합니다.
Midjourney를 들어가 보면, 여러 가지 스타일을 미리 보여주는 Style 예시 이미지들이 있습니다.
여기서 프로젝트와 잘 맞을 것 같은 스타일을 고르고, Style Reference(--sref)로 잡아주면 됩니다.
✍ 저희는 이렇게 썼어요.
1️⃣ Midjourney 스타일 미리 보기를 보면서 “이 뮤비는 이런 그림체였으면 좋겠다” 싶은 스타일을 눈으로 먼저 고르고,
2️⃣ 해당 스타일코드(--sref)를 사용하여 레퍼런스 이미지를 생성했습니다.
3️⃣ 이 레퍼런스 이미지들 중에서 '대표 이미지'를 선정해 'Style Reference'로 고정했습니다.
콘티에 맞춰 장면을 바꾸되,
질감·색감·조명 느낌은 해당 레퍼런스를 계속 참조하게 하는 식으로 사용했습니다.
예를 들어 프롬프트 구조는 말로 하면 이런 느낌입니다.
“이 캐릭터(Omni Reference 기준 이미지)를 데려와서,
이 스타일(Style Reference 이미지)의 그림체·색감·조명으로,
[콘티에 맞는 상황/감정/구도]의 장면을 만들어줘.”
이렇게 하면 콘티에 따라:
어떤 씬에서는 바닷가 집이 나오고
어떤 씬에서는 우주 복숭아가 나오고
어떤 씬에서는 외계 정원이 나오더라도,
“같은 감독, 같은 카메라, 같은 필름으로 찍은 작품” 같은 인상을 유지할 수 있습니다.
✅ 정리하면,
Omni Reference가 “누가 나오는지”를 고정해 주고,
Style Reference(--sref)가 “어떤 세계의 공기·색·조명인지”를 고정해 줍니다.
이 두 가지를 먼저 세팅해 두면,
그다음엔 씬마다 카메라 앵글·동선·감정만 바꿔가며 키 스틸을 뽑는 데 훨씬 집중할 수 있습니다.
콘티 단계에서 미리 정리해 둔 색감과 카메라 무드 정보들을 프롬프트에 그대로 옮겨줍니다.
shot type: wide shot, establishing shot, medium close up, extreme close up
camera position: from behind, over-the-shoulder, low angle, high angle, top-down view
camera movement: slow pan to the right, dolly in, tracking shot, handheld feel
빛: golden hour lighting, soft backlight, rim light, cinematic lighting, volumetric light
질감: dreamy haze, soft bloom, film grain, glossy reflections, reflective water surface
프롬프트 예시:
“a young girl with orange hair, sitting in glowing peach-colored sea foam by the ocean, medium wide shot, 3/4 profile, camera slightly below eye level, horizon low in the frame, golden hour lighting, soft backlight, dreamy haze, subtle film grain, pink-peach color palette, reflective water, cinematic composition”
이렇게 카메라·빛·팔레트에 대한 표현을 꾸준히 반복해 주면,
키 스틸들이 장면만 달라질 뿐 같은 세계관에서 찍힌 영상처럼 보이게 됩니다.
이제 본격적으로 키 스틸 → 모션화 단계입니다.
앞선 과정들을 통해 일관성이 유지되고, 썸네일로 쓸만한 컷들이 준비되었다면,
그다음 단계인 모션 생성(Animate)으로 넘어갔습니다.
Midjourney에서 스틸 컷에 모션을 주는 방식은 크게 두 가지입니다.
① Animate 버튼을 눌러 해당 이미지를 Start Frame으로 사용하는 방식
② Start + End Frame을 지정해서 보간(Interpolation) 하는 방식
저희가 주로 사용한 건 ①번 방식이었습니다.
키 스틸을 Start Frame으로 삼으면
초반 1~2 프레임에서 이미 “그림이 망가지는” 일을 줄일 수 있고
색감·구도·캐릭터가 이미 완성된 상태에서 모션만 입히게 되니까
결과적으로 처음부터 영상을 뽑는 것보다 실패율이 줄어듭니다.
“5초 생성해도 보통 쓸 만한 건 1–2초뿐입니다.”
몇 번 돌려보시면 공감하실 것 같은데요.
0~1초: 시작부가 어색하거나, 카메라가 급하게 튀거나
2~3초: 비교적 안정적이고 자연스러운 구간
4~5초: 움직임이 과도해지거나, 얼굴·손이 일그러지는 경우가 많습니다.
어차피 후편집으로 생성한 영상들을 이어 붙여야 하는데요.
그때 원하는 구간만 인·아웃 포인트를 찍어 잘라 사용하면 됩니다.
물론 Midjourney의 Extend 기능으로 영상을 더 길게 이어 붙일 수도 있습니다.
기본 영상 생성 5초
이후 Extend 버튼을 통해 +4초씩 늘릴 수 있고, 최대 4회 연장 가능
최대 영상 길이 21초
하지만 길이를 늘릴수록 중간에 어색한 구간도 같이 늘어나고, 어차피 짧게 잘라 쓸 거라면, 여러 번 나눠 만드는 편이 낫다고 느꼈습니다.
그럼에도 불구하고 한 장면을 길게 가져가고 싶다면, 5초짜리 여러 개를 연달아 만들되
중간 어색한 부분을 음악 리듬 포인트(킥/스네어/보컬 시작)에 맞춰 자르고
편집 단계에서 디졸브·플래시·블러 전환으로 자연스럽게 이어 붙이는 방법을 추천드립니다.
이번 프로젝트는 Midjourney 중심으로 작업했지만,
현재 글을 쓰는 시점(2025년 말 기준)에는 다른 선택지들도 꽤 좋게 나와 있습니다.
'일관성 유지' 관점에서 눈여겨볼 툴로 ✨나노바나나 프로와 ✨QWEN을 함께 소개드리고 싶어요.
Midjourney가 세계관·톤·키 스틸을 잡는 데 좋다면, 나노바나나 프로는 그 위에서 얼굴·손·텍스트 디테일을 다듬는 역할에 가깝습니다.
마음에 드는 Midjourney 컷을 가져와서
손가락 모양만 자연스럽게 정리하거나
흐릿한 눈동자·입술 라인을 또렷하게 고치거나
간판·네온사인·타이틀 같은 텍스트 요소를 다시 그릴 때 유용합니다.
예를 들면 아래 미드저니로 만들었던 이미지를 자세히 보시면, 캐릭터의 손가락이 어색하게 생성되었습니다. 이 이미지를 나노바나나 프로를 통해 손가락 부분만 자연스럽게 고칠 수 있습니다 ✨
예시 프롬프트:
“이 이미지를 기준으로, 얼굴과 배경은 그대로 두고 손가락이 어색한 부분만 자연스럽게 보이도록 다시 그려줘.”
“같은 장면인데, 오른쪽에 ‘Peach Dream’이라는 네온사인 텍스트를 손글씨 느낌의 핑크색으로 자연스럽게 넣어줘.”
Qwen의 Image Editing Angle 기능은 한 장의 이미지를 두고 카메라 앵글과 라이팅을 수정하는 데 강점을 보입니다.
같은 컷으로
위에서 내려다보는 버전
낮 → 노을 / 밤 버전
정면광 → 역광 실루엣 버전
을 빠르게 여러 개 만들어볼 수 있습니다.
예시 프롬프트:
“이 장면을 카메라를 조금 더 아래에서 올려다보는 구도로 바꿔줘.”
“해 질 무렵 느낌으로 바꾸고, 하늘은 더 붉게, 인물은 역광 실루엣이 되게 조명을 조정해 줘.”
정리하면,
✅ Midjourney로 전체 세계관과 키 스틸을 잡고
✅ Nano Banana Pro로 얼굴·텍스트·손 같은 디테일을 보정하고
✅ Qwen으로 카메라 앵글·라이팅 버전을 다양하게 시험해 본 뒤
✅ 최종적으로 마음에 드는 컷만 골라 타임라인에 올리는 구조가,
지금 시점에서 꽤 현실적인 AI 뮤비 제작 조합이라고 생각합니다.
자, 이제 뮤비 완성까지 거의 다 왔습니다!
다음 편에서는 이렇게 만들어진 AI 영상 클립들을 타임라인 위에 올려, 캡컷·Edits·프리미어로 ‘진짜 뮤직비디오’로 완성하는 과정을 정리해 볼게요.
처음이라면 Start Frame 위주로 익숙해진 뒤,
나중에 Interpolation을 “특수 효과” 정도로 섞어보는 걸 추천합니다.
Start Frame 중심: 장면 하나를 안정적으로 움직이고 싶을 때, 캐릭터와 배경 일관성이 가장 중요할 때
Start + End Frame Interpolation: “장면 A에서 장면 B로 부드럽게 넘어가는 느낌”을 실험해보고 싶을 때, 가운데 구간이 조금 깨져도 괜찮은, 추상적인 전개일 때
완전히 불가능한 건 아니지만, 그만큼 프롬프트·레퍼런스·테스트에 시간을 많이 써야 합니다.
감정 변화가 적은 장면
배경과 카메라 움직임이 단순한 장면
캐릭터 행동이 제한적인 장면 (예: 가만히 바라보기, 천천히 걷기 정도)
이런 컷은 5초 내내 써도 비교적 안정적인 편입니다.
그래도 기본 전략은 “길게 생성, 짧게 사용”으로 잡아두는 편이 실무에서 훨씬 마음이 편했습니다.
가능하긴 하지만, 두 툴의 강점이 조금 다릅니다.
Midjourney: 스타일·세계관·무드보드 기반으로 “한 세계”를 만들어가는 데 강함
Nano Banana Pro: 사진 편집·캐릭터 디테일 유지·텍스트 렌더링·멀티이미지 편집에 강점
그래서 저는
Midjourney로 세계관·키 스틸·톤을 잡고
Nano Banana Pro로 얼굴/텍스트/디테일 보정을 하는 하이브리드 방식을 추천드립니다.
#AI 뮤비 제작기 #Midjourney Animate #AI 뮤직비디오 모션 #OmniReference #NanoBananaPro #Qwen카메라컨트롤