AI 뮤비 영상 제작편 - #1. 콘티 짜기

챗GPT와 미드저니로 ‘AI 티 덜 나는’ 스토리보드 만들기 - 뮹작가

by WAVV


AI 뮤비 영상 제작편은 총 3편으로, 아래 순서로 소개드릴 예정입니다.


✨영상 제작 파이프라인

1. 콘티 및 스토리보드(챗GPT, Midjourney)

2. 키 스틸 생성 및 모션화(Midjourney)

3. 음원 싱크·속도·전환·색보정 등의 후 편집(Capcut, Edits, Adobe Premiere)



이번 편에서는 AI 뮤비 영상 콘티를 짜기 위해 고민했던 내용들을 공유드립니다. 그 과정에서 직접 사용했던 프롬프트 예시와 꿀팁들을 담았습니다.



본론으로 들어가기에 앞서,

RIKO의 "That Summer" 뮤직비디오(Full Version)을 공개합니다!

https://youtu.be/V60czlSoY3w?si=3pp_hYEfmYbq9dlQ







콘티 단계: 준비된 재료를 가지고 연속된 스토리 만들기


앞서 컨셉맵을 그리면서 뮤직비디오의 이상적인 청사진을 만들었다면, 이제는 이 재료들을 가지고 스토리보드를 만들어야 합니다.


영상이나 만화 제작에 사용되는 스토리보드를 ‘콘티’라고 하는데요. 각본을 바탕으로 장면의 구성, 촬영 각도, 인물 배치 등을 그림으로 시각화한 설계도입니다. 이런 콘티는 촬영 전에 제작팀이 아이디어를 공유하고, 작업의 방향을 잡는 데 중요한 역할을 합니다.


스크린샷 2025-11-16 오후 9.16.02.png 콘티 예시 (출처: 나무위키)



어떤 스토리를 써볼까?

콘티 작업은 영상의 완성도를 좌우하는 중요한 출발점입니다.

머릿속에 있는 기획을 실제 영상으로 옮기기 전까지, 팀원들과 상상 속 장면을 같은 언어로 공유하게 해주는 시각적 지도가 되어주죠.


특히 AI 영상 제작은 통제가 어렵고, 의도치 않은 ‘발산’이 계속 일어나기 때문에

정교한 콘티는 방향을 잃지 않도록 잡아주는 나침반 역할을 합니다.


어떤 장면을 만들지, 어떤 감정을 담을지 먼저 명확히 해두어야

생성 과정에서 흔들리지 않고 원하는 결과물에 더 가까이 다가갈 수 있습니다.




1️⃣ 세계관과 메타포부터 잡기

긴 영상일수록 액자 구조가 편하다.


“AI 스럽지 않으면서, AI만 담아낼 수 있는 스토리는?”


AI로 뮤직비디오를 만들겠다고 마음먹었을 때, 제일 먼저 세운 목표는 단순했습니다.

“AI로 만들었지만, 웬만한 사람은 AI라고 눈치 못 채는 영상.”

그리고 하나 더.

“실제 현실 촬영에서는 담기 어려운 AI만의 장점을 잘 살려보자.”



저희는 이번 AI 뮤비의 세계관으로 한국 고전소설 ‘구운몽’을 오마주 했습니다. 바닷가 집에서 잠든 소녀가 꿈속에서 복숭아를 타고 다른 행성으로 떠났다가 현실로 돌아오는 액자 구조입니다.


현실: 바닷가 집, 잠든 소녀

꿈: 복숭아를 타고 다른 행성으로 떠나는 여정

다시 현실: 꿈에서 돌아오는 액자 구조


미리 잡아둔 '복숭아'라는 메타포에 '액자 구조'를 활용했습니다.

✅ 비주얼 모티프에 대한 내용은 이전편을 참고해주세요.


굳이 액자 구조를 쓴 이유는 솔직히 ‘어려워서’ 꼼수를 부린 것인데요 (^^;)



3분짜리 AI 뮤비를 “한 톤”으로만 끌고 가기엔,
AI의 어색함을 숨기기 어렵다.


약 3분의 긴 뮤직비디오에서 비슷한 배경과 같은 구도로만 스토리를 이어나가기에는 지루하고, 그렇다고 너무 빈번한 전환을 주면 산만해졌습니다. 게다가 너무 쉬울 것으로 예상되던 특정 동작 생성에서도 AI 특유의 어색한 ‘불쾌한 골짜기(Uncanny Valley)’를 최소화하기 위해서는 더 많은 노력이 필요했습니다.


u3269593864_back_shot_of_orange-haired_woman_sketching_at_a_w_dbc4ad57-ece7-4a05-9e80-1c9b69d19528_1 (1).png
u3269593864_Close-up_of_pencil_sketching_peaches_golden_sunli_e8551ec7-8367-4235-ad43-3f00f7609f83_2.gif
예를 들면, 주인공이 그림을 그리는 장면 영상을 생성할 때도 주인공은 어색하게 팔을 휘젓곤 했습니다.



그래서 선택한 전략이 바로 “의도적으로 비현실적인 전환을 집어넣기”였습니다.


액자식 구조로 의도적인 전환 장치를 넣어주고, 배경과 모션에서는 판타지 장르에서 볼 법한 비현실적인 요소를 팍팍 넣어서 인위적인 요소를 의도적으로 넣어주어 어색함을 최소화하는 전략을 썼습니다.


현실 파트: 비교적 자연스러운 카메라와 연출

꿈 파트: 복숭아, 분홍 구름, 유리처럼 반사되는 바다, 외계 정원 같은 노골적으로 판타지스러운 요소


u3269593864_medium_shot_20s_japanese_woman_with_orange_hair_w_12cf8b89-53ed-482e-86f2-93435313d04b_2.png
u3269593864_Ultra_wide_animated_fantasy_shot_ocean_with_giant_224cd4ea-5443-489f-ab75-ba386f199186_1.png
(좌)현실과 (우)꿈 파트를 나누어 의도적인 대비 효과를 주었습니다.



이렇게 하면,

조금 어색한 장면도 “꿈이라서 그래”라고 자연스럽게 받아들여집니다.

AI의 한계를 감추기보다, 아예 콘셉트로 끌어안는 방식입니다.




2️⃣ 색감과 톤 고정하기


세계관을 잡았다면, 그다음은 영상의 색과 톤 설계였습니다. AI로 이미지를 생성할 때 통일되는 색감과 톤을 정해두고 공통적으로 프롬프트에 활용하면, 이미지의 톤 앤 매너가 유지될 수 있습니다.


이전에 잡아둔 무드보드를 기준으로 색감과 톤을 잡고, 기준을 다듬어나갔습니다.


현실 파트: 웜톤 + 상대적으로 높은 채도, “늦여름, 해가 지지 않은 오후” 느낌

꿈 파트: 더 따뜻하고 비현실적인 웜톤, 특이한 질감 강조, 판타지 오브제로 현실과 간극 벌리기

공통 팔레트: 복숭아(pink-peach) 계열을 메인 컬러로 고정, 뮤직비디오 전체를 “한 취향”으로 묶어가기



✅ 프롬프트에 썼던 키워드 예시

• 색감: peach haze, rose gold, dusk pink, reflective water
• 감정: weightless, nostalgic, bittersweet, first summer love
• 카메라 무드: slow pan, dreamy blur, backlight silhouette


이렇게 텍스트 키워드만 미리 정리해 놔도

이후 미드저니·나노바나나 프롬프트를 만들 때 일관성이 확 살아납니다.


이 단계에서 기준을 날카롭게 세워두면, 이후 생성 단계에서 벗어나는 결과물을 초기에 과감히 제외할 수 있어 시간이 크게 절약된답니다.


아래 스틸컷 결과물들에서 비슷한 무드와 톤이 느껴지시나요?


무드보드의 도움을 받아 일관성 있게 뽑은 키 스틸컷 예시




3️⃣ 챗GPT로 콘티 초안 뽑기


이제부터는 AI를 적극적으로 씁니다.

미리 뽑아둔 메타포들을 참고하여 각 씬마다 아래 요소를 텍스트로 정리해 달라고 챗GPT에 요청했습니다.


✅ 장면 설명 시 고려했던 요소들:
mood, place, lighting, texture, motion, palette


감정 키워드 (예: 경이로움, 아쉬운 행복, 고요한 슬픔)

공간·배경 설명

카메라 동선 (줌 인/아웃, 패닝, 롱테이크 등)

주인공의 표정·동작

나중에 Midjourney에 넣을 프롬프트 초안


저는 각 씬마다 감정 단위를 ‘설렘, 신비함, 아쉬움’ 이런 식으로 쪼개서 정리를 했는데요. 이렇게 감정을 먼저 쪼개놓으면, 카메라·배경·소품·캐릭터 표정까지 모두 그 감정 하나를 밀어주는 방향으로 정리할 수 있습니다.


✅ 챗GPT에게 요청한 예시 프롬프트는 이런 식입니다:

“3분짜리 뮤직비디오를 만들 거야. 메인 감정은 ‘첫사랑 같은 여름의 끝, 약간의 상실감’이고, 세계관은 ‘구운몽’처럼 꿈과 현실이 섞인 느낌이야. 씬을 크게 3막으로 나눠서, 각 씬마다
• 감정 키워드 1개
• 공간/시간/배경 설명
• 주인공의 행동과 표정
• 카메라 구도와 앵글 (롱샷/미디엄/클로즈업, 패닝/틸트 등)
• 미드저니 프롬프트 초안
을 표로 정리해 줘.”


이렇게 받아놓으면, 바로 스토리보드로 옮기거나

미드저니용 프롬프트로 다시 다듬기 훨씬 수월합니다.


씬별 장면 콘티 및 프롬프트 초안을 챗GPT에게 뽑아달라고 했습니다.




4️⃣ 스토리보드로 정리하기


정리된 내용을 스토리보드 형태로 옮기는 단계입니다.


앞서 챗GPT가 뽑아준 Midjourney 프롬프트를 가지고 러프하게 키 스틸컷을 생성했습니다. 필요시 공통으로 잡아둔 색감과 톤 정보를 함께 넣어주며 작업했습니다.


이때의 이미지 생성은 완벽하게 원하는 결과물을 완벽하게 뽑기 위함 보다는 ‘전반적인 흐름과 가능성’을 보는 것에 집중했습니다.

(1) 뮤비 스토리 흐름상 어색함이 없는지

(2) AI로 원하는 장면을 표현하기 어려운 컷들은 없는지 (있다면 콘티를 수정할지)


생성한 이미지들은 스토리를 파악하기 좋게 한 곳에 나열을 했습니다.

스토리보드를 정리하는 도구는 자유인데, 저는 글과 이미지를 자유롭게 붙이기 용이한 피그마를 사용했습니다.

피그마 : 씬별 박스 배치, 임시 스틸컷 넣기

각 씬에 번호 + 시간대(00:12–00:18 이런 식으로) 적어두기

까지 해두고 나면,

이후 영상편집 단계에서 “어디에 어떤 컷을 넣어야 할지” 헤매는 시간을 엄청 줄일 수 있습니다.



스크린샷 2025-11-16 오후 9.31.38.png 스토리보드의 일부분




대략 어떤 느낌의 뮤비가 나올지 시각적인 자료가 만들어졌습니다.

이제 본격적으로 영상을 위한 키 스틸컷을 제작할 시간인데요.



✍ 키 스틸 생성과 영상화는 다음 편에 이어집니다.


키 스틸과 영상화 제작은 따로 한 편을 쓸 만큼 분량이 많아서 끊어갑니다.


이번 글을 요약하자면:

1️⃣ 세계관과 메타포로 영상의 “말하고 싶은 것”을 먼저 결정한다.

2️⃣ 색감·톤(무드보드 기반)을 먼저 묶어두고,

3️⃣ “한 씬, 한 감정”으로 구조를 나눈 뒤, 챗GPT로 콘티 초안을 뽑아 기획 리스크를 줄인다.

4️⃣ 최종적으로 콘티보드에 박스 단위로 옮겨놓고, 그 위에 이미지를 쌓아간다.



다음 편에서는 이 콘티 위에 ✨ 실제 스틸컷·모션을 어떻게 올려가는지,

Midjourney의 Animate/Omni Reference 등을 활용해

컷마다 일관된 장면을 만드는 방법을 정리해 볼게요!




✔ 스토리 구상부터 막막하실 분들을 위한 FAQ


Q1. 콘티 기획이 막막한데, 챗GPT에게 처음에 뭐라고 물어보면 좋을까요?


처음부터 “완성된 스토리”를 달라고 하기보다, 이렇게 단계별로 요청하는 게 좋았어요.

“이런 분위기의 노래(장르, 감정, 키워드)를 배경으로 3분짜리 뮤직비디오를 만들고 싶어. 메인 감정 2~3개를 먼저 정의해 주고, 그 감정들이 시간 순서대로 지나가는 구조를 제안해 줘.”

그다음에

“이 감정 구조를 8개 씬으로 나눠서, 각 씬별로 감정·배경·카메라·프롬프트 초안을 표로 정리해 줘.”

라고 한 번 더 요청하면 곧바로 콘티보드 재료가 됩니다.



Q2. 세계관·메타포는 꼭 있어야 하나요? 너무 거창해 보여요.


“무조건 있어야 한다”는 아니지만, AI의 어색함을 설계로 덮는 가장 좋은 방법이 세계관·메타포였어요.

예를 들어, 꿈·환상·기억·VR 같은 장치를 한 번 얹어놓으면:

배경이 갑자기 바뀌어도 “원래 그런 세계관”이 되고

캐릭터가 살짝 어색해도 “꿈이라서 그런가 보다”가 됩니다.

처음에는 “설정 너무 과한 거 아닌가?” 싶을 수 있는데,

오히려 AI 특유의 이상함을 포용하기 좋은 방법이었어요.



Q3. 스토리보드는 꼭 이미지로 만들어야 하나요?


아니요, 글콘티만 있어도 훌륭합니다.

예를 들어, 노션에 이렇게만 써놔도 충분해요.


색감: warm peach, soft pink, golden dusk

카메라: slow pan, long take, dreamy blur

감정: first summer love, bittersweet, floating


이 리스트를 그대로 미드저니·나노바나나 프롬프트 뒤에 붙이면

툴이 “이 세계의 질감”을 알아서 맞춰주게 됩니다.



Q4. 콘티를 굳이 피그마/파워포인트로 옮길 필요가 있나요?


엄청 정교하게 할 필요는 없어요. 다만,

씬 번호

시간 구간(00:12–00:18)

그 씬의 감정 키워드

나중에 넣고 싶은 이미지/영상 자리


이 정도만 네모 박스로 적어둬도, 후반 작업에서 헤매는 시간이 확 줄어요.

“이 컷을 도대체 어디에 넣지?”가 아니라,

“이 씬 3번 자리에 넣으면 되겠네.”로 바로 연결되는 느낌이라서 추천합니다.



Q5. 상업 프로젝트에도 이 방식이 통할까요?


오히려 상업 프로젝트에 더 좋아요.

클라이언트와 초기 방향성을 합의할 때

정식 촬영 전에 AI로 빠르게 콘티 비주얼을 보여줄 때

“이 정도 느낌으로 가면 어떠세요?”를 시각적으로 검증할 때


챗GPT + 미드저니 조합은 프리 프로덕션 비용과 시간을 많이 줄여주는 도구가 됩니다.



#AI 뮤비 제작기 #AI 뮤직비디오 시놉시스 #챗GPT 스토리보드 제작법 #미드저니 콘티보드 #AI 영상 기획, 무드보드 만드는 법




이전 05화AI 뮤비 기획편 - 3 비주얼 모티프