AI 영상, 운이 아닌 설계

고품질 AI 영상을 위한 실전 제어 규칙

Mar 10. 2026

작가, 소상공인, ai크리에이터 방송국 bsbktv.com 플랫폼 운영자 및 ai 전문가

“이제 AI 영상은 운이 아니라, 공학이다.”

그 한 줄을 증명하기 위해 지난 1년 동안 제가 해온 작업을 한 편의 논문으로 묶었습니다.

첫 번째 Zenodo 프리프린트가 시그니처 트리거 프롬프트와 메타 코드 인젝션이라는 “언어·심벌 레벨 제어”를 다뤘다면, 이번 세 번째 프리프린트는 실제 영상의 물리·생리·광학 레벨까지 내려가는 제어 프로토콜을 정리한 문서입니다.

이번 논문의 제목은 다음과 같습니다.

The BSBKTV Master Protocol V6.5.1: A Structured AI Video Production Framework Beyond Luck

멀티모달 생성 AI 덕분에 이제 텍스트 몇 줄만 써도 그럴듯한 영상은 쉽게 나옵니다.
하지만 실무에서 실제로 마주치는 문제는 훨씬 더 구체적입니다.

샷이 바뀔 때마다 인물 얼굴이 미세하게 변하는 문제
프레임마다 손가락과 관절이 깨지는 문제
“거의 사람 같은데 어딘가 섬뜩한” 언캐니 밸리 문제

한마디로, 한 번은 잘 나오는데 다시 똑같이 만들 수가 없습니다.

이번 논문은 이 전제를 아예 뒤집습니다.

모델을 건드릴 수 없다면, 프롬프트를 “물리·생리·광학 설계 문서” 수준까지 끌어올리자.
예쁘게 나와라가 아니라, 이 정도 수치 안에서 움직여라라고 명령하자.

BSBKTV Master Protocol V6.5.1 통합 워크플로우 구글 나노바나나2로 만든 인포그래픽

■ BSBKTV Master Protocol V6.5.1이 하는 일

BSBKTV 마스터 프로토콜 V6.5.1은 생성형 AI 영상 제작을 슬롯머신이 아니라 “엔지니어링 파이프라인”으로 바꾸기 위한 프롬프트 설계 규격입니다. 핵심은 세 가지입니다.

R–C–T–F 프롬프트 아키텍처

Role: “시네마토그래퍼 + 생물학적 물리 엔진”과 같이 전문 페르소나를 주입합니다.

Context: 카메라/렌즈 스펙, 촬영 환경, 시간대 등 물리적 배경을 구체적으로 정의합니다.

Task: 샷 단위 행동, 카메라 무빙, 서사 진행을 단계적 명령으로 적습니다.

Format: 해상도, 프레임레이트, 샷 길이, 무결성 규칙을 포함합니다.

Master Anchorage(마스터 앵커리지)

인물의 정체성(얼굴 구조, 체형, 헤어), 의상, 배경 레이아웃을 “앵커 세트”로 고정합니다.

모든 샷 프롬프트에 이 앵커들을 반복 삽입해, 얼굴과 환경이 샷마다 모핑 되지 않도록 합니다.

최근 연구에서 말하는 world consistency 개념을 프롬프트 차원에서 구현한 것입니다.

Physiological Physics Control(생리적 물리 제어)

실제 인간의 범위 안에 있는 안구 운동(약 0.2Hz), 호흡 주기(약 0.25Hz)를 프롬프트로 강제합니다.

FACS(Action Unit) 코드를 사용해 과장된 감정 연기가 아닌 미세 표정·눈 깜빡임을 설계합니다.

예: AU45(자연스러운 눈 깜빡임), AU14(입가의 미세한 긴장), AU0(중립 표정) 등.

이 세 가지를 조합하면, 텍스처 디테일은 유지하면서 템포럴 일관성과 언캐니 밸리 문제를 동시에 겨냥할 수 있습니다.

■ 실험 프롬프트 예시는 어떻게 생겼나

논문 부록 Appendix A에는 실제 실험에 사용한 프롬프트가 그대로 실려 있습니다. 일부만 소개하면 다음과 같습니다.

Experiment 1 – Extreme Close-Up, Phantom Flex 4K, 100mm Macro, T2.1

20대 한국인 여성 얼굴을 100mm 매크로 렌즈로 극단적인 클로즈업 촬영하는 설정

Phantom Flex 4K급 카메라, T2.1 조리개, 극단적으로 얕은 심도와 다크 시네마틱 보케

0.2Hz 안구 사 카드(눈의 미세한 움직임), 0.25Hz 호흡 주기를 프롬프트에 명시

FACS AU45(자연스러운 깜빡임), AU14(입가의 미세한 긴장)만 아주 낮은 강도로 사용

과장된 연기는 금지, 눈물은 “광택” 수준까지만 허용

Experiment 2 – Arri Alexa 65, Cinebot, 골든아워에서 블루아워로

30대 한국인 남성을 고급 카페 내부에서 촬영하는 시퀀스

Arri Alexa 65급 카메라, 35mm에서 85mm까지 부드러운 돌리-인

배경 레이아웃과 의상, 카메라–인물–창문 관계를 시퀀스 전체에서 고정

시간 흐름에 따라 골든아워(따뜻한 방향광)에서 블루아워(차분한 확산광)로 조명 색온도를 천천히 이동

월드가 바뀌지 않도록 “배경 모핑 금지, 의상 변경 금지, lighting jitter 금지”를 네거티브 필터로 명시

이런 식으로, 프롬프트가 단순한 묘사가 아니라 “광학 + 생리 + 시네마토그래피 스펙 문서”가 되도록 설계한 것이 이번 논문의 핵심입니다.

BSBKTV Master Protocol V6.5.1적용전 동영상 예시 구글 veo

BSBKTV Master Protocol V6.5.1을 적용후 동영상 예시 veo

■ 논문에서 주장하는 것들

논문 안에서 저는 다음을 주장합니다.

모델을 바꾸지 않고, 프롬프트만 바꾸는 것만으로도 템포럴 일관성 지표(TCC, TMC, FVMD, World Consistency Score 등)를 의미 있게 끌어올릴 수 있다.

사용자 평가에서도, 마스터 프로토콜로 생성한 영상이 일반 프롬프트 대비 현실감, 일관성, 선호도는 높고 언캐니 밸리 평점은 낮게 나온다.

이 방식은 특정 엔진 트릭이 아니라, 앞으로 나올 모든 멀티모달 비디오 엔진에 이식 가능한 “제어 패러다임”에 가깝다.

즉, “프롬프트를 잘 쓰면 된다” 수준이 아니라,
프롬프트 설계자의 머릿속에 광학·생리·시네마토그래피가 동시에 올라가 있어야 한다는 주장입니다.

■ Zenodo 프리프린트 정보

이번 논문은 Zenodo에 프리프린트(Preprint)로 공개했습니다.

Title
The BSBKTV Master Protocol V6.5.1: A Structured AI Video Production Framework Beyond Luck

Author
Jo Seong Hwun (조성훈)

DOI
10.5281/zenodo.18933556

Link
https://doi.org/10.5281/zenodo.18933556

인용 시에는 다음과 같이 표기하시면 됩니다.

JO, S. H. (2026). The BSBKTV Master Protocol V6.5.1: A Structured AI Video Production Framework Beyond Luck. Zenodo. https://doi.org/10.5281/zenodo.18933556

■ 이 논문을 어디에 쓸 것인가

저는 이 논문으로 학계 커리어를 시작하려는 것이 아니라, 다음 네 가지를 위해 사용하려 합니다.

AI 영상 제작 실무에서 “왜 이 워크플로우가 통하는지”를 설명하는 공식 레퍼런스

프롬프트 엔지니어링·멀티모달 파이프라인 교육에서, 이론+실습의 근거로 사용하는 교재

BSBKTV 플랫폼에서 제가 구축하는 영상 파이프라인의 설계 문서

향후 프롬프트 저작권/표준화 논의가 나왔을 때, 선행 기술로 인용될 수 있는 근거

논문 라이선스는 연구·학습용 인용은 자유롭게 열어 두되, 상업적 2차 활용은 저자 동의를 필요로 하는 방향(CC BY-NC 계열)으로 설정했습니다.

연구·블로그·스터디에서 참고하실 때는 DOI와 저자 표기만 지켜 주시면 되고, 상업적 강의·도서·서비스에 이 프로토콜을 그대로 가져가고 싶으시다면 정식으로 연락 주시면 됩니다.

keyword