AI로 영상 만들기

전세계 모든 방법. 5장.

by 토사님

Oct 15. 2025 brunch_membership's

Part I. 2025 세계 지형도: 모델, 툴, 그리고 파도

5장. 품질과 한계: VBench, FVD, 인간평가, 현실 시뮬레이션의 균열

5.1 평가의 왜곡: 측정 기준이 세상을 만든다

5.1.1 왜 평가는 필요할까 — 비교 도구로서의 기능

AI 영상 모델의 세계는 마치 안개 속 경주 같다.
누가 더 빠른가, 누가 더 정교한가, 누가 더 ‘진짜 같은 영상’을 만들 수 있는가—
이를 가늠하려면 결국 평가 기준이 필요하다.

VBench나 FVD 같은 지표들은 단순한 점수 이상의 역할을 한다.
그것들은 개발자들의 나침반이며, 동시에 산업의 언어다.
숫자로 성능을 표현해야 연구자들은 서로를 비교하고, 발전의 속도를 측정할 수 있다.
이 지표들은 하나의 공통 언어로서, 서로 다른 실험실과 기업의 경계를 넘게 해준다.

하지만 이 “측정”이라는 행위 자체가 이미 세계를 정의한다.
어떤 항목을 중요하다고 정하느냐에 따라,
AI는 그 방향으로 진화하기 때문이다.
예를 들어, “프레임 일관성”을 강조하면 모델은 움직임을 부드럽게 만드는 데 집중하지만,
그 과정에서 감정이나 예술적 표현은 도려내질 수도 있다.
평가가 단순한 잣대가 아니라 진화의 방향키가 되는 순간이다.

5.1.2 수치화의 함정 — 기준이 결과를 이끈다

AI 모델의 성능은 숫자로 표현되면 객관적으로 보인다.
하지만 그 수치는 보이는 세계의 절반만을 담는다.
예를 들어 FVD 점수가 낮다고 해서, 반드시 ‘좋은 영상’이라는 뜻은 아니다.
그 수치는 데이터 분포의 유사성만 말해줄 뿐,
영상 속 인물의 감정이나 장면의 서사는 전혀 고려하지 않는다.

수치는 개발자에게 방향을 준다.
그러나 동시에 창작의 다양성을 제한하기도 한다.
모든 모델이 동일한 기준을 향해 달리면,
결국 비슷비슷한 결과물만 남는다.
이것이 바로 “수치화의 함정”이다.

예술이든 기술이든, 가장 위험한 것은
‘보이는 것만 믿는 것’이다.
AI 영상의 품질은 단순히 픽셀 단위의 정확도가 아니라,
이야기의 설득력, 장면의 호흡, 감정의 진폭 속에 깃들어 있다.
그러나 이런 것들은 숫자로 환원되지 않는다.
그래서 우리는 늘 질문해야 한다.
“이 수치가 정말 내가 원하는 ‘좋음’을 대표하는가?”

5.1.3 평가자 위치의 문제 — 개발자 vs 사용자 vs 비평가

AI 영상 품질에 대한 판단은,
누가 보느냐에 따라 완전히 달라진다.

개발자는 효율성과 재현성을 본다.
그는 “얼마나 안정적으로 생성되는가”를 측정한다.
수치가 낮고 일관성이 높으면 성공이다.
그의 세계는 데이터와 알고리즘의 조화로 구성되어 있다.

사용자는 다르다.
그는 기술적 완성도보다 “느낌”을 본다.
영상이 자신을 몰입시키는가,
감정이 흐르고 캐릭터가 살아 있는가—
그의 기준은 수치가 아닌 감각의 리듬이다.

비평가는 또 다른 세계를 산다.
그는 영상의 의미와 맥락, 문화적 파급력을 본다.
“이 영상이 새로운 감각을 제시했는가?”
“이 기술이 인간의 창조성을 확장했는가?”
그에게 중요한 것은 완성도가 아니라 새로움과 울림이다.

결국, 하나의 영상은 세 가지 평가 체계를 동시에 통과한다.
그 결과는 언제나 불완전하다.
그래서 우리는 숫자와 감각, 효율과 감동 사이를
끊임없이 왕복해야 한다.

평가란 ‘정답’을 찾는 과정이 아니다.
그것은 무엇을 중요하게 여길 것인가를 결정하는 철학적 선택이다.
기준이 바뀌면 세계가 바뀐다.
그리고 지금, AI 영상의 세계는 바로 그 기준을 다시 쓰는 중이다.

5.2 VBench: 영상 생성 벤치마크의 등장

5.2.1 VBench의 개념과 구조

VBench는 한마디로 말해, AI가 만든 영상을 평가하기 위한 공식 시험장이다.
영상 생성 모델이 얼마나 자연스럽고 일관되게 영상을 만들어내는지를
‘정량적으로’ 평가하기 위한 벤치마크(benchmark)로,
OpenAI의 Sora, Pika, Runway, Kling, Vidu 같은 모델들이 모두 이 무대 위에서 시험을 치른다.

VBench는 기존의 이미지 평가 지표(FID, IS 등)를 확장한 영상 전용 품질 측정 프레임워크다.
단일 프레임이 아닌 시간의 흐름 속에서 모델이 얼마나 자연스럽게 세계를 구성하는지 본다.
즉, 정지화면이 아니라 움직임의 품질을 측정한다는 점이 가장 큰 차별점이다.

그 내부는 크게 세 축으로 나뉜다.
공간적 품질(Spatial Quality) — 해상도, 디테일, 노이즈, 왜곡
시간적 일관성(Temporal Consistency) — 프레임 간 연결, 부드러움, 객체 지속성
내용적 이해(Semantic Understanding) — 프롬프트의 의미 반영, 맥락 일치, 감정 표현

즉, VBench는 단순히 ‘좋다/나쁘다’를 평가하는 도구가 아니라,
AI가 세계를 얼마나 “자연스럽게 이해하고 재현하느냐”를 측정하는 장치다.

5.2.2 측정 항목: 일관성, 흐름, 왜곡, 정밀도

VBench의 핵심 평가지표들은 인간이 영상을 감상할 때 느끼는 감각적 완성도를
수학적으로 모사하려는 시도라 할 수 있다. 대표적인 네 가지 항목은 다음과 같다.

일관성(Consistency)
→ 등장인물의 외형, 조명, 배경이 장면 전환에서도 유지되는가?
→ 예를 들어, 주인공의 셔츠 색이 프레임마다 바뀌면 점수가 낮아진다.

흐름(Flow)
→ 카메라의 움직임이 자연스러운가?
→ 움직임이 끊기거나 물리적으로 불가능한 동작이 있으면 감점된다.

왜곡(Distortion)
→ 얼굴, 손가락, 물체의 형태가 깨지지 않고 안정적으로 유지되는가?
→ 영상의 왜곡률은 인간이 ‘이질감’을 느끼는 지점과 깊은 상관관계가 있다.

정밀도(Precision)
→ 프롬프트의 세부 요소를 얼마나 충실히 구현했는가?
→ “붉은 해 아래에서 춤추는 흰 드레스의 소녀”가 “분홍 하늘의 검은 원피스”로 바뀌면 감점.

이 네 가지 항목이 합쳐져,
AI가 생성한 영상의 ‘기술적 품질’을 숫자로 환산해낸다.

5.2.3 장단점: 정량 비교 가능성 vs 현실 감각의 불일치

VBench의 가장 큰 장점은 객관성의 환상이다.
수치로 비교할 수 있다는 건 강력하다.
A모델의 점수가 72, B모델이 68이면,
누가 더 좋은지 간단히 말할 수 있다.

하지만 문제는, 그 수치가 진짜 인간의 눈과 일치하지 않는다는 점이다.
예컨대, 어떤 영상은 VBench 점수는 낮지만
감정적으로 훨씬 풍부하고 영화적일 수 있다.
반대로, 수치상으로 완벽해도 어딘가 “기계 냄새”가 날 수도 있다.

이 괴리는 기술 발전의 본질적인 문제다.
VBench는 측정 가능한 영역만 평가한다.
하지만 예술적 감동, 상징, 여운 같은 것은
수식으로 측정할 수 없다.
그래서 결국 정량적 완벽과 인간적 설득력 사이의 균열이 생긴다.

5.2.4 활용 팁: 툴 조정 · 하이퍼파라미터 실험

VBench는 단순히 “성적표”가 아니라,
AI 영상 모델을 튜닝하는 나침반으로 사용할 수 있다.

① 프롬프트 테스트:
같은 문장을 다르게 표현해 입력해보고,
어떤 문체가 일관성 점수를 높이는지 실험해보라.
(예: “a young woman dancing under the sunset” vs “a girl in motion under warm sunset light”)

② 하이퍼파라미터 조정:
시드(seed), 샘플링 스텝, 가이드 스케일을 바꿔가며
결과의 일관성과 왜곡률을 비교한다.
수치가 달라지는 즉시 “어떤 변화가 영상 질감에 영향을 주는가”를 관찰할 수 있다.

③ 비교 시각화:
점수뿐 아니라 프레임 단위로 비교 GIF를 만들어보라.
인간의 눈으로 느끼는 차이와 점수의 괴리를 직접 체험할 수 있다.

이런 방식으로 VBench는 단순한 평가 도구에서 학습과 창작의 실험실로 확장된다.

요약:
VBench는 AI 영상의 ‘품질’을 숫자로 번역한 첫 번째 언어다.
하지만 그 언어는 아직 인간의 시선을 완전히 이해하지 못한다.
결국, 좋은 영상을 판별하는 일은 수치가 아니라 감각의 몫이다.

5.3 FVD (Fréchet Video Distance)

5.3.1 FVD의 수학적 직관 — 이미지 FID의 영상 확장

FVD(Fréchet Video Distance)는 영상 생성 모델의 품질을 수학적으로 평가하는 대표 지표다.
그 뿌리는 이미지 평가 지표인 **FID(Fréchet Inception Distance)**에 있다.

FID는 “AI가 만든 이미지가 실제 이미지 분포와 얼마나 닮았는가”를 측정한다.
수학적으로는 두 확률분포의 **평균(μ)**과 **공분산(Σ)**의 차이를 계산한다.
즉, 단순히 픽셀 단위의 차이를 보는 것이 아니라,
‘이미지가 어떤 시각적 특징 공간(feature space)’ 안에서
얼마나 자연스럽게 분포되는지를 보는 것이다.