전세계 모든 방법. 5장.
AI 영상 모델의 세계는 마치 안개 속 경주 같다.
누가 더 빠른가, 누가 더 정교한가, 누가 더 ‘진짜 같은 영상’을 만들 수 있는가—
이를 가늠하려면 결국 평가 기준이 필요하다.
VBench나 FVD 같은 지표들은 단순한 점수 이상의 역할을 한다.
그것들은 개발자들의 나침반이며, 동시에 산업의 언어다.
숫자로 성능을 표현해야 연구자들은 서로를 비교하고, 발전의 속도를 측정할 수 있다.
이 지표들은 하나의 공통 언어로서, 서로 다른 실험실과 기업의 경계를 넘게 해준다.
하지만 이 “측정”이라는 행위 자체가 이미 세계를 정의한다.
어떤 항목을 중요하다고 정하느냐에 따라,
AI는 그 방향으로 진화하기 때문이다.
예를 들어, “프레임 일관성”을 강조하면 모델은 움직임을 부드럽게 만드는 데 집중하지만,
그 과정에서 감정이나 예술적 표현은 도려내질 수도 있다.
평가가 단순한 잣대가 아니라 진화의 방향키가 되는 순간이다.
AI 모델의 성능은 숫자로 표현되면 객관적으로 보인다.
하지만 그 수치는 보이는 세계의 절반만을 담는다.
예를 들어 FVD 점수가 낮다고 해서, 반드시 ‘좋은 영상’이라는 뜻은 아니다.
그 수치는 데이터 분포의 유사성만 말해줄 뿐,
영상 속 인물의 감정이나 장면의 서사는 전혀 고려하지 않는다.
수치는 개발자에게 방향을 준다.
그러나 동시에 창작의 다양성을 제한하기도 한다.
모든 모델이 동일한 기준을 향해 달리면,
결국 비슷비슷한 결과물만 남는다.
이것이 바로 “수치화의 함정”이다.
예술이든 기술이든, 가장 위험한 것은
‘보이는 것만 믿는 것’이다.
AI 영상의 품질은 단순히 픽셀 단위의 정확도가 아니라,
이야기의 설득력, 장면의 호흡, 감정의 진폭 속에 깃들어 있다.
그러나 이런 것들은 숫자로 환원되지 않는다.
그래서 우리는 늘 질문해야 한다.
“이 수치가 정말 내가 원하는 ‘좋음’을 대표하는가?”
AI 영상 품질에 대한 판단은,
누가 보느냐에 따라 완전히 달라진다.
개발자는 효율성과 재현성을 본다.
그는 “얼마나 안정적으로 생성되는가”를 측정한다.
수치가 낮고 일관성이 높으면 성공이다.
그의 세계는 데이터와 알고리즘의 조화로 구성되어 있다.
사용자는 다르다.
그는 기술적 완성도보다 “느낌”을 본다.
영상이 자신을 몰입시키는가,
감정이 흐르고 캐릭터가 살아 있는가—
그의 기준은 수치가 아닌 감각의 리듬이다.
비평가는 또 다른 세계를 산다.
그는 영상의 의미와 맥락, 문화적 파급력을 본다.
“이 영상이 새로운 감각을 제시했는가?”
“이 기술이 인간의 창조성을 확장했는가?”
그에게 중요한 것은 완성도가 아니라 새로움과 울림이다.
결국, 하나의 영상은 세 가지 평가 체계를 동시에 통과한다.
그 결과는 언제나 불완전하다.
그래서 우리는 숫자와 감각, 효율과 감동 사이를
끊임없이 왕복해야 한다.
평가란 ‘정답’을 찾는 과정이 아니다.
그것은 무엇을 중요하게 여길 것인가를 결정하는 철학적 선택이다.
기준이 바뀌면 세계가 바뀐다.
그리고 지금, AI 영상의 세계는 바로 그 기준을 다시 쓰는 중이다.
VBench는 한마디로 말해, AI가 만든 영상을 평가하기 위한 공식 시험장이다.
영상 생성 모델이 얼마나 자연스럽고 일관되게 영상을 만들어내는지를
‘정량적으로’ 평가하기 위한 벤치마크(benchmark)로,
OpenAI의 Sora, Pika, Runway, Kling, Vidu 같은 모델들이 모두 이 무대 위에서 시험을 치른다.
VBench는 기존의 이미지 평가 지표(FID, IS 등)를 확장한 영상 전용 품질 측정 프레임워크다.
단일 프레임이 아닌 시간의 흐름 속에서 모델이 얼마나 자연스럽게 세계를 구성하는지 본다.
즉, 정지화면이 아니라 움직임의 품질을 측정한다는 점이 가장 큰 차별점이다.
그 내부는 크게 세 축으로 나뉜다.
공간적 품질(Spatial Quality) — 해상도, 디테일, 노이즈, 왜곡
시간적 일관성(Temporal Consistency) — 프레임 간 연결, 부드러움, 객체 지속성
내용적 이해(Semantic Understanding) — 프롬프트의 의미 반영, 맥락 일치, 감정 표현
즉, VBench는 단순히 ‘좋다/나쁘다’를 평가하는 도구가 아니라,
AI가 세계를 얼마나 “자연스럽게 이해하고 재현하느냐”를 측정하는 장치다.
VBench의 핵심 평가지표들은 인간이 영상을 감상할 때 느끼는 감각적 완성도를
수학적으로 모사하려는 시도라 할 수 있다. 대표적인 네 가지 항목은 다음과 같다.
일관성(Consistency)
→ 등장인물의 외형, 조명, 배경이 장면 전환에서도 유지되는가?
→ 예를 들어, 주인공의 셔츠 색이 프레임마다 바뀌면 점수가 낮아진다.
흐름(Flow)
→ 카메라의 움직임이 자연스러운가?
→ 움직임이 끊기거나 물리적으로 불가능한 동작이 있으면 감점된다.
왜곡(Distortion)
→ 얼굴, 손가락, 물체의 형태가 깨지지 않고 안정적으로 유지되는가?
→ 영상의 왜곡률은 인간이 ‘이질감’을 느끼는 지점과 깊은 상관관계가 있다.
정밀도(Precision)
→ 프롬프트의 세부 요소를 얼마나 충실히 구현했는가?
→ “붉은 해 아래에서 춤추는 흰 드레스의 소녀”가 “분홍 하늘의 검은 원피스”로 바뀌면 감점.
이 네 가지 항목이 합쳐져,
AI가 생성한 영상의 ‘기술적 품질’을 숫자로 환산해낸다.
VBench의 가장 큰 장점은 객관성의 환상이다.
수치로 비교할 수 있다는 건 강력하다.
A모델의 점수가 72, B모델이 68이면,
누가 더 좋은지 간단히 말할 수 있다.
하지만 문제는, 그 수치가 진짜 인간의 눈과 일치하지 않는다는 점이다.
예컨대, 어떤 영상은 VBench 점수는 낮지만
감정적으로 훨씬 풍부하고 영화적일 수 있다.
반대로, 수치상으로 완벽해도 어딘가 “기계 냄새”가 날 수도 있다.
이 괴리는 기술 발전의 본질적인 문제다.
VBench는 측정 가능한 영역만 평가한다.
하지만 예술적 감동, 상징, 여운 같은 것은
수식으로 측정할 수 없다.
그래서 결국 정량적 완벽과 인간적 설득력 사이의 균열이 생긴다.
VBench는 단순히 “성적표”가 아니라,
AI 영상 모델을 튜닝하는 나침반으로 사용할 수 있다.
① 프롬프트 테스트:
같은 문장을 다르게 표현해 입력해보고,
어떤 문체가 일관성 점수를 높이는지 실험해보라.
(예: “a young woman dancing under the sunset” vs “a girl in motion under warm sunset light”)
② 하이퍼파라미터 조정:
시드(seed), 샘플링 스텝, 가이드 스케일을 바꿔가며
결과의 일관성과 왜곡률을 비교한다.
수치가 달라지는 즉시 “어떤 변화가 영상 질감에 영향을 주는가”를 관찰할 수 있다.
③ 비교 시각화:
점수뿐 아니라 프레임 단위로 비교 GIF를 만들어보라.
인간의 눈으로 느끼는 차이와 점수의 괴리를 직접 체험할 수 있다.
이런 방식으로 VBench는 단순한 평가 도구에서 학습과 창작의 실험실로 확장된다.
요약:
VBench는 AI 영상의 ‘품질’을 숫자로 번역한 첫 번째 언어다.
하지만 그 언어는 아직 인간의 시선을 완전히 이해하지 못한다.
결국, 좋은 영상을 판별하는 일은 수치가 아니라 감각의 몫이다.
FVD(Fréchet Video Distance)는 영상 생성 모델의 품질을 수학적으로 평가하는 대표 지표다.
그 뿌리는 이미지 평가 지표인 **FID(Fréchet Inception Distance)**에 있다.
FID는 “AI가 만든 이미지가 실제 이미지 분포와 얼마나 닮았는가”를 측정한다.
수학적으로는 두 확률분포의 **평균(μ)**과 **공분산(Σ)**의 차이를 계산한다.
즉, 단순히 픽셀 단위의 차이를 보는 것이 아니라,
‘이미지가 어떤 시각적 특징 공간(feature space)’ 안에서
얼마나 자연스럽게 분포되는지를 보는 것이다.
FVD는 여기에 **시간의 축(Time dimension)**을 더한 확장판이다.
이미지 한 장이 아니라, 연속된 영상 프레임들이 함께 이룬 분포를 비교한다.
그래서 FVD는 단지 “예쁜 한 장면”이 아니라,
“자연스럽게 이어지는 움직임의 품질”을 평가할 수 있다.
즉, FVD는 이렇게 묻는다.
“이 AI가 만들어낸 영상이, 실제 사람이 찍은 영상의 ‘리듬’을 닮았는가?”
FVD의 계산 과정은 수학적으로는 간단하지만, 그 의미는 깊다.
특징 추출 (Feature Extraction)
사전 학습된 영상 인식 모델(I3D 등)을 사용하여
각 영상에서 고차원 특징 벡터를 추출한다.
이때 모델은 ‘무엇이 움직이고 있는가’, ‘어떤 구조가 지속되는가’를 감지한다.
분포 계산 (Distribution Modeling)
AI 생성 영상과 실제 영상 각각의 특징 분포를
평균(μ)과 공분산(Σ)으로 모델링한다.
거리 계산 (Fréchet Distance)
두 분포 간의 거리(Fréchet Distance)를 계산한다.
수식은 다음과 같다.
FVD=∣∣μr−μg∣∣2+Tr(Σr+Σg−2(ΣrΣg)1/2)FVD = ||μ_r - μ_g||^2 + Tr(Σ_r + Σ_g - 2(Σ_rΣ_g)^{1/2})FVD=∣∣μr−μg∣∣2+Tr(Σr+Σg−2(ΣrΣg)1/2)
여기서 μr,Σrμ_r, Σ_rμr,Σr은 실제(real) 영상의 평균과 공분산,
μg,Σgμ_g, Σ_gμg,Σg는 생성(generated) 영상의 평균과 공분산이다.
값이 작을수록, 두 영상의 분포가 비슷하다는 뜻이다.
즉, FVD가 낮을수록 자연스러운 영상으로 간주된다.
FVD의 가장 큰 강점은 전체적인 자연스러움을 정량화할 수 있다는 점이다.
이는 한 장면만으로 평가하는 VBench보다
‘영상의 흐름’을 포착한다는 점에서 진일보한 접근이다.
그러나 그만큼 **국지적인 디테일(local detail)**에는 둔감하다.
예를 들어, 인물의 손가락이 일시적으로 뒤틀리거나
얼굴이 한두 프레임에서 일그러져도,
전체 분포에는 큰 영향을 주지 않아 점수는 여전히 낮게 나올 수 있다.
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.