생성형 text-to-video 모델, 구글 루미에르
AI가 발전하면서 <10년 후에 사라질 직종 TOP10> 등의 콘텐츠는 우리의 불안감을 해소, 혹은 증폭시켰습니다.
약 200년 전, 사진기가 등장하면서 프랑스의 초상화 작가 앙투안 뤼미에르(Lumiere)는 사진기사로 전향합니다. 앙투안의 두 아들은 세계 최초로 영화를 상영한 뤼미에르 형제입니다.
오늘은 구글이 지난 23일 뤼미에르 형제의 이름을 따서 만든 생성형 Text-to-Video 모델 Lumiere(루미에르*)가 주인공입니다.
*뤼미에르는 불어로 “빛”을 뜻합니다. 프랑스인 형제는 불어식 발음인 뤼미에르가 공식 표기입니다. 레터에서는 구글의 Lumiere를 미국식 발음인 '루미에르'로 표기합니다.
Text-to-Video(T2V) 모델은 런웨이의 Gen-2, 메타의 Emu, 피카랩스의 Pika 등 이미 여럿 배포되어 있는데요. 아래 사용자 반응 실험에 의하면 루미에르는 영상 품질과 텍스트 정렬에서 크게는 네 배까지 기존 모델을 뛰어넘습니다.
구글이 데모 영상에서 기능 자랑을 근사하게 해 두었으니, 레터에서는 기술의 차이점을 살펴볼까요?
위의 이미지 속 X-T 슬라이스는 시간(t)에 따른 공간(x)의 변화입니다. 영상이 재생될 때 연두색 선에서 일어나는 공간의 움직임을 보여주는 그래프인데요. Imagen Video의 슬라이스를 보면 픽셀이 무너지듯 끊기는 모습입니다. 반면 루미에르는 상대적으로 안정적입니다.
어째서 이런 차이가 있는 걸까요?
1. 루미에르는 시간 정보도 활용합니다.
기존의 생성형 영상 AI는 대부분 공간 정보만 활용한 U-Net 아키텍처를 사용해 이미지를 압축(다운샘플링)하고 확장(업샘플링)했습니다. 루미에르는 공간과 시간 정보를 모두 활용하는 Space-Time U-Net(STUNet) 아키텍처를 활용합니다.
2. 루미에르는 TSR 방식을 거치지 않습니다.
TSR(Temporal Super Resolution)은 띄엄띄엄 있는 프레임 사이에 새로운 프레임을 생성하여 수를 늘리는 방식인데요. 빠르게 움직이는 물체가 있다면 골치가 아파집니다. 프레임 사이에서 위치가 크게 변하면 새로운 프레임을 생성할 정보가 부족하기 때문입니다. 반면, 루미에르는 STUNet으로 전체 영상을 한 번에 생성하기 때문에 물체가 빠르게 움직이더라도 정보가 부족하지 않습니다.
STUNet을 사용한 루미에르의 파이프라인을 살펴보겠습니다.
일반적인 파이프라인 (a)에서는 간격을 두고 프레임을 생성한 베이스 모델을 사용합니다. TSR을 통해 사이사이 프레임을 채워 전체 프레임 수를 늘리지요. 그다음 SSR(Spatial Super-Resolution) 기술로 공간의 해상도를 높여 영상을 만듭니다.
루미에르의 파이프라인 (b)를 볼까요? 루미에르는 STUNet을 통해 처음부터 전체 프레임을 생성합니다. 사이사이 억지로 채울 프레임이 없으니 TSR은 필요하지 않습니다. SSR 기술을 활용해 해상도를 높인 후, 멀티디퓨전(Multidiffusion)을 통해 영상 속 발생하는 경계를 줄여 보다 자연스럽고 일관적인 움직임을 만들어 냅니다.
데모 영상이 공개되고 루미에르는 트위터와 레딧에 줄기차게 언급되고 있습니다. 아직 실사용은 불가능한데요. 데모 영상을 그림의 떡처럼 바라만 봐야 하는 입장이니 볼멘소리도 나옵니다. “실제로 론칭은 하는 거냐”, “제미나이(Gemini) 때처럼 영상을 조작한 것은 아니냐*”고요.
*제미나이 론칭 당시, 데모 영상 속 시간차와 프롬프트가 편집본으로 밝혀져 논란이 되었습니다.
영화, 혹은 영화관을 뜻하는 단어 ‘시네마(cinema)’는 뤼미에르 형제가 발명한 사진기이자 영사기인 ‘시네마토그라프(cinematographe)’에서 왔는데요. 시네마토그라프는 최초로 스크린에서 영상을 보여준 장치입니다.
필름을 활용해 당대 최고 자연스러운 영상을 구현한 뤼미에르 형제의 뒤를 이어, 공간과 시간 정보를 활용해 현재 최고 자연스러운 영상을 구현한 구글의 루미에르가 탄생했습니다. 뤼미에르 형제의 발명품도, 구글의 루미에르도 초당 16장의 속도로 영상을 생성한다는 사실은 어쩐지 근사한 우연입니다.