brunch

글로 써서 영상을 만드는 시대

Veo3 (T2V), Kling 2.1 (I2V) 사용 후기

by SSuperWasabi

며칠 전 Veo3, Kling 2.1 그리고 capcut을 활용해 가상의 e스포츠 토너먼트 트레일러를 제작해 봤습니다.

확실히 AI 생성형 모델들의 발전이 눈에 띄게 빠르고 놀랍네요.


이번 작업에서 느낀 점을 한 문장으로 적자면 아래입니다.

Text to Video의 최강자는 Veo3, Image to Video의 최강은 Kling 2.1


최종 아웃풋을 먼저 올려드립니다. (여러분의 시간은 소중하니까요)


전체 워크플로우는 다음과 같습니다.


워크플로우

1. 여성 캐스터 이미지 생성: 미드저니 v7, Flux Kontext Pro

2. e스포츠 선수 등장씬: Veo3, Veo2 (Text to Video)

3. 여성 캐스터 장면: Kling 2.1 (Image to Video)

4. 트레일러 엔딩: Veo3 (Text to Video)

5. 영상 자막, 오디오 및 컷편집: Capcut


Veo3: T2V의 새로운 표준

Text to Video 부분에서 Veo3는 정말 강력했습니다.

첫 시도만으로도 상당히 쓸만한 클립이 생성되어 바로 편집에 활용할 수 있었어요.

특히 인상 깊었던 점은 배경음이나 효과음, 관중의 환호소리까지 자연스럽게 함께 생성된다는 것이었습니다.

(아웃풋에 들어간 관객 소리, 중계 음성 모두 Veo3가 영상과 같이 생성해 준 결과물)


Kling 2.1: I2V의 강력한 경쟁자

Kling 2.1도 막강한 경쟁상대입니다.

Image to Video에서 같은 프롬프트로 가장 자연스럽게 인물의 동작을 구현해 냈어요.

많은 수의 군중들도 정말 자연스러운 모션으로 표현하는데, 기존 모델들에서는 제대로 구현되지 않았던 장면 중 하나였습니다.


AI가 만드는 일과 창작의 변화

AI와 작업을 할수록 느끼는 점은, AI가 특정 직업을 대체하기보다는 기존 워크프레임을 확장한다는 것입니다.


영상팀이 아니어도 영상 콘텐츠 제작이 가능하고, 개발자가 아니어도 필요한 앱을 만들 수 있습니다.

마케터가 직접 웹 이벤트 페이지를 구축하고, MD가 상품 디자인부터 목업까지 제작이 가능해졌습니다.


그렇다고 이러한 AI 기술과 프로덕트의 발전이 반드시 기존 인력들을 대체하는 것은 아니라고 생각해요.

물론 빅테크 기업들의 대규모 Layoff를 보면서 저 또한 어느 정도 불안한 심정이 드는 것은 사실입니다.


하지만 AI 기술의 가장 큰 수혜자는 결국 기존 전문가들, 또는 새로운 형태의 협업과 프로세스 구축에 활짝 열려있는 마인드를 지닌 사람들이 될 것입니다. 전문 역량과 AI 도구가 결합될 때 그 시너지는 폭발적일 것이라고 확신하기 때문이에요.

이제 AI는 '대체'되는 것이 아니라 각자에게 필요한 니즈와 목표를 위해 '활용'해야 할 도구가 되었습니다.

필요한 고민은 이 도구를 어떻게 활용하고 어떤 아웃풋을 내느냐가 되겠어요.

freepik__a-portrait-of-a-smiling-korean-woman-around-23-yea__71076.png
u8128236626_A_teenage_kpop_singer_Korean_girl_cute_face_aesth_6a7cd58b-265b-400d-a37e-c9cbfe877e15_0.png
미드저니 v7, Flux 로 생성한 기본 여성 모델 이미지
freepik__a-young-korean-woman-wearing-a-black-tshirt-with-a__71079.png
freepik__a-young-korean-woman-wearing-a-black-tshirt-with-a__71078-4x-scaled.png
Flux Kontext pro 로 생성한 여성 캐스터 이미지


첫 트에 나온 Veo3 Text to Video 영상 (컷편집만 해서 바로 사용)
역시 첫 트에 생성한 Kling 2.1로 만든 Image to Video
Kling 2.1로 생성 후 freepik에서 편집한 번외편 인트로 (군중 동작이 기존보다 훨씬 자연스럽다)



keyword