매거진 Tech Pause

Veo 3와 Imagen 4: 콘텐츠 창작은 끝났는가?

구글 I/O 2025 총정리 연재 시리즈 ④

by 오유나

구글 I/O 2025 발표 정리 및 해설: https://www.youtube.com/watch?v=ZM4QhEne0v4


“대본만 있으면 영화 한 편이 완성된다.”
“음성과 영상이 따로가 아니라 동시에 생성된다.”
“입 모양과 감정 표현까지 정확히 동기화된다.”

이 문장이 허황된 미래 예측처럼 들린다면, 이제는 업데이트가 필요하다.
2025년 Google I/O에서 구글은 자사의 AI 기반 영상 생성 모델인 Veo 3와 이미지 생성 모델 Imagen 4를 통해 “콘텐츠 창작의 마지막 문턱마저 넘었다”는 선언을 했다.
우리는 지금, 단어 몇 줄이면 영화가 만들어지는 시대에 도달했다.


Veo 3: 단어에서 영상, 동시에 사운드까지

Veo 3는 단순한 텍스트→비디오 생성기가 아니다. 그 구조의 진정한 혁신은 다음 세 가지에 있다.

영상 + 사운드 동시 생성 음성과 영상이 따로 생성되는 게 아니라, ‘한 큐에’ 동기화된 상태로 출력된다. 이로써 후편집이 불필요해졌다.

입 모양 동기화 (Lip Sync) 생성된 인물이 말하는 내용과 입술 움직임이 일치한다. 더 이상 더빙이 아니라 디지털 인물이 스스로 말하는 것처럼 보인다.

사운드 디자인 반영 바람, 배경음, 발걸음, 악기 소리 등 공간감을 만들어주는 오디오 효과도 자동으로 입혀진다. 이는 ‘영상미’가 아니라 ‘현장감’의 완성이다.


“This is the first video model that truly ‘understands’ timing and audiovisual rhythm.”
– 딥마인드 연구진


Imagen 4: 정적인 이미지의 끝, 살아있는 이미지의 시작

이미지 생성 모델인 Imagen 4 역시 단순히 “고해상도 예쁜 이미지”를 넘어서 있다.

이미지 내부에서 움직임의 방향성을 감지하고, 이어질 동작을 예측할 수 있다.

다중 시점(multi-perspective) 이미지 생성을 통해, 가상의 공간이나 사물을 회전시키듯 보여준다.

캐릭터 일관성, 배경의 사실성, 재질의 물리적 표현이 극도로 강화되었다.


이를 통해 Veo와 Imagen은 단순히 '정지영상'과 '움직이는 영상'의 경계를 허문다.
둘은 연결되어 “콘텐츠 제작 파이프라인 전체를 AI로 자동화”할 수 있게 되었다.


"편집기조차 필요 없다" – AI 영상 편집기 Flow

구글은 영상 생성뿐 아니라, 편집 과정에서도 사람을 필요로 하지 않게 만들고 있다.
신규 공개된 Flow는 자연어 기반 영상 편집 플랫폼이다.

예시:

“첫 장면에 강아지가 등장하게 해 줘.”

“다섯 초쯤 뒤에 드론으로 찍은 풍경 넣어줘.”

“이 부분에 웃음소리 추가해 줘.”

“세 번째 장면에 텍스트 자막 넣고, 폰트는 둥근 고딕으로.”


위처럼 말로만 명령해도, AI가 알아서 컷을 구성하고 클립을 조합해 편집된 영상을 만들어낸다.
즉, 이제 영상 편집은 ‘기술’이 아니라 ‘대화’가 되었다.


인간 창작자의 위치는 어디인가?

이쯤 되면 물음이 떠오른다.
“그럼 인간은 이제 뭘 하지?”

콘텐츠 제작의 전 과정을 AI가 수행한다면, 기존의 역할 구조는 다음과 같이 재편된다.

스크린샷 2025-05-30 오전 10.03.38.png

즉, 창작자의 노동은 ‘기술적 수행’에서 ‘의도 설계와 윤리적 통제’로 옮겨간다.

그러나 이 변화는 창작자 개개인에게는 다음과 같은 위협으로 다가올 수 있다.

수입 감소 (특히 프리랜서)

제작비 인하 압박

크레딧 삭제 및 저작권 희석

플랫폼 독점화 (구글, 오픈 AI 등만 활용 가능한 구조)


생각해 볼거리: 창작은 죽었는가, 혹은 새로 태어나는가?

1. AI가 만든 작품도 예술인가?

사람의 손을 거치지 않은 작품이 감동을 줄 수 있는가?
창작의 핵심은 '기술'이 아니라 '의도'라면, 그 의도는 AI에게도 있는가?

어떤 이는 “예술은 인간의 고통과 맥락에서 비롯된다”라고 말한다.

반면, 누군가는 “예술은 감정을 유발하는 결과물이면 된다”라고 주장한다.


당신은 어느 쪽인가?


2. AI 창작물의 저작권은 누구에게?

AI가 만든 영상, 이미지, 음악. 누구의 것인가?

프롬프트를 입력한 사용자?

모델을 훈련시킨 회사?

학습 데이터의 원저작자?


이 문제는 지금도 글로벌 법조계에서 논의 중이며,

유럽연합과 미국은 서로 다른 방향으로 입장을 내고 있다.


3. 우리는 여전히 창작할 이유가 있는가?

AI가 더 빠르고 정확하고 저렴하게 만들 수 있다면, 인간이 창작하는 이유는 무엇인가?

단지 ‘비효율적 감정 노동’ 일뿐인가?

아니면, 창작이 인간다움의 마지막 방어선인가?


유튜브, 광고, 영화... 어디까지 영향을 줄까?

광고업계: 한 광고 시나리오로 20개 버전 제작 가능. 타깃 국가/연령/성별에 따라 AI가 자동 편집.

유튜브: 혼자서 브이로그, 내레이션, 시각효과까지 모두 자동 생성. ‘1인 스튜디오’가 진짜로 가능.

영화 산업: 배우 없이 제작 가능. 실제로 이미 몇몇 중소 영화제에서는 Veo 기반 작품이 출품되었다.


AI 콘텐츠가 늘어날수록 인간 콘텐츠는 ‘시간이 오래 걸리는 프리미엄’이 되어간다.
그리고 더 많은 창작자가, 비용 압박으로 AI를 선택하게 될 것이다.


마치며: 기술이 창작을 죽이는가, 확장시키는가

Veo 3와 Imagen 4는 단순한 영상 생성 도구가 아니다. 그것은 인간의 상상력이 미처 가 닿지 못한 시각적 세계를 먼저 구현하는 기술이다.
이 기술을 쓰는 사람은, 어쩌면 카메라를 든 사람보다 더 창작자일 수도 있다.

그러나 동시에, 우리는 질문을 던져야 한다.

“내가 만들고 있는 건가, 만들어지고 있는 건가?”
keyword
매거진의 이전글실시간 더빙의 혁명: 언어 장벽은 무너졌는가?