brunch

You can make anything
by writing

C.S.Lewis

by 김라텔 Apr 19. 2023

텍스트만으로
영상을 만드는 시대가 왔다.

런웨이 AI, Gen-2 모델 공개

들어가며


생성AI가 일상을 뒤흔들고 있다. 검색엔진에 AI챗봇을 적용하는 일이 없을거라 단언했던 구글마저도 경쟁사의 위협에 못이겨 5월 중으로 챗봇형 검색엔진 '마기(Magi)'를 선보일 예정이다. 생성AI는 어느 순간에 갑자기 찾아와서, 이제는 대표 IT공룡이라 하더라도 거스를 수 없는 물결이 되었다. 근데, 이 AI열풍은 비단 대기업만의 이야기가 아니다. 수 많은 스타트업들이 이 시장을 선점하기 위해 고군분투하고 있다. 이들은 혁신적이고 빠른 전개의 일명 '스타트업 방식'으로 AI 대항해시대의 최첨단에 서있다. 그 대표적인 스타트업이 오늘 소개할 '런웨이'다. 런웨이는 뉴욕 시에 위치한 AI 스타트업으로, 현재 시리즈C 라운드에 있으며 지금까지 한화로 약 1260억원을 투자받았다. 특히 작년 12월에 한화 약 650억원을 투자받았는데, 금리 인상 등 변수로 인해 투자 시장이 동결된 상황이었음에도 불구하고 대규모 투자를 받았다는 점에서 고무적이다. 도대체 어떤 기술을 지니고 있는걸까?


(출처: 런웨이)

런웨이와 매직툴


런웨이는 이미지 및 비디오 편집 작업 전문 AI개발에 특화된 스타트업이다. 런웨이는 작년 10월 '매직툴'이라는 서비스를 선보였는데, 매직툴은 영상, 이미지 등 콘텐츠의 생성과 편집을 손쉽게 하도록 도와주는 AI 도구들이다. 현재는 무려 27가지 기능을 제공한다. 

매직툴 리스트 (출처: 런웨이)

예를 들어 'Green Screen' 기능을 활용하면 영상의 배경을 클릭 몇번으로 손쉽게 제거할 수 있고, 'Super-Slow Motion'기능을 활용하면 영상의 특정 부분에 슬로우모션 효과를 입힐 수 있다. 'Inpainting' 기술을 활용하면 지우개로 지우듯 영상 속에서 어떠한 물체든 지울 수 있다. 

Inpainting 효과 (출처: 런웨이)
런웨이와 Gen-1 모델
Video to Video


그리고 런웨이는 올해 2월 Gen-1을 선보였다. Gen-1은 런웨이의 최초 생성 AI 모델로, 기존에 있는 영상에 텍스트나 이미지 프롬프트를 활용하여 새로운 영상을 만들어 준다. 'Video to Video'라고 불리는 이유다. 

Gen-1의 다양한 모드를 제공한다. 


Mode01: Stylization

기존 비디오 영상에 Driving Image의 스타일을 입혀 독창적이고 새로운 영상을 구현하는 기능이다. 예를 들어 아래의 예시와 같이 남자가 춤을 추는(?) 기존 영상(Source Video)에 스타일 이미지(Driving Image)를 더하여 불타는 모습의 새로운 캐릭터가 춤을 추는듯한 아예 새로운 느낌의 영상을 만들어낸다.    

Stylization 모드 (출처: 런웨이)

Mode 02: Storyboard

가짜 건축물 등의 모형을 찍은 영상을 실물 애니메이션으로 렌더링해준다.

Storyboard 모드 (출처: 런웨이)


Mode 03: Mask

기존의 영상의 물체를 특정한 후 스타일을 입힐 수 있다. 예를 들어 아래 그림과 같이 인풋 영상(Input Video)의 강아지에 "강아지의 털에 검은색 점을 만들어줘" 라는 텍스트 프롬프트를 통해 강아지의 외형을 바꿀 수 있다. 점박이 달마시안이 되었다.  

Mask 모드 (출처: 런웨이)

Mode 04: Render

가상의 3D 렌더링 모델을 실사화 해준다. 

Render 모드 (출처: 런웨이)

Mode 05: Customization

사용자의 취향에 따라 영상을 마음대로 커스터마이징할 수 있다. 아래 그림처럼 본인의 얼굴 위에 외계인 얼굴을 입힐 수 있는 것이다. 

Customization 모드 (출처: 런웨이)

런웨이와 Gen-2
Text to Video


그리고 얼마 되지않은 3월, Gen-2가 공개된다. Gen-2의 공개는 커다란 반향을 불러 일으켰다. 왜냐하면, Gen-1은 기존에 존재하는 영상을 토대로 새로운 영상을 만드는 기술이었다면, Gen-2는 기존 영상 없이 AI가 스스로 영상을 제작하는 수준으로 도약했기 때문이다. 그렇다. Gen-2에서는 무려 텍스트만을 통해 영상을 생성할 수 있다. 미드저니, Dall-E에서 텍스트 프롬프트만으로 이미지를 쉽게 생성하는 것과 같은 방식으로 무려 움직이는 영상을 만들 수 있는 것이다. 예를 들어 "파도를 타는 서퍼를 만들어줘" 라는 지시어를 입력하면 실제 서퍼가 서핑을 하는 영상을 만들어준다. 아래는 "늦은 오후 뉴욕의 한 다락방 창문으로 들어오는 햇살"이라는 지시어로 만들어진 영상으로, 마치 영화의 한 장면 같다는 느낌을 준다. Gen-2에서는 Text to Video외에도 두 가지 모드가 추가되었다. 

 

Mode 02: Text + Image to Video

인풋 이미지에 텍스트 프롬프트를 통해 새로운 영상을 만들어낸다. 아래의 예시를 살펴보자. 기존에 남자 이미지에 "주점가의 네온사인이 비춰지는 거리를 걷는 남자의 로우 앵글(아래 각도에서 찍은)샷" 이라는 지시어를 입력해 이에 해당되는 새로운 영상을 창조했다.

Mode 03: Image to Video

AI가 이미지를 해석해 이미지의 분위기, 스타일에 입각한 새로운 영상을 만들어낸다. 


끝맺으며


Gen-2는 아직 모델 초기임에도 불구하고 생성해내는 영상의 퀄리티가 꽤 높은 편이다. Text to Image가 세간을 뜨겁게 달군지 얼마 채 되지 않아 Text to Video 시대가 도래했다. Text to Video 에서 Text to Movie 로 넘어가는 데에는 얼마나 걸릴까? 현재의 발전 속도로 미루어보았을 때, 머지않아 유저가 집에서 오로지 생성AI를 활용하여 전문가 수준의 미니 영화를 만드는 시대가 올 수도 있을 것 같다. 




출처

https://research.runwayml.com/gen2

https://runwayml.com/ai-magic-tools/#top


매거진의 이전글 이미지분할 AI 모델 'SAM'으로 세상을 놀래킨 메타
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari