brunch

You can make anything
by writing

C.S.Lewis

by Tommyhslee Jun 30. 2024

'24년 상반기 공개된 생성형 AI영상 서비스 정리

올 상반기 출시된 주요 10개 생성형 AI 영상 서비스 살펴보기

AI는 IP비즈니스와도 매우 긴밀한 연관이 있습니다. <IP유니버스>를 통해서도 이야기했었지만 AI 기술이 IP비즈니스의 진입장벽을 낮추고 IP 확장성을 획기적으로 넓히는 계기가 될거라고 생각하고 있는데요, 제가 일하고 있는 분야가 AI 영상쪽이기도 하고 상반기를 마무리하는 상황에서 여러가지 내용들 정리해보면 좋겠다고 생각했습니다.


일단 '23년은 AI Video가 대중에 알려진 시기입니다. Pika Labs, Moonvalley, Genmo AI 같은 서비스가 처음 등장했고 그전부터 존재하던 Runway ML, Leonardo AI, Heygen, Kaiber, Viggle AI 등이 본격적으로 주목받은 것도 2023년이죠. 많은 회사들이 높은 기업가치로 대규모 펀딩을 이뤘습니다. 22년 Chat GPT 이후 LLM이 주목받고, 그 뒤를 이어서 Midjourney, Dall-E와 같은 이미지까지 확산된 것이 영상까지 닿았지만 영상은 또 다른 영역이었습니다. 텍스트나 이미지에 비해 퀄리티가 아쉬웠죠. 상용화되기에는 시간이 필요했습니다.


그러다 AI Video의 한 단계 도약을 보여준 것이 '24년 2월에 등장한 OpenAI의 SORA였습니다. 일관성이나 물리적 특성 같은 것들을 여전히 해소하진 못했지만 그래픽 퀄리티는 비약적으로 좋아졌습니다.


올 상반기에 나온 AI Video들만 어림잡아 수십개는 될겁니다. text to video가 기본 작동 방식이었는데 그 중 주요하다고 판단되는 서비스들을 모아보면 아래와 같습니다.


'24년 2월 : Sora

'24년 2월 : GoEnhance

'24년 3월 : Haiper AI

'24년 3월 : LTX Studio

'24년 4월 : Higgsfield AI

'24년 4월 : VIDU(China)

'24년 5월 : Google Veo

'24년 6월 : Kling(China)

'24년 6월 : Dream machine(Luma AI)

'24년 6월 : Runway Gen-3 Alpha

'24년 6월 : Hedra AI


'24년은 확실히 AI Video가 다른 생성형 AI서비스들보다 크게 주목받았습니다. 그도 그럴 것이 텍스트와 이미지는 이미 상당한 궤도에 올랐죠. 기술적으로 꽤 그럴듯한 뼈대를 이뤄냈고 이제 여기서 find tuning 하고 효율화하는 작업들이 수반됩니다. 물론 더 혁신적인 방식이 나올 수도 있지만 이미 사업화가 가능한 단계죠. 하지만 텍스트와 이미지에 비하면 영상은 아직 갈 길이 멉니다. SORA를 기점으로 그래픽 퀄리티는 크게 좋아졌지만 이 역시도 특정 액션이나 각도, 피사체에 따라 편차가 존재하고 '일관성'이라는 핵심 난제를 해결하지 못했습니다. 물리적 특성과 영상 길이도 극복해야 할 문제죠. 하지만 분명 1년 전보다는 긍정적인 변화를 많이 만들었습니다. 아래 올해 등장한 AI서비스들을 하나씩 살펴보겠습니다.


1. Sora

· 이건 따로 설명하진 않겠습니다.

https://openai.com/index/sora


2. Haiper AI

· '21년 런던에서 설립된 회사로 '23년 3월 AI Video 서비스를 출시

· 현재 서비스 중이고 처음 나왔을 때 소라보다는 퀄리티가 낮았지만 그래도 꽤 잘한다는 평가(?)를 들었던 서비스

· 사실적인 묘사와 다양한 스타일을 구현해 내는 것이 특징

· 회사는 $13.8M의 시드 투자를 유치하기도 했음

https://haiper.ai/


3. LTX Studio(Lightricks)

· Lightricks는 원래 Facetune, Videoleap, Photoleap 등 글로벌로 히트한 보정 서비스를 만들던 회사였음

·  Stable Diffusion과 Midjourney 기술 수준이 본격화된 이후 AI 서비스에 대해 고민하기 시작했고 신사업으로 낙점했다고 함

· 그렇게 출시된 LTX Studio는 비주얼 스토리보드, 스토리텔링 플랫폼을 표방

· One stop shop처럼 영상의 전반적인 기능을 한 곳에서 조작할 수 있는 것이 특징

· Creative People을 위한 툴을 표방하며 단순히 Prompt를 입력하고 결과만 받으면 끝이 아니라 AI가 만들어낸 결과물을 자신만의 방식으로 control 할 수 있는 것을 목표로 함

· LTX의 LLM은 prompt로 shot과 캐릭터를 구성

· 다만 영상 퀄리티는 크게 높은 수준이 아니며 아직은 waitlist 및 클로즈베타 상태

https://ltx.studio/


4. higgsfield AI

· Snap에서 Gen-AI 부서를 총괄하던 Alex Mashrabov이 론칭한 Higgsfield AI가 신규 생성형 AI Video 서비스를 공개할 예정

· 현재 Waitlist를 받고 있음. 그래픽 퀄리티나 형식은 Pika, Runway 등 기존 서비스와 유사해 보임

· Market Positioning을 SNS를 위한 AI Video로 잡고 타깃을 좁혀 들어갔음

· 회사는 '24년 1월 'Diffuse - AI Video Generator'라는 AI 서비스를 출시한 바 있음

· 개인의 사진을 넣으면 해당 외모로 생성된 AI Video를 제공하고 이 역시 SNS 타깃으로 만들어졌음

· 경쟁이 격화하는 AI Video 시장에서 니치한 마켓 포지셔닝을 가져가는 서비스 중 하나

https://higgsfield.ai/


5. VIDU

· 중국 기업인 Shengshu AI(셩슈AI)가 칭화대와 함께 개발

· Diffusion 모델과 transformer architecture를 통합한 U-ViT이라는 시각변환 모델을 사용

· SORA가 선보인 영상의 prompt를 그대로 표현한 영상들이 다수 포함됨

· 퀄리티는 소라보다 낮아 보이지만 기존 AI서비스와 유사하거나 좀 더 높은 수준의 퀄리티는 구현가능한 것으로 보임

https://www.shengshu-ai.com/home

https://www.youtube.com/watch?v=FneDGOVaHl0


6. Google Veo

· Veo는 1분 이상의 1080p 해상도 영상을 생성할 수 있음

· 샘플 영상을 보면 Sora만큼은 아니지만 꽤 가까운 수준의 graphic quality를 구현

· 드론샷, 시네마틱 카메라 구도와 특정 내용을 수정할 수 있는 편집 기능이 특징

· 다만 인물 표현이나 역동적인 동작 등의 예시는 포함되지 않아 어느 정도 구현이 가능할지는 더 지켜봐야 함

· 대중에 공개된 것은 아니고. VideoFX라는 일종의 lab을 통해 waitlist를 받고 있음

· 구글에 따르면 본 기능들은 향후 유튜브 등 구글 제품에 추가될 수 있다고 함

https://aitestkitchen.withgoogle.com/ko/tools/video-fx


7. Kling

· 틱톡 경쟁사로 유명한 콰이쇼우가 발표한 자체 AI 영상 모델

· Text to video 형태이며, 공개된 영상들은 Sora 수준의 퀄리티를 보여주며 대항마로 급부상했음

· 회사에 따르면 영상은 30 frame으로 최대 2분까지 생성가능하며, 3D 시공간의 특징을 구현하고 물리적 특성을 구현할 수 있음

· 다만 아직 사용이 불가능하고, 공개된 영상의 길이가 짧은 것이 대부분이라 실제 사용성에 대해서는 여러 이야기가 있는 상태

https://kling.kuaishou.com/


8. Luma AI

· 미국의 스타트업 루마 AI가 베타로 출시한 생성형 AI영상 서비스 ‘드림 머신(Dream Machine)’

· 드림 머신은 단일 프롬프트에서 1360x752 해상도로 2분 내에 초당 1 프레임의 속도로 5초 분량의 비디오 클립을 생성

· 일부 제한된 그룹만 액세스 할 수 있는 오픈 AI의 SORA나 콰이쇼우의 'Kling'과 달리, 루마 AI 웹사이트에서 누구나 무료로 사용할 수 있음

· 향후 크리에이티브 소프트웨어용 API와 플러그인도 출시할 계획

· 현재 무료 사용의 경우 월 영상 30개 생성으로 제한되며, 월 30~500달러의 유료 요금제를 이용할 수 있음

https://lumalabs.ai/dream-machine/creations


9. Runway Gen-3 Alpha

· 현지시간 6/17 런웨이가 비디오 생성 모델인 Gen-3 Alpha를 발표. 회사는 이번에 'major'한 진전이 있었다고 전함

· 공개된 데모영상의 퀄리티는 Sora와 유사한 수준으로 보이며 길이가 10초까지 늘어난 것이 특징(기존 3~4초)

· 생성속도 또한 매우 빨라져 5초 영상을 생성하는데 약 45초, 10초는 90초 정도 소요된다고 알려짐

· 서비스는 아직 대중 공개되진 않았으며, 회사는 safeguards 등을 정비하여 출시한다고 밝힘

· 다만 일관성 등 핵심 이슈는 여전히 개선이 필요

https://runwayml.com/blog/introducing-gen-3-alpha/


10. Hedra AI

· 이미지를 입력하고, 원하는 대사와 목소리, 스타일 등을 입력하면 립싱크 영상이 생성

· 기존에 MS의 VASA나 알리바바 EMO 같은 것들이 있었지만 상용화되지 않은 논문형태였음

· 상용화된 것들은 heygen이나 synthesia 같은 AI Avatar 업체들이 있었는데 감정이나 표현력 측면에서 딱딱하고 건조한 느낌이었음

· Hedra의 경우 기존에 나와있던 기술이지만 대사에 따른 감정표현이나 싱크로율이 훨씬 좋은 편이고 image prompt 등 여러 기능을 모아둠

· 다만 얼굴이 꽉 차는 이미지에서만 가능하며, 상반신 또는 전신 이미지를 올려도 자동으로 크롭 되어서 제작함

· 현재 사이트에서 무료로 테스트해 볼 수 있음

https://www.hedra.com/app/characters


이 외에도 여러 AI영상 서비스와 논문이 발표되었고, Runway의 Gen-3와 같이 기존 AI 영상 업체들에서도 다양한 서비스가 출시되었습니다. Sora가 나왔을 때 엄청난 격차를 보여준 것 같았지만 이내 3~4개월 만에 나머지 업체들도 비슷한 퀄리티를 내기 시작하며 전반적인 수준을 끌어올렸습니다. AI 영상 시장 환경이 올 연말, 또 내년에 얼마나 빠르게 변화할지 기대와 우려가 동시에 되는 지점입니다.



+여기서부터는 홍보..이지만 제가 최근에 합류한 회사에서도 AI와 3D 모델링을 기반으로 한 영상 프로그램을 개발하고 있습니다. 아직 자세히는 설명드리기 어렵지만 기술적으로 다른 방식으로 접근해 기존 생성형 AI 영상서비스들이 갖고 있는 취약점들을 상당히 극복했고 올해 하반기 출시를 예정하고 있습니다. 개인적으로는 매우 기대가 되고 웹툰, 웹소설은 물론 버츄얼, 숏폼, 나아가서는 드라마와 영화까지 다양한 분야에 활용될 수 있습니다. 관심부탁드리고 혹시 관련해서 협업이나 여러 가지 관심 있으신 분들은 따로 연락 주시면, 뵙고 이야기 나누면 좋겠네요. 감사합니다.


https://www.sedaily.com/NewsView/2DAM62WB3D


매거진의 이전글 IP비즈니스, 영상 콘텐츠 산업이 직면한 변화와 AI
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari