생성형 AI 영상 산업에 관심이 있으신가요? 최근 들어 AI 영상 쪽 강연이나 원고 요청이 늘어난다고 느꼈는데요, 관련하여 정리한 내용들이 있어서 간략하게 공유해 볼까 합니다. 기술 이야기도 하겠지만 제가 사업을 주로 보는 사람이다 보니 그런 방향으로 이야기해보겠습니다.
2024년: Emergence
2025년: Consolidation
그리고 2026년: Evolution
일단 2024년에 무슨 일이 있었는가 하면 이 시기는 AI영상 산업의 Emergence의 시기였습니다. Sora를 시작으로 Haiper AI, LTX Studio, Higgsfield AI, VIDU, Google Veo, Kling, Luma AI, Pika Labs, Runway, Hedra AI, Hailuo Minimax, Stability AI, Krea AI, Hunyuan, Viggle AI, Quic Magic, Leonardo, Kaiber, Lensgo, Goenhance, Moonvalley.. and more
엄청나게 많은 생성형 AI 영상 모델들이 등장했죠. 한 달에 2~3개, 1년에 수십 개 모델이 생겨났습니다. 마침 제가 그 시점에 쓴 글이 있습니다.
https://brunch.co.kr/@tommyhslee/120
그럼 생성형 AI 영상 모델이 그전에는 없었냐? 하면 그건 아닙니다. 훨씬 오래전부터 있던 개념인데 기폭제는 역시 Open AI의 Sora였죠. 도쿄를 걸어가는 여성, 눈밭을 달리는 매머드 영상. 아마 기억나실 겁니다. 정말 센세이셔널 그 자체였죠. 보니까 이때도 글을 썼네요.
https://brunch.co.kr/@tommyhslee/110
무튼 2024년은 Sora이후 AI 영상이라는 새로운 시대에 흥분한 기업들과 창업자들이 무수히 많은 영상서비스를 쏟아냈습니다. 그러다 2025년에 들어선 양상이 순식간에 바뀌었습니다. 2024년이 'Emergence'라면 2025년은 'Consolidation'의 한 해였습니다. 그 많던 모델들이 하나둘씩 사라졌고 주요 업체들만 남은 거죠.
대표적으로 Open AI의 Sora, Google의 Veo, Kuaishou의 Kling 세 곳과 Alibaba의 Wan, ByteDance의 Seedance처럼 주로 미·중 빅테크에서 내놓은 AI 영상모델들 있고요, Luma AI, Runway, Hailuo Minimax처럼 스타트업 기반인 곳들도 Consolidation 과정에서 살아남았습니다. 물론 여기서 또 몇 업체가 더 사라질지는 모를 일이죠.
확실히 미국과 중국이 주도권을 잡았습니다. 이유는 간단하죠. 투자금 때문입니다. 텍스트 기반인 LLM의 Foundation model을 하나 만들 때도 수백억 혹은 수천억이 들어간다고 하죠. 그 운영비는 더 엄청납니다. OpenAI가 3~4천만 명의 유료 사용자를 확보하고도 대규모 적자를 내고 있는 건 모두가 알고 있는 사실이죠. 텍스트가 이런데 이미지는 어떨까요? 데이터량이나 이에 따른 컴퓨팅 리소스가 텍스트보다 높죠. 그럼 영상은요? 훨씬 높은 허들이 기다리고 있죠. 제대로 된 생성형 AI 영상 모델을 하나 만드는 데는 천문학적인 금액이 투자됩니다. 애초에 이러한 확산모델(Diffusion Model) 기반의 생성형 AI 영상 모델은 특정 국가나 기업에서 어떠한 전략적 목표를 갖고 투자하지 않는 이상, 미국과 중국을 제외한 국가에서 등장하기 불가능에 가까운 모델입니다.
이야기가 조금 돌아왔는데 아무튼 정리하면 생성형 AI영상의 Foundation Model은 LLM과 마찬가지로 소수 업체 위주로 통합이 진행되었습니다. 그렇다면 이 분야에서 스타트업이 할 수 있는 일은 아무것도 없을까요? 그렇진 않습니다. Application Model이 등장했기 때문이죠. LLM도 GPT와 Gemini 둘 다 쓰시는 분들 많죠? AI 영상 모델도 각자가 갖고 있는 장점과 특징이 다르기 때문에 여러 가지 모델을 구독하는 사용자가 많습니다. 이를 위해 이를 하나의 bundle로 묶어주는 Agent 서비스들이 생겨났죠. 일종의 애플리케이션입니다. Invideo나 Krea, Higgsfield, OpenArt, Freepik 같은 곳들이 대표적입니다.
Foundation Model은 일종의 Commodity化가 되어서 말 그대로 기반이 될 좋은 모델을 공급해 주고, 애플리케이션들은 이를 API로 불러와서 판매하고 일부 마진을 먹는 식이죠. 사업 구조가 이렇다 보니 애플리케이션의 경쟁력은 기술이 아니라 '마케팅 역량'이 되었습니다. 기술은 Foundation Model들이 해결하니 사실상 애플리케이션별 기술 경쟁력은 없다고 봐야 하고, 결국 이를 원활하게 서비스할 수 있는 '매장' 잘 구축해 두는 것과 손님을 끌어올 마케팅 역량이 중요 해진 겁니다.
최근 여기서 눈에 띄는 기업이 Higgsfield입니다. 최근 Techcrunch에서 기사도 났는데 주요 내용을 요약하면 이렇습니다.
- 웹사이트: https://higgsfield.ai/
- 기업가치: 13억 달러(약 1.9조, 최근 투자유치 기준)
- 창업자: 알렉스 마슈라보프(Alex Mashrabov), Snap의 전 생성형 AI 부문 책임자 출신.
2020년 자신의 스타트업 'AI Factory'를 Snap에 1억 6,600만 달러에 매각한 바 있음
- 사용자 수: 1,500만 명
- 매출: 현재 ARR 기준 2억 달러(약 2,900억 원)
기업가치부터 매출 성과가 대단하죠. 물론 아직 흑자가 나는지는 모릅니다. 아마 아직 적자일 것으로 예상되는데요 이 회사의 가장 큰 특징은 AI 영상 모델을 일종의 템플릿화 했다는 겁니다. 아마 생성형 AI 쓰시면서 '사람들은 화려하고 멋진 결과물들을 만드는데 나는 도저히 어떻게 해야 하는지 모르겠다'라는 분들 많으실 텐데요, 여기는 그런 멋진 비주얼들을 다 템플릿화 했습니다. 상세한 prompting 없이 회사에서 미리 tuning 해둔 템플릿에 맞춰 클릭 몇 번만 하면 영상이 완성되는 식이죠. 디테일한 연출과 표현은 어려울 수 있지만 나쁘지 않은 퀄리티의 결과물을 손쉽게 만드는 게 특징입니다. 덕분에 시장포지셔닝도 meme이나 취미용 콘텐츠 제작에서 소셜미디어 마케터들을 위한 비즈니스 툴로 입지를 굳히는 중이고요.
그도 그럴 것이 대표인 Alex가 창업해 Snap에 매각했던 AI Factory가 본래 마케팅이나 브랜드용 숏폼 광고를 자동으로 생성해 주는 AI 영상 서비스였기 때문에 Higgsfield 역시 바이럴에 재능이 있죠. 굉장히 공격적이면서 직관적인 바이럴을 많이 합니다.
물론 이 모델이 사업적으로 얼마나 건강한 성과를 만들어낼 수 있을지는 지켜봐야 합니다. 구독매출에서 API 비용을 빼고 운영에 다른 서버비용, 인건비, 마케팅비, 기타 운영비용까지 모두 감당해야 하는데 API 서비스 특성상 높은 마진을 확보하기 어렵고(마진을 너무 높게 받으면 굳이 애플리케이션을 쓰지 않고 Original로 이동하겠죠) API 비용의 변동비 성격 때문에 마진 레버리지를 내기도 어렵죠(매출이 오르면 비용이 따라서 올라가니..). 그리고 결정적으로 이런 애플리케이션은 지금처럼 여러 Foundation Model이 서로 경쟁하며 엎치락뒤치락해 줘야 의미를 갖습니다. 2~3개 업체가 이를 독점하면 그냥 Foundation Model을 직접 쓰면 되지 굳이 애플리케이션을 쓸 필요가 없죠. 오히려 업체 간 경쟁이 치열해야 유리한 사업모델입니다. 산업 동향이 매우 중요하죠. 그런 면에서 이 회사가 어떻게 재무적 성과를 만들어갈 수 있을지 지켜보는 것도 의미가 있을듯합니다.
아무튼 Foundation Model이 아니어도 이 정도 매출 성과를 만들어내는 회사들이 나오고 있다는 건 산업이 또 다른 형태로 변화하고 있다는 뜻이고 긍정적이라고 생각합니다. 또한 생성형 AI 영상 퀄리티가 좋다고 하지만 산업계 이야기를 들어보면 여전히 갈길이 많이 남아서 사용자들이 니즈에 맞게 취사선택할 수 있는 다양한 형태의 영상 서비스가 필요한 것도 현실이죠. 애초에 영상이라는 게 종합예술이고 창작의 영역이며 단순히 기술적으로 완성하는 게 다가 아니라 연출자의 어떠한 터치 같은 게 반드시 들어가야 하는데 그런 면에서 현재 기술들은 굉장히 미흡합니다.
생성형 AI 관련해서 '딸깍'이라는 말을 참 많이 쓰는데 이 딸깍도 기준이 있습니다. 창작을 돕고 편의성을 도와주는 딸깍이 맞지 그냥 zero to one 딸깍은 별 의미가 없다고 생각하거든요. 우리가 소비하고 싶은 콘텐츠는, 적어도 아직까지는 그런 건 아니라고 생각합니다.
아무튼 제가 보는 AI 영상 산업은 최근 이런 모습입니다. 뒤에 제가 속한 회사에서 만드는 AI영상 서비스 얘기도 좀 담아볼까 했는데 그간 많이 얘기했던 것 같아 잠시 접어두고, 서비스 링크와 저희 툴에 대해 의견을 담아준 AI크리에이터 코멘트가 있어서 살포시 두고 사라지겠습니다. 관심 있으신 분은 연락 주세요. tommyhslee1@gmail.com
감사합니다.
https://x.com/FellMentKE/status/2012155897045528861?s=20