팀에서 상당히 많은 공감을 얻었던 글.
내용을 기록해둡니다.
(아티클은 AI인플루언서이자 Google maps의 senior PM이었던 Bilawal Sidhu가 쓴 생성형 영상의 주요 이슈 및 현황)
-----
1) 통합된 UI에서 타임라인과 샷을 편집할 수 있어야 한다. 심지어는 캡컷이나 프리미어프로 같은 형태가 되더라고 편집 기능은 매우 중요하다. 현재 런웨이 조차도 이런 UX를 구축하지 못했다. LTX Studio와 같은 시도가 있지만 결국 근본적인 문제(consistency와 control)를 해결하지 못했다.
2) 영상 제작에 필수적인 캐릭터의 일관성(Consistency)의 구현이 안된다. 더욱이 multi shot을 구현하기 위해서는 상당한 어려움이 뒤따르고, 복잡한 모션 구현에도 어려움이 많다. 여기에 루마, 런웨이, 피카, 클링 그리고 소라까지도 uncanny inconsistencies를 피할 수 없다.
3) 2.5D/3D를 AI와 함께 활용하는 하이브리드 방식은 여전히 가장 기대되는 쪽이다. 통일된 장면을 구축하고 Video to video style diffusion을 적용해 최종 영상을 제작할 수 있다. 3D는 Scene Graph는 캐릭터, 환경, 상호작용을 압축해 직관적인 편집이 가능하고 Scene에 생명력을 불어넣을 수 있다.
4) 현재 영상 AI들은 콘텐츠 제작 프로세스를 너무 세분화했다. 불편함과 시간소모가 큰 문제. 여기에 consistency와 control 문제로 AI movie studio 가 등장하기 어렵다. 밈을 만드는 건 가능하지만 스토리텔링은 쉽지않다.
https://twitter.com/bilawalsidhu/status/1808889955956957606