brunch

연재 중 인간과 인공지능의 거리 1mm 22화

라이킷 19 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

AI : Text to Video의 시대

이제는 더 진짜 같은 영상도 만들어냅니다

by Pen 잡은 루이스 May 09. 2024

아래로

놀라울 정도로 발전한 신기술, 우리가 일상에서 경험하는 수많은 것들 중 손톱만큼이라도 테크놀로지의 눈부신 발전이 이룩한 결과물들이 있을 텐데요. 대표적으로 스마트폰을 들 수 있겠죠. 삼성전자에서 갤럭시라는 이름으로 선보인, 스티브 잡스가 검은색 티셔츠를 입고 소개했던 그런 스마트폰이 이렇게 세상을 바꾸게 될 줄이야. 급기야 삼성의 갤럭시는 S24라는 디바이스의 표면적 네이밍 틈으로 '최초의 AI폰(Galaxy AI is here)'이라는 타이틀을 내세우기도 했습니다. 꾸준하게 발전하는 기술의 속도만큼 디바이스의 성능 또한 눈부시게 진화를 거듭합니다. 갤럭시 S1부터 현존하는 S24까지, 아이폰 역시 1세대부터 아이폰 15로 이어지기까지, 숫자만 단순히 높아진 것이 아니라는 점 다들 아시잖아요? 여전히 스탠바이 중인 인공지능 어시스턴트에 통번역 기능까지 탑재했고 카메라의 성능도 발전을 거듭해 어두운 곳에서도 밝게 찍을 수 있는 렌즈에 시네마틱 수준의 동영상을 기록하는 것은 물론 손쉽게 편집할 수 있는 기능까지 전부 가졌으니 더할 나위가 없죠. 스마트폰은 기술 발전의 일례일 뿐입니다.

인공지능 분야에서도 뉴로모픽(neuromorphic)이나 AGI(Artificial General Intelligence)와 같은 차세대 인공지능을 언급하는 시대가 되었습니다. 현존하는 생성형 인공지능 또한 다음 버전으로 넘어가기 위한 도약을 준비 중입니다. (단순히) 텍스트를 생성하는 것에 이어 이미지와 동영상을 만들어내는 수준까지 이르렀죠. 누가 봐도 살아 숨 쉬는듯한 현실적인 이미지를 비현실적으로 만들어냅니다. 명품 브랜드를 입은 교황이나 경찰에 체포되어 끌려가는 트럼프 사진까지 현실을 왜곡하는 케이스들도 생겨났죠. 미드저니에서 만들어낸 미드저니(Midjourney)라던가 오픈 AI의 Dall-E, 어도비의 파이어플라이(Firefly) 같은 이미지 생성 AI 플랫폼도 꽤 각광을 받기도 했습니다. 문자 그대로 텍스트만 입력하면 이미지를 만들어내는 'Text to Image'라는 기술이 등장하게 된 것이죠. 하지만 이것도 철 지난 '옛날' 이야기입니다. 얼마 지나지 않았지만 이제는 'Text to Video'도 가능해졌으니까요.

Text to Video Generator 'Sora' by OpenAI

아시는 분들은 아시겠지만 지상 최대의 동영상 플랫폼 유튜브도 '숏폼 트렌드'에 올라타며 '유튜브 쇼츠(Shorts)'를 서비스하고 있습니다. 미국의 1834세대(18살부터 34살까지) 중에서도 무려 56%나 이용한다는 틱톡(tiktok)도 그 영향력을 제대로 실감할 수 있을 정도고 인스타그램 릴스(Reels)까지도 수도 없이 쏟아져 나오는 1분 남짓의 동영상 콘텐츠를 어렵지 않게 소비할 수 있을 정도가 되었습니다. 이처럼 일반 동영상 콘텐츠는 물론 쇼츠 영상이 만연하고 있는 시대에 있어 'Text to Video' 기술은 어쩌면 이미지(Text to image) 보다 더 크게 활용될지도 모릅니다.

(위에서도 언급했지만) 명품 브랜드 입은 교황과 같이 굉장히 현실적으로 보이는 딥페이크 이미지들이 등장하면서 종종 논란이 되기도 하는데 분명하게 드러났던 이슈들이 있는데 근본적으로 해결되지 않은 상황 속에서 기술만 발전하고 있는 것은 아닌가 하는 생각이 드네요. 오픈 AI가 구축했다는 'Sora(소라)'라는 텍스트 투 비디오 모델을 보면 디테일한 부분에서 왜곡되는 현상을 볼 수 있었습니다. 조악하고 엉성하기도 했지만 전체적으로 보면 크게 무리가 없었죠. 무엇보다 이러한 부분이 개선되는 건 시간문제라고 생각됩니다. Runway의 인공지능 모델인 젠 2(Gen2)는 감히 말해서 픽사와 비교될법한 수준이라고도 합니다. 여기서는 생성형 인공지능 모델을 활용해 제작한 다양한 작품들을 선보이는 영화제를 개최하고 있을 정도랍니다. 정교하게 그리고 재미있게 잘 다듬어진 플롯을 재료로 넣고 AI로 제작한 단편 애니메이션 작품들도 생겨났죠. 플롯은 물론이고 전체적인 완성도가 충분하다면 OTT 플랫폼 따위에 슬쩍 끼워 넣어도 모를 정도라는 거죠.

Image & Text to Video Tool. Gen2 by Runway

사실 생성형 인공지능 기술이 앞으로 어떤 특정 작품에서 활용될 예정이라고 말하지만 이미 사용했던 흔적들이 있습니다. 넷플릭스 오리지널 시리즈 중에서 <살인자O난감>에는 손석구와 최우식 등이 등장하는데 손석구의 아역 모습이 이러한 테크놀로지를 활용해 만들어졌다고 하죠. 이건 일종의 실험이기도 하고 챌린지이기도 합니다. 도전하지 않으면 더 좋아질 수 없는 것이죠. 일단 이창희 감독(살인자O난감 연출)은 시도라도 해본 것이겠네요. 완성도를 떠나서 말입니다. 어찌 됐든 'Text to Video' 기술이 더욱 좋아질 수 있다면 국내외 제작사들 또한 이러한 테크놀로지를 적극 환영하게 될 것입니다. 굳이 거부할 이유가 있을까요?

지난해와 올해 코엑스에서 열린 AI 엑스포에 다녀왔는데요. 여기에서도 버추얼 휴먼을 내세우는 기업들이 있었습니다. 몇 년 전만 해도 퀄리티가 떨어지는 것 아닌가 하는 생각이 들기도 했었지만 몇 달, 몇 년 사이 훌쩍 성장해 버린 기술력과 정교함에 놀라움을 감추지 못했죠. 이렇게 발전했다고? 실제 사람과 다르지 않을 만큼 고퀄리티를 선보이고 있었답니다. 세상에 없는 배우가 탄생하는 것도 시간문제가 될 것 같았답니다. 결국 작은 투자로 더욱 많은 일을 해낼 수 있게 된 것이죠.

'10억 달러(한화 약 1조 3천700억 원)'

바로 세계적인 팝 아티스트 테일러 스위프트(Taylor Swift)가 가수 활동으로만 모았다는 재산입니다. 어마어마한 인기를 누리고 있는 그녀가 딥페이크 포르노의 희생양이 되었다는 이야기가 있었죠. 노출 사진 위로 테일러 스위프트의 얼굴을 덧씌운 딥페이크 이미지가 'X(트위터)'를 통해 급속도로 확산되었다고 했습니다. 생성형 인공지능뿐 아니라 새로운 테크놀로지가 탄생하면 이를 어떻게든 악용하려고 하는 사례들이 보입니다. 사실상 인류의 삶을 위한 테크놀로지가 어떤 목적이든 '어뷰징'이라는 것과 공존한다는 것이죠. 공공성을 저해하고 어두운 돈을 움켜쥐려고 하는 악용 사례는 어제오늘 일이 아닙니다. 새로운 테크놀로지가 불법 혹은 유해한 목적으로 만들어지지 않도록 규제해야 할 것이고 '합법이라는 스탠다드한 기준'을 넘어 피해를 입은 사람들을 구제하고 단순 어뷰징뿐 아니라 누군가에게 '해'를 입힌 가해자들에 대한 처벌도 필요해 보입니다. 인공지능을 개발하는 주체와 정부기관이나 사회단체, 학계에 이르기까지 전문가라고 할만한 사람들이 모여 거버넌스 차원의 고민도 필요하겠습니다. 좋은 기술이 생기면 좋은 의미로 좋은 곳에 잘 활용될 수 있어야죠. 기술이 주는 가치란 그런 거니까요.

keyword