이렇게 또 한 발짝 앞서가는 오픈 AI, 놀랍다!
미드저니(Midjourney)라는 툴을 이용하게 되면 텍스트 기반으로 고퀄리티의 이미지를 만들어낼 수 있었습니다. 미드저니 이외에도 다양한 생성 AI가 'Text to Image' 기능을 수행할 수 있었죠. 어도비의 '파이어플라이'도 있었고 오픈 AI의 'DALL-E'도 그 정도는 가능했습니다. 어떤 작품의 플롯이 될법한 시나리오만 있으면 생성형 인공지능 기술을 통해 영화 하나를 뚝딱 만들 수 있는 시대에 이르렀습니다. 오픈 AI가 이번에는 Sora라는 툴을 개발했습니다. 텍스트를 통해 최대 1분 남짓의 비디오를 생성하는 기능입니다. 테스트 결과물을 보셨다면 아주 깜짝 놀랄법하답니다. Sora가 본격 서비스를 진행하게 되면 관련 업계에도 큰 변화가 일어나게 될 것 같은데요. 그만큼 혁신적인 인공지능 모델이라 생성형 AI가 다시 한번 스스로 한계를 넘어섰다고 말할 정도랍니다.
단순한 '고화질'을 넘어 디테일 또한 뛰어납니다. 하긴 디테일이 뛰어나야 고화질, 고퀄리티가 되는 법이겠죠. 어쨌든 Sora는 최대 1분 길이의 비디오를 생성할 수 있는데요. 현실세계에 존재하는 물리법칙과 공간적 개념, 빛의 위치를 통해서 드러나게 되는 사물의 형태 등 굉장히 정교하게 구현하고 있습니다. 특정 피사체와 휘황찬란하고 다소 복잡한 길거리의 모습까지 사실적으로 생성하는 것은 유저가 던진 명령어를 인지하고 이를 실제 세계일 때 어떻게 보이는지를 제대로 이해한다는 것이겠죠. 전체를 넓게 보면 군더더기가 없어 보일 수 있으나 미세한 부분을 들여다보면 아주 완벽하다고 할 순 없습니다. 말하자면 일부는 뭉개진다거나 오류가 발생해 기이하게 보이는 경우들이 생긴다는건데요. 아직은 테스트 중인지라 불완전성을 배제할 순 없을 것 같습니다. 그럼에도 불구하고 비디오라는 특정 분야의 생성 모델로서 완벽히 새로운 표준임을 깨닫게 해주는 획기적 발명인 것은 틀림 없는 것 같습니다.
Sora는 기존 'Text to Image' 기술 모델인 Dall-E3의 기술을 채택해 비디오로서 모델을 고도화한 것입니다. 무작위 픽셀 퍼즈를 이미지로 변환하는 확산 모델에 긴 데이터 시퀀스를 처리하는 트랜스포머 신경망을 병합하는 작업을 통해 비디오로 처리하게 됩니다. 굉장히 획기적인 기능이기는 하지만 오픈 AI는 이 기능 출시에 이전보다 더 신중을 기한다고 합니다. 이미지 분야에서도 문제가 됐던 딥페이크 때문이죠. 이미지를 생성하면서 발생했던 딥페이크 이슈가 비디오라는 형태가 되면 또 다시 같은 리스크를 반복하게 된다는 우려의 목소리가 있습니다. 분명히 긍정적 의미의 테크놀로지인데 이를 악용하고 오용하는 경우는 늘 생기는 법이죠. 오픈 AI 역시 이러한 리스크를 인지하고 있습니다.
“We’re being careful about deployment here and making sure we have all our bases covered before we put this in the hands of the general public.”
오픈 AI는 "대중들에게 이 기능을 실제 공개하기 이전에 서비스 배포에 대단히 신중을 기하고 있으며 모든 기반들이 잘 갖춰져 있는지 수차례에 걸쳐 철저한 테스트를 수행한다"고 했습니다. 현실과 구분하기 어려울 정도라면 딥페이크로 악용될 여지가 충분한데 Sora가 생성된 영상 콘텐츠를 식별할 수 있는 탐지 기술을 비롯하여 생성된 비디오의 메타데이터 안에 AI로 생성되었다걸 증명하는 워터마크를 삽입하는 것도 검토하고 있다고 했습니다. 논란의 여지가 있을법한 부분에 대한 것이라면 오픈 AI와 같이 테크놀로지를 연구하고 개발하는 테크 기업들 또한 책임감을 가져야겠죠. 그런 의미에서 오픈 AI도 책임감과 사명감을 다해 Sora를 디벨롭 중이라고 했습니다. OTT는 물론이고 유튜브나 틱톡 같은 스트리밍 서비스가 중심을 이루고 있는 비디오 시대 속에서 텍스트 하나면 비디오를 만들어준다는 Sora는 또다시 큰 변화로 다가오게 될 것입니다. 꾸준히 진화를 거듭하는 미디어 환경에서 Sora와 같은 비디오 생성 테크놀로지와 인간이 만들어내는 콘텐츠가 서로 잘 융합하고 공존하는 미래를 기대해 봐도 좋지 않을까요?
아래는 오픈 AI의 'X'에서 따온 것입니다. 여기서도 아래와 같이 소개하고 있습니다.
'디테일한 장면과 복잡한 카메라 모션, 생생한 감정을 갖고 있는 여러 캐릭터들을 특징으로 하는 맥시멈 60초 분량의 비디오를 만들 수 있다'라고 말이죠. X에 업로드된 짧은 영상의 프롬프트는 다음과 같습니다.
“Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.”
"눈 덮인 아름다운 도쿄 도심. 카메라가 번화한 도심을 따라 이동하는데 하얗게 변해버린 도심을 즐기며 근처 상가에서 쇼핑 중인 수많은 사람들을 팔로우합니다. 화려한 벚꽃잎과 눈꽃이 휘날리고 있습니다."
벚꽃이 눈꽃과 함께 흩날리네요. 벚꽃이 만발했는데 눈이 내리는 모습에서 괴리가 있을 수 있지만 둘의 조화가 그런대로 아름답게 보이긴 합니다. 영상은 17초 분량입니다.
https://x.com/OpenAI/status/1758192957386342435?s=20
※ 아래는 2월 16일 NBC 뉴스에서 다룬 오픈 AI의 Sora 이야기입니다. 보다 다양한 생성 비디오를 보실 수 있을 거예요. (콘텐츠 타이틀 : OpenAI unveils text-to-video tool Sora)
ttps://youtu.be/SkCz4LqzNF4?si=6U1efZTQ5zrPMkUh
- <ChatGPT’s Memory Boost, Sora Text-To-Video, And Nvidia’s PC Chatbot>(2024.2.15), Forbes
- <OpenAI’s Sora: A Cinematic Leap in Generative Video Technology>(2024.2.16), medium