brunch

매거진 오픈AI Sora

라이킷 10 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 유훈식 교수 Apr 12. 2024

Sora 개발자들이 소개하는 AI 동영상 생성 원리

오픈AI Sora팀의 리더 3명이 IT 유튜버 Marques Brownlee 채널에 출연해서 Sora에 대해서 소개하는 시간을 가졌습니다. 해당 인터뷰 전문을 번역해서 올려 드립니다.

ㅇ 원본 영상: Sora Developers Explain AI Video Generation

https://www.youtube.com/watch?v=eBvvJUYtnEA&t=26s

Marques Brownlee 00:02

우선 모두 참여해 주셔서 감사합니다. 여러분 모두 바쁘시겠지만 이렇게 시간을 내 주셔서 정말 감사합니다. 혹시 다시 한 번 이름과 Open AI에서 맡고 계신 역할을 말씀해 주실 수 있으실까요?

Bill Pebles(Leader) 00:14

네, 제 이름은 Bill Pebles입니다.

저는 여기 Open AI에서 Sora 프로젝트의 리더입니다.

Tim Brooks(Research Leader) 00:19

저는 Tim Brooks입니다. 저도 Sora 프로젝트의 리서치 리더입니다.

Aditya Ramesh(Leader) 00:23

저는 Aditya Ramesh입니다. Sora팀의 리더입니다.

Marques Brownlee 00:26

멋지네요. 그래서 저는 Sora에 대해 반응했습니다.웹사이트에서 발표를 보고 여러분이 제공한 예시 비디오들을 모두 봤는데 정말 인상적이었습니다. 간단하게 설명해 주실 수 있나요? DALLE와 확산 모델을 이전에 설명했듯이 Sora가 동영상을 만드는 방식은 어떻게 되나요?

Bill Pebles(Leader) 00:54

네. 일단 고차원적으로 Saora는 생성 모델입니다. 지난 몇 년 동안 GPT 같은 언어 모델부터 DALLE와 같은 이미지 생성 모델에 이르기까지 다양한 멋진 생성 모델이 많았습니다. Sora는 동영상 생성 모델이며, 이는 많은 동영상 데이터를 보고 사실적인 동영상을 생성할 수 있도록 학습한다는 것을 의미합니다.

Bill Pebles(Leader) 01:15

구체적으로는 DALLE와 같은 확산 기반 모델과 GPT 같은 LLM에서 기법을 빌려왔습니다. 어딘가 사이에 있으며, DALLE처럼 훈련되지만 구조적으로는 GPT 계열과 더 유사합니다. 하지만 고차원적으로는 실제 세계와 디지털 세계의 모든 종류의 콘텐츠를 생성하기 위해 훈련됩니다.

Marques Brownlee 01:38

다양한 종류의 것들을 생성하는데, 다른 모델들이 그랬던 것처럼 학습한 내용을 바탕으로 하죠. Sora는 무엇에 대해 학습했나요?

Tim Brooks(Research Leader) 01:48

자세한 내용은 말씀드릴 수 없지만 공개적으로 이용 가능한 데이터와 OpenAI가 라이센스를 취득한 데이터의 조합으로 학습되었습니다. Sora를 만들면서 우리가 혁신한 점 중 하나는 다양한 지속 시간, 다양한 종횡비 및 해상도의 동영상을 학습할 수 있도록 했다는 것입니다. 이것은 정말 새로운 것입니다. 그래서 이전에 주요 동영상 생성 모델을 학습할 때, 사람들은 일반적으로 아주 고정된 크기, 예를 들어 한 가지 해상도로만 학습했습니다.

Tim Brooks(Research Leader) 02:19

하지만 우리가 하는 것은 모든 종류의 이미지와 동영상, 넓은 종횡비의 동영상, 긴 동영상, 짧은 동영상, 고해상도, 저해상도 등을 이러한 작은 조각들, 우리가 패치라고 부르는 것으로 전환합니다. 그런 다음 입력 크기에 따라 다른 수의 패치를 사용하여 동영상을 학습할 수 있습니다. 이를 통해 모델이 더 다양한 데이터에 대해 학습할 수 있도록 하고 다양한 해상도 및 크기로 콘텐츠를 생성할 수 있도록 합니다.

Marques Brownlee 02:50

그래서 여러분은 이것을 사용하고, 구축하고, 개발하는 데 어느 정도 시간을 보냈습니다. 그리고 당연히 아닐 수도 있지만, 동영상에는 조명, 반사, 물리학, 움직이는 객체 등 많은 변수가 있습니다. Sora가 현재 상태에서 잘하는 것은 무엇이며, 특정 약점이 있나요? 조금 있다가 제가 요청한 동영상을 보여드릴 텐데, 한 손에 6개의 손가락이 있는 등의 문제가 있습니다. 하지만 이것이 만드는 것의 특정 강점과 약점은 무엇이라고 보셨나요?

Tim Brooks(Research Leader) 03:26

네, 확실히 사실주의적인 부분에서 크게 진보했습니다. 그리고 동영상이 최대 1분까지 길 수 있다는 것은 이전에 가능했던 것에서 큰 도약입니다. 하지만 여전히 어려움을 겪는 부분이 있습니다. 손을 다루는 것은 언급하셨듯이 일반적인 고통스러운 부분이지만 물리학의 일부 측면에서도 어려움을 겪습니다. 예를 들어, 3D 프린터에 대해 요청한 한 예에서 볼 수 있듯이, 그것은 완전히 제대로 처리하지 못합니다.

Tim Brooks(Research Leader) 03:52

맞아요. 그리고 만약 시간에 따른 매우 구체적인 카메라 궤적과 같은 것을 요청한다면, 그것을 제대로 하는 데 어려움을 겪습니다. 그러니까 시간이 지남에 따라 발생하는 물리학적 측면이나 궤적과 같은 일부 측면에서는 어려움을 겪고 있습니다.

Marques Brownlee 04:06

이 모델이 잘하는 일을 보는 것은 정말 흥미롭습니다. 조명과 반사뿐만 아니라 근접 촬영과 질감에서도 정말 좋은 사실주의를 보여주는 예시들이 있습니다. DALLE처럼, 스타일을 줄 수도 있습니다. 예를 들어, 35mm 필름으로 촬영되었거나 DSLR로 흐릿한 배경과 함께 촬영되었다는 등의 스타일 말이죠.

Marques Brownlee 04:25

하지만 이 비디오에는 소리가 없습니다. 소리를 추가하는 것이 엄청나게 추가적인 작업이 될 것인지, 아니면 제가 생각하는 것보다 더 복잡한 일인지 궁금합니다. AI 생성 비디오에 AI 생성 사운드도 갖추게 되는 것은 얼마나 멀었다고 느끼나요?

Bill Pebles(Leader) 04:45

이런 종류의 일들에 대한 정확한 타임라인을 제공하기는 어렵습니다. Sora에 대해서는, 우리는 비디오 생성 모델의 능력을 한 단계 끌어올리는 데 집중했습니다. 이전에는 AI 생성 비디오가 대체로 4초 정도이거나 프레임 속도가 꽤 낮고 품질이 좋지 않았기 때문입니다. 그래서 지금까지 많은 노력을 기울였습니다. 하지만 다른 종류의 콘텐츠를 추가하는 것이 비디오를 훨씬 더 몰입감 있게 만들 것임에는 분명히 동의합니다. 그래서 분명히 고려하고 있는 부분입니다. 하지만 지금 당장은 Saora가 주로 비디오 생성 모델이며, 그 분야에서의 능력을 향상시키는 데 집중하고 있습니다.

Marques Brownlee 05:20

알겠습니다. 그러니까 Dolly는 시간이 지남에 따라 많이 개선되었고, 여러분은 Sora를 계속 발전시키고, 개선하려고 노력하고 있습니다. 우선, 여러분이 충분히 좋다고 생각해서 세상에 공유할 준비가 되었을 때 어떻게 아나요? 그리고 어떻게 해서 계속 발전시키고, 개선할 수 있는지 어떻게 알 수 있나요?

Tim Brooks(Research Leader) 05:49

우리에게 정말 큰 동기부여가 된 것은 사실 이 기술을 블로그 포스트 형식으로 세상에 내놓기로 결정했지만, 아직 준비가 되지 않았다는 것입니다. 피드백을 받아서 이 기술이 사람들에게 어떻게 유용할 수 있는지, 그리고 어떤 안전 작업이 필요한지를 이해하기 위함입니다. 이것이 앞으로 우리 연구 로드맵을 정하는 데 도움이 될 것입니다. 그래서 현재로서는 제품이 아니며, 챗GPT나 다른 것에도 이용할 수 없습니다. 그리고 이것을 제품으로 전환할 때의 타임라인도 현재로서는 가지고 있지 않습니다.

Tim Brooks(Research Leader) 06:18

그러나 지금 우리는 피드백을 받는 단계에 있습니다. 그래서 우리는 분명히 개선할 것입니다만, 어떻게 개선해야 할지는 여전히 열린 질문입니다. 우리는 이 기술이 지평선에 있음을 세상에 보여주고 사람들로부터 이것이 어떻게 유용할 수 있는지, 안전 전문가들로부터 이것을 어떻게 세계에 안전하게 만들 수 있는지 듣고 싶습니다. 그리고 일부 예술가들로부터 이것이 그들의 작업 흐름에서 어떻게 유용할 수 있는지 듣고 싶습니다. 그리고 그것이 우리의 의제를 설정하는 데 도움이 될 것입니다. 그래서 지금까지 무엇을 들었나요?

Tim Brooks(Research Leader) 06:53

네, 우리가 확실히 들은 한 가지 피드백은 사람들이 더 상세한 컨트롤을 원한다는 것입니다. 그래서 앞으로 흥미로운 방향이 될 것입니다. 지금은 아마도 비교적 짧은 프롬프트를 가지고 있지만, 사람들은 생성된 콘텐츠의 정확한 내용을 더 많이 제어하는 데에 큰 관심이 있다는 것입니다. 그래서 분명히 우리가 살펴볼 것 중 하나입니다.

Marques Brownlee 07:14

흥미롭군요, 예를 들어, 화면이 넓은지 또는 세로인지, 또는 잘 조명되어 있는지 등을 확실히 하고 싶어하는 것과 같은 것들을 단순히 프롬프트 엔지니어링에 대해 걱정하지 않고 싶을 수 있습니다. 그래서 저는 결국에는 가능할 것이라고 생각합니다. 하지만 그 지점에 접근함에 따라, 사람들이 소셜 미디어에서 보는 비디오가 실제인지 가짜인지, 그리고 그 비디오가 신뢰할 수 있는 출처에서 왔는지를 인식할 수 있도록 이러한 능력을 공개하는 데 있어 주의를 기울여야 합니다. 우리는 이러한 능력이 잘못된 정보를 증폭하는 데 사용되지 않도록 하고 싶습니다.

Marques Brownlee 08:18

네, Sora 생성 비디오의 오른쪽 하단에 워터마크가 있는데, 분명히 중요합니다. 하지만 그런 워터마크는 자를 수 있으니, Sora와 같은 도구로 생성된 AI 비디오를 쉽게 식별할 수 있는 다른 방법에 대해 생각하고 계신 것이 있나요?

Aditya Ramesh(Leader) 08:39

네, DALLE3에 대해서는 모델이 생성한 이미지인지 아닌지, 또는 주어진 이미지가 모델에 의해 생성되었는지를 판별할 수 있는 출처 분류기를 훈련시켰습니다. 우리는 그 기술을 Sora 비디오에도 적용하기 위해 작업 중입니다. 그것만으로는 완벽한 해결책이 되지 않겠지만, 일종의 첫 단계입니다.

Marques Brownlee 09:01

알겠습니다, 마치 메타데이터나 특정한 종류의 내장된 플래그 같은 것으로, 그 파일을 다루면 AI가 생성한 것임을 알 수 있군요.

Aditya Ramesh(Leader) 09:10

네, C2PA가 그렇게 합니다. 하지만 우리가 훈련한 분류기는 단순히 어떤 이미지나 비디오에도 실행될 수 있고, 그 미디어가 우리 모델 중 하나에 의해 생성되었다고 생각하는지 아닌지를 알려줍니다.

Marques Brownlee 09:25

Saora가 세상에 나오고 그것이 무엇을 할 수 있는지 세상이 보게 되었을 때, 다른 사람들의 반응에 대한 여러분의 반응은 어떠셨나요? 정말 멋지다, 놀랍다는 반응도 많고, 오, 맙소사, 내 일자리가 위험하다는 반응도 많습니다. 이 모든 사람들의 반응을 어떻게 받아들이시나요?

Aditya Ramesh(Leader) 09:45

네, 많은 반응 중에는 분명 다음에 무슨 일이 일어날지에 대한 불안감이 있었습니다. 우리는 비디오 생성과 관련된 모든 일을 하는 사람들에게 책임감 있고 안전한 방식으로 이 기술을 배포하는 우리의 사명에 대해 분명히 느낍니다.

Aditya Ramesh(Leader) 10:09

하지만 저는 또한 많은 기회를 느꼈습니다. 예를 들어, 현재 사람이 영화를 제작하고 싶은 아이디어가 있다면, 실제로 영화를 제작하기 위한 자금을 확보하는 것이 정말 어려울 수 있습니다. 예산이 매우 크기 때문에, 제작 회사들은 그들이 투자하는 위험을 인식해야 합니다. 그래서 AI가 도울 수 있는 멋진 방법 중 하나는 아이디어에서 완성된 비디오로 가는 비용을 대폭 낮추는 것이라고 생각합니다.

Marques Brownlee 10:41

네, DALLE를 사용하게 되면서 많은 유사점을 느낍니다. DALLE가 정말 좋아지기 시작하면서 저는 그것을 브레인스토밍 도구로 사용하기 시작했습니다. 예를 들어, 비디오의 썸네일을 시각화하는 데 사용할 수 있고, Saora와 같은 도구를 사용하는 것이 특히 멋질 것이라고 볼 수 있습니다. 여러분은 타임라인을 제공하고 있지 않지만, 지금 테스트 단계에 있습니다. 공개적으로 사용할 수 있는 단계에 이르렀다고 생각하시나요?

Aditya Ramesh(Leader) 11:13

곧은 아닐 것 같습니다.

Marques Brownlee 11:15

알겠습니다, 네, 제 마지막 질문은 멀리 미래를 보았을 때, Sora가 사운드와 완벽한 사실주의를 갖춘 5분짜리 YouTube 비디오를 만들 때, 다음으로 탐색할 매체는 무엇이 될까요? 사진은 한 가지이고, 비디오에는 시간과 물리학 그리고 반사와 소리와 같은 새로운 변수들이 있습니다. 여러분, 이것보다 빠르게 진행된 것 같은데, 일반적으로 AI 생성 미디어에 대해 다음 지평선에는 무엇이 있나요?

Tim Brooks(Research Leader) 11:56

저는 사람들이 이 도구들을 사용하여 완전히 새로운 콘텐츠를 만드는 방식이 진화하는 방식에 대해 정말 흥분됩니다. 많은 경우에 그것들이 기존의 것들을 만드는 데 어떻게 사용될 수 있는지에 대해서만 생각하기 쉽지만, 실제로는 완전히 새로운 유형의 것들을 가능하게 할 것이라고 생각합니다. 그리고 그것이 무엇인지는 가장 창의적인 사람들의 손에 들어가기 전까지는 알기 어렵습니다. 하지만 정말 창의적인 사람들이 새로운 도구를 가지고 놀라운 일을 하고, 이전에는 불가능했던 완전히 새로운 것들을 만들 때, 그것이 저를 장기적으로 많이 동기부여하고 있습니다. 이것이 완전히 새로운 미디어 경험으로 어떻게 발전할 수 있을지, 현재 우리가 생각하지 못하고 있는 것들에 대해, 창의적인 경계를 정말로 밀어붙이고 창의적인 사람들이 그 경계를 밀어붙이는 데 도움이 될 수 있는 완전히 새로운 도구를 만드는 것이 정말 흥미진진할 것입니다.

Marques Brownlee 12:55

네, 정말 흥미롭습니다. 저는 제 비디오에서 언급했듯이, 이것이 기존 콘텐츠에 대해 훈련되었기 때문에, 따라서 이미 존재하는 것들을 기반으로만 것들을 만들 수 있다고 생각합니다. 그래서 창의적이 되기 위한 유일한 방법은 여러분의 프롬프트입니다. 프롬프트 엔지니어링의 학습 곡선에서 무엇을 말해야 할지 알아내는 것이 정확한가요?

Bill Pebles(Leader) 13:22

모델이 가진 다른 종류의 멋진 능력들도 있습니다, 그것은 단지 텍스트 기반 프롬프트에 국한되지 않습니다. 우리가 Sora와 함께 발표한 연구 포스트에서, 우리는 두 입력 비디오 사이를 혼합하는 예제를 보여주었습니다. 그 중 하나에서는 왼쪽 비디오가 콜로세움을 통해 날아가는 드론으로 시작하여 오른쪽에서는 점차적으로 물속에서 헤엄치는 나비로 전환됩니다.

Bill Pebles(Leader) 13:48

그리고 거기에는 콜로세움이 점차 부패하기 시작하고 산호초로 덮인 것처럼 보이며 부분적으로 물에 잠긴 것처럼 보이는 지점이 있습니다. 이러한 종류의 생성된 비디오는 실제로 과거의 오래된 기술로 가능했던 것과 비교해 볼 때 다소 새로운 느낌을 줍니다. 그래서 우리는 Sora와 같은 기술로 사람들이 생성할 수 있는 새로운 경험들에 대해 프롬프팅 이상의 것들을 흥분하고 있습니다.

Aditya Ramesh(Leader) 14:15

어떤 면에서 우리는 현실을 모델링하는 것을 초월할 수 있게 해주는 첫 번째 단계로 보고 있습니다.

Marques Brownlee 14:24

그것은 정말 흥미롭네요. 네, 그것이 현실을 더 잘 모델링할 수록, 그 위에 더 빨리 구축할 수 있고, 이상적으로는 새로운 창의적 가능성을 도구로 해제할 수 있을 것입니다.

Marques Brownlee 14:42

정말 멋집니다. 글쎄요, 나는 사람들이 알고 싶어할 수도 있는 다른 것이 있나요? 분명히 여러분은 다른 사람들이 그것이 무엇을 할 수 있는지 보거나 그것을 가지고 놀기 전보다 더 오래 그것에 대해 작업해왔습니다. Sora에 대해 세상에 알리고 싶은 다른 것이 있나요?

Tim Brooks(Research Leader) 14:57

저는 비디오 데이터에서 학습하는 것이 AI를 좀 더 넓게 유용하게 만드는 방법에 대해 흥분됩니다. 왜냐하면 우리가 살고 있는 세계를 우리가 보는 것처럼 비디오로 보고 있고, 세계에 대한 많은 정보가 텍스트에 없기 때문입니다. GPT와 같은 모델들은 정말 지능적이고 세계에 대해 많이 알고 있지만, 그들이 우리처럼 시각적 세계를 보지 못할 때 놓치는 정보가 있습니다. 그래서 우리는 Saura와 그 위에 구축될 다른 AI 모델들이 시각적 데이터로부터 세계에 대해 학습함으로써, 결국에는 우리가 사는 세계를 더 잘 이해하고 더 잘 도와줄 수 있기를 희망합니다.

Marques Brownlee 15:43

정말 멋지네요. 많은 컴퓨팅과 많은 재능 있는 엔지니어링이 필요할 것 같습니다. 그래서 여러분에게 좋은 운을 빕니다. 저는 결국 Sora에 더 많은 것을 연결할 수 있게 되는 그 순간을 매우 기대하고 있습니다. 계속해서 저에게 소식을 전해주세요.

Bill Pebles(Leader) 15:59

고맙습니다. 감사합니다.

Marques Brownlee 16:02

감사합니다, 여러분.

� AI Designer Korea 페이스북 커뮤니티

https://www.facebook.com/groups/openaisorakorea

� OpenAI Sora Korea 오픈 채팅방

https://open.kakao.com/o/gLfvtDjg

� AI-Powered Design Lab 유튜브

https://youtu.be/3kSHYXzYRbQ?si=ixVtlZ5ykSniXRae