이용호의 손에 잡히는 인공지능
요즘은 AI관련 뉴스들이 너무 많이 쏟아져 웬만한 뉴스거리에는 그러느니 하고 지나치는데 이번 OpenAI에서 발표한 “Sora”라는 AI 비디오 모델은 충격파가 꽤 큰 뉴스였다. 발표이후 당장 전 세계 광고업계가 초비상이 걸렸다고 한다. 한마디로 영상 전문가들이 일자리를 다 잃게 되었다는 것이다.
OpenAI 사에서는 Sora 모델을 발표하면서 평균 20초길이, 총 48편의 영상이 공개하였다. 이 소식이 전해지자마자 유튜브를 포함해 각종 SNS를 통해서 매우 빠른 속도로 확산되기 시작하였다.
내 경우에는 평소 주위 지인들에게 올해 인공지능의 가장 이슈는 “AI 비디오”가 될 것이라는 것을 자주 이야기 한 바 있기 때문에 어느 누구보다도 이 소식이 기쁘게 다가왔다. 뉴스를 듣자마자 바로 Sora 홈페이지에서 가서 48개 영상을 모두 상세히 살펴보았다. 그리고 이 소식을 바로 전달해야겠다는 생각에 즉시 블로그에도 글을 올렸다.
아니나 다를까 그 이후로 지금까지 유튜브에서는 온통 Sora의 샘플 영상을 편집해 보여주면서 다들 경쟁적으로 영상업계에 대단히 큰 변화가 올 것이라 이야기 하고 있다. 개인적인 의견이지만 Sora는 기존 AI 비디오 툴인 '피카'와 '런웨이'와 비교했을 때, 퀄리티와 성능면에서 적어도 최소 10단계 이상 발전했다고 평가를 내릴 수 있다.
OpenAI Sora 페이지에는 입력한 텍스트로 비디오를 제작하는 AI 모델, Sora를 소개하면서 모든 영상은 어떠한 수정 없이 제작되었다고 밝혔다. Sora는 사용자의 지시를 따라 최대 1분 길이의 고화질 비디오를 만들어내는 능력을 갖추고 있다.
이 홈페이지에서는 인공지능 기술로 영상 생성의 가능성은 어떻게 이루어지는지와 카메라로 찍은 것과 같은 효과를 만드는 인공지능 기술에 대한 내용이 발표되었다. 비주얼 링 코더를 통해 비디오를 조각조각 나누고, 각 조각들을 배열, 수정하여 고품질의 비디오를 만들러 주는데, 이 과정은 기존의 이미지 제작 모델인 DALL-E 3 모델의 연구를 기반으로 진행된 것으로 알려졌다.
생성 시스템은 자연어 처리와 이미지, 동영상 관련 기술을 활용해 제작되었는데, 이 시스템의 핵심은 프롬프트의 논리를 이해하고 처리, 물체들의 움직임을 이해하고 자연스럽게 생성할 수 있다는 것이다. 이 같은 기술을 통해 Sora는 쉽게 비디오를 만들 수 있고, 특정 모델의 걷는 모습 등 자연스러운 영상 생성 가능하다. 또, 동영상의 해상도와 비율 자유롭게 생성 가능하며, 이미지 투 비디오 기능을 제공한다. 복합적인 이미지도 엄청난 연출효과로 만들어 줄 수 있고, 영상의 앞뒤를 확장할 수 있다. 그리고 Sora를 이용하면 무한루프 영상도 만들 수 있어요.
비디오 편집에서는 자동차 주행 영상의 배경을 공룡 시대나 1920년대로 바꾸는 등, 다양한 변화를 줄 수 있다. 또한, 서로 다른 영상을 자연스럽게 이어주는 기능을 통해 마술을 보는 느낌이 들었다. 드론이 날아가는 영상과 바다에서 날아다니는 나비 영상을 자연스럽게 이어주어서 놀라운 변화를 경험할 수도 있다. 카멜레온과 공작새 영상을 합치면 색상이 변하는 마법도 가능하다.
인공지능 Sora와 이전 온라인 비디오 생성 AI의 차이점은 무엇일까? 새로 출시된 Sora의 영상과 자료들을 살펴보고 그 기능을 활용한 비디오 생성 퍼포먼스가 얼마나 놀라운지 확인할 수 있었다. 이전에는 피카와 런웨이와 같은 온라인 비디오 생성 AI도 존재하였으나, Sora와 비교하면 퀄리티가 현저하게 떨어진다는 것이 확인되었다. 인공지능 기술 발전을 살펴보고 실제 활용도를 검토할 수 있는 참고 자료가 되긴 하지만, Sora와 비교하면 심한 차이를 보이고 있다.
Sora는 현재 발표된 AI 비디오 소프트웨어 중에서 가장 발전한 것으로, 성능이 어마무시하다는 것을 보여준다. 그러나 성적인 내용, 범죄에 사용될 내용이 포함된 경우 이에 대한 정책을 강화하고 있고, 레드 팀에게만 공개하고 기능적 구현에 대한 피드백을 받은 후 출시될 예정이이로고 한다. 또한, 시각 예술가, 디자이너, 영화 제작자들에게도 이 모델을 테스트해볼 기회를 제공하며, 창의적인 작업에 새로운 가능성을 열어주고 있다.
OpenAI는 이 기술의 연구 과정과 진행 상황을 널리 공유하며, 외부의 피드백을 받고 AI의 미래 방향성에 대한 대중의 인식을 높이고 있다. Sora는 사용자가 요구하는 다양한 캐릭터, 동작, 그리고 피사체와 배경의 세부 정보를 정확하게 구현할 수 있으며, 이를 통해 복잡한 장면을 생생하게 만들어낼 수도 있다.
하지만 이 모델도 완벽하지는 않다. 복잡한 물리학 시뮬레이션을 정확히 처리하는 데 어려움을 겪거나, 특정 상황에서 원인과 결과를 제대로 이해하지 못하는 경우가 있을 수 있다. 예를 들어, 쿠키를 한 입 베어 물었을 때 그 자국이 나중에 보이지 않는다든지, 공간적 세부 사항이나 시간에 따른 이벤트의 정확한 묘사에 어려움을 겪을 수 있다.
OpenAI는 Sora를 사용하기 전에 여러 안전 조치를 취할 예정이다. 잘못된 정보, 증오 콘텐츠, 편견 등을 적극적으로 테스트하고, 비디오 생성 시점을 알 수 있는 감지 분류기를 개발하는 등의 조치를 통해 안전한 사용을 보장하려고 한다. 또한, DALL·E 3의 안전 방법론을 활용하여 비디오의 모든 프레임이 OpenAI의 사용 정책을 준수하는지 확인할 계획이다.
Sora는 확산 모델을 기반으로 하여, 정적인 노이즈로부터 시작해 점차적으로 노이즈를 제거하며 비디오를 만들어내는 방식으로 작동한다. 이 모델은 한 번에 여러 프레임을 예측할 수 있으며, GPT와 유사한 변환기 아키텍처를 사용해 뛰어난 확장성을 제공한다.
이 모델의 개발은 DALL·E 및 GPT 모델에 대한 이전 연구를 기반으로 하며, 사용자의 텍스트 지시를 더욱 충실하게 따를 수 있도록 한다. 실제로, Sora는 텍스트 지침만으로 비디오를 생성할 수 있을 뿐만 아니라, 기존의 정지 이미지나 비디오를 확장하거나 보완하는 능력도 갖추고 있다.
AGI, 즉 일반 인공지능을 향한 중요한 발걸음으로 Sora의 발표는 큰 의미를 갖는다. 이 기술은 사람들이 실제 세계에서 마주하는 문제를 해결하는 데 도움을 줄 수 있도록, AI가 물리적 세계를 이해하고 시뮬레이션하는 방법을 가르치는 데 중점을 두고 있다. 앞으로 Sora를 포함한 AI 영상 툴의 발전은 인간보다 더 나은 인공지능을 만드는 데 중요한 역할을 할 것으로 기대된다.
| 작가 프로필
이용호 작가는 SKT 메타버스 플랫폼인 이프랜드(ifland)에서 매주 월요일 오후 9시에 정기적으로 “인공지능관련 새로운 소식과 기술”을 상세히 전하는 ‘호몽캠프’를 진행하고 있다. 이는 101회 이상 꾸준히 진행되고 있어 정통성과 신뢰성을 가진 밋업으로 평가 받고 있다.
칼럼니스트는 스마트공장에서 주로 사용되는 ‘머신비전’ 전문회사인 ‘호연지재’를 경영하고 있으면서 다양한 분야에 관심이 많아 메타버스와 유튜브 인플루언서로 활동하고 있다. 특히 ‘머신비전’에서 인공지능 딥러닝에 의한 영상처리기술을 자주 적용하다보니 10년 이상 연구한 AI 분야에 대해서도 해박한 지식을 가지고 있다.
주요 강의 분야는 “챗GPT 시대 생산성을 300% 높여주는 인공지능”, “머신비전에서의 인공지능 활용”, “손에 잡히는 인공지능”, “스마트폰 AI 활용하기”, “시니어와 MZ세대간의 소통”등이 있으며, 저서로는 『나는 시니어 인플루언서다』가 있다.