brunch

You can make anything
by writing

C.S.Lewis

by 헤르메스JK Feb 22. 2024

우리의 Life를 새롭게 바꾸는 생성형 AI

OpenAI의 Video생성 AI Sora를 보면서

빠른 변화에 따라가기만 했던 아쉬움 

컴퓨터가 사람의 말을 알아듣고, 이해해서 원하는 대답을 내놓는 수준이 기대를 뛰어넘고 있다. 그럼에도 이제 시작이라고 말하려는 듯 계속 진화하고 있다. 


두 달 전인 지난 연말에 보고 느껴서 메모하고 기록해 두었던 것을 꺼내 보면서, 다시 써야겠다는 생각이 든다. 업무나 일상에 사용하고 있더라도 변화에 민감하지 않으면, 그 사이에 다시 많이 바뀌어 버린다. 또 시간을 내어 새로운 지식을 습득하지 않으면 뒤처지고 있다는 느낌이 들기도 하는 것은 조급증 때문일까? 


현시점에서 돌아보면, OpenAI의 ChatGPT와 Google의 Bard, Microsoft의 Bing 정도만 알고 흐름만 파악해도 활용하는데 큰 문제는 없었을 듯하다. 그런데, 최근 1년 동안은 변화에 따라가기 바빴던 것 아닐까 하는 생각마저 든다. Multi modal이 되지 않다 보니 Chatbot AI를 비롯해 이미지생성, 동영상 생성, 문서 생성, Audio생성, Voice생성, 캐릭터 생성 등등 되도록 많은 것을 다양하게 써보려고 시도했다. 좋다고 하는 것은 들여다보면서 비교도 하고, 이해하려 노력도 했다. 


상상력 확장을 위한 도구로

이러한 활용이 도움이 되기는 했지만, 이해하는데 몰두하다 보니 생성형 AI의 가장 큰 장점이고 매력 포인트인 상상력을 확장하는데 등한시한 것 아닌지 하는 아쉬움이 있다.    


사용하면서 느껴왔거나 느끼는 것, 사업이나 일에 활용하면 좋을 것, 특히 상상력을 확장시킬 수 있는 것에 대해 비중을 두고 이야기해보고자 한다. ‘오늘을 사는 중년 Midlife’와 병행해서, ‘오늘을 사는 중년 New life’에 새로운 경험과 느끼고 있는 점에 대한 이야기이다. 


OpenAI의 Sora를 보면서 

생산자 입장과 소비자 입장에 대한 이야기를 Midlife에서 한 적이 있다. 빠른 변화는 생산자 입장에서는 따라가기 버거우면서, 리스크도 커지지만, 소비자 입장에서는 더 좋은 신제품을 사용할 수 있게 되어 선택의 폭이 넓어진다는 것이다. 


OpenAI가 최근 공개한 동영상 생성 AI인 Sora를 보면서 No Code Low Code를 넘어서는 상당한 임팩트를 느꼈다. 직업은 아니지만 1년가까이 동영상을 만들어도 보고 편집도 해보면서, 전문가가 아니면 할 수 없다고 생각했던 동영상을, 어설프기는 하지만 나도 만들고 편집할 수 있게 되었다는 다소간의 만족감도 가지고 있었다. Gen2나 Pika를 사용해 볼 때도 같은 생각이었다. 


그런데, Sora의 홈페이지에 공개된 샘플 영상과 설명을 보면서 놀라움을 금치 못했다. 

①이미지와 명령어를 입력하면 8초~1분 동안의 다양한 동영상이 생성되고, 

   그것도 상당히 자연스러운 동영상을 만들 수 있다. 

②영상과 원하는 명령어를 입력하면 새로운 영상이 생성된다. 

③최초 영상 생성 후 영상의 전과 후를 확장하는 기능이 있어, 

   첫 시작은 다른데 결말은 같은 3개의 영상 만들 수 있다. 

④두 개의 영상을 통합할 수도 있어 2개의 영상 내 요소들을 모두 반영한 영상을 생성할 수 있다.


생성형 AI를 활용해 명령어를 입력하여 이미지를 생성하고, 필요 없는 부분을 선택하여 지우거나 변경할 수 있게 된 것이 최근인데, 동영상까지 자유롭게 다룰 수 있게 된다면, 앞으로는 상상력과 창의력만 있으면 되는 세상이 되는 것일까?라는 생각과, 소비자로서 Tool 활용에 대한 편리성과 중요성을 다시 한번 느끼는 계기가 되었다.    


Sora에 대한 전문가들의 시각

컴퓨터가 사람의 말을 정확하게 알아듣고, 게다가 방대한 양의 데이터를 학습해서 이미지나 동영상을 생성하고 편집할 때도 어떠한 형태가 되어야 하는지 단순한 모방이 아닌 물리학과 역학, 수학적 계산에 바탕을 두고 만들다 보니 부자연스러움이 줄어들어 Real과 같이 느끼게 되는 수준까지 발전하고 있으며, 그 발전속도가 상당히 빠르게 진화되고 있다. Sora가 대표적인 사례이다.


전문가들의 견해에 의하면, 동영상 생성에 NLP를 접목하여 자연어 이해 능력이 향상됨으로써, 생성되는 이미지나 동영상이 자연스러워진다고 한다. 다양한 캐릭터, 특정 동작 유형, 그리고 피사체와 배경의 정확한 디테일을 포함한 복잡한 장면을 생성할 수 있다. 사용자가 입력한 명령어 내 세부 요청 사항을 정확하게 이해할 뿐만 아니라, 이러한 내용이 실제 세계에서 어떻게 존재하는지 이해하고 영상을 생성하는 것이 타 경쟁 프로그램과의 차별성이라고 한다.


또한 Zen2Pika도 직접 사용해 보았지만, 영상 생성이 1회에 4~7초(유료는 16초), 공식 발표 된 구글의 루미에르도 5초라고 하는데, 아티스트나 영화제작사 등의 전문가 일부에게 테스트 용도로 사용이 공개된 Sora는 최대 길이가 1분이다.

생성 시간이 중요한 것은, 시간적 일관성 유지가 어려워 길이를 제한해 왔기에, 60초 영상이면 다른 프로그램은 10개 전후 영상을 시나리오에 맞게 반복하여 생성해서 이어 붙이는 난해하고 반복적인 작업을 해야 하기 때문이다. 


포인트는 OpenAI의 NLP (자연어 처리-컴퓨터가 사람의 언어를 분석하고 이해하는 기술)이다. ChatGPT에서 쌓은 자연어 이해 능력이 DALL-E 3의 이미지 생성 기술에서 검증되고, 동영상 생성으로 연결되어 생성된 동영상의 품질을 높이고 있지 않을까 생각해 본다. Multi Modal이 안정화되면, 인간이 할 수 있는 어떠한 지적인 업무도 성공적으로 해낼 수 있는 AGI에 한발 더 다가서게 될 것이다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari