brunch

You can make anything
by writing

C.S.Lewis

by 지니제니 Jul 01. 2024

'한글 소라', 영상을 생성하는 AI 서비스 무료 공개

'한글' 프롬프트 입력만으로 'AI 영상 생성'이 10초 만에 구현 개발

OpenAI의 영상 생성 서비스인 '소라'가 발표된 지 수개월이 지났다.

'소라'가 공개한 생성 영상을 통해 전 세계 많은 이들이 큰 충격을 받았고, 필자 역시 그중에 한 명이었다.

그러나 '소라'가 일반인들이 직접 체험해 볼 수 있는 서비스로 공개되지는 않았기에 대체 '소라'가 얼마나 많은 고성능 GPU인 Nvidia H100을 몇 장이나 동원했을지 추측이 난무하였다.


필자 역시 그 점이 매우 궁금했다.

모두가 가장 궁금해했던 것은, 어찌 그리 자연스러운 영상이 물리법칙을 따르고 있는지였고 이점이 신선한 충격이었다. 

그러다 '소라'에 대한 기술적인 백그라운드 등이 조금씩 알려지면서 영상 생성을 위한 사전 학습 및 구현의 핵심 기법이 '게임 엔진'이었다는 것이 알려졌다.

우리가 익히 볼 수 있는 '3D 게임'물을 보면 보편적으로 '물리 법칙 엔진'을 사용하고 있기에 충분히 그 방식으로 구현할 수 있었을 것이라고 수긍할 수 있었으리라.


'소라'로 인한 신선한 충격에 힘입어, 필자도 더욱 분발하기로 하였고 '소라'에 투입된 만큼의 1,000분의 1도 안 되는 적은 자원(H100 GPU)만으로 감히 '소라'에 도전해 보고 싶었다.

그 수개월동안 많은 시행착오와 노력이 있었고, 드디어 오늘 나의 첫 '한글 소라'서비스를 '브런치'를 빌어 무료로 공개하는 바이다.


그 개발기를 브런치를 통해 공개하는 바이다.


'소라'와 같은 AI 영상 생성 서비스를 만들기 위해, 우선 1차 목표를 정해야 했다.

나는 차별화 포인트이자 로컬라제이션을 위해 '한글 입력 방식(프롬프트)'을 선택했다.

이어서 최대 5초 이내, 초당 30 프레임의 규칙을 나름의 가이드로 잡았다.

그리고 이제 내가 만들 서비스의 이름이 필요했고, 나는 '한글 소라'라고 명명을 하였다.

다분히 '소라'를 의식했을 수도 있고 유명세를 빌리고자 한 의도도 있으며, 오마쥬이기도 하다.

중요한 건 '한글' 프롬프트로 한국인이라면 누구나 쉽게 사용하게 할 의도가 가장 중요했다.


이제 이름을 정했으니, 나만의 개발 공간이자 테스트베드를 만들 필요가 있었다.

엄밀히 말해 이 프로젝트는 나만의 도전기이기에 필자 스스로 1인 개발자로서 최대한의 효과적인 시간 배분을 해야 했다.

이미 익숙하게 사용하고 있는 공간인 '허깅페이스'에 '프로젝트 개발을 위한 스페이스'를 만들었다.

'허깅페이스'에서 '텍스트 입력으로 영상 생성' 관련 모델들을 거의 모조리 테스트해 보며, Arxiv.org에서 관련 논문을 찾아 매일 속독과 정독을 하며 '한글'과 '적은 리소스', '빠른 생성 시간', '괜찮은 영상 퀄리티'라는 네 마리 토끼를 모두 잡기 위한 최적화된 '모델'을 연구하였다.


'한글 소라'서비스 개발이라는 원대한 프로젝트를 위해 그간 각고의 노력을 기울인 1인 개발자로서 참으로 많은 시행착오와 우여곡절이 있었지만, 이 자리가 그 첫 번째 이야기이므로 앞으로 그 과정들을 연재하기로 하고 우선 오늘은 완성된 결과와 사용 방법 등에 대해 서술하겠다.


'한글 소라' 무료 공개 서비스를 개발하고 나서, 배포 및 사용자 체험을 위한 서버를 '디스코드'에 구축하였다.

'디스코드'는 누구나 url만 알면 접근할 수 있는 무료 서비스이며 커뮤니티 구성에 초점이 맞추어져 있기에 '디스코드'를 선택하였다.

이어서 다수의 'H100 GPU'으로 새로 구성된 '서버'(엄밀하게 회사 소유의 서버로 겸사겸사 필자가 서버 운영 및 서비스 개발에 매진한다는 각오로 허락)가 마련되어 '모델이 포함된 한글 소라 서비스'를 포팅하게 되었다.

마치, 어린 시절 컴퓨터 사주면 공부 열심히 해준다는 그런 하얀 거짓말 같은 스토리가 나 역시 필요했다.


'디스코드' 서버에 '한글 소라' 채널을 열었고, 누구나 '한글로 프롬프트'를 입력하면 약 10초 뒤 입력받은 내용의 영상이 생성되게 하였다.


<디스코드 서버를 통한 '한글 소라' 무료 서비스 공개>


예를 들어, 'H100 GPU를 품에 안고 좋아하는 판다', '하품하는 강아지' 등 누구나 자신의 생각을 한글로 표현만 하면 LLM이 문맥과 의미를 이해하고 이를 '영상 생성 모델'에 프롬프트로 전송되어 영상이 생성되는 구조이다.  


이제 실제 생성한 결과물을 보도록 하겠다.


 


한글만으로 불과 10여 초 만에 이러한 영상이 생성된다는 게 놀랍지 않은가?

더욱이 이 모든 서비스가 무료로 공개할 수 있다는 것에 내심 뿌듯한 마음이다.


언제나, 누구나, 어디서나 AI 서비스 접근에 차별을 받거나 어려움을 겪어서는 안 된다.' 


지금 당장, 누구라도 '한글 소라'를 통해 자신의 표현을 할 수 있다.

물론 'OpenAI의 소라'와는 비교되지 않는 수준의 리소스이고 상대적으로 부족한 퀄리티지만, 아무렴 어떤가? 의지만 있다면 1인 개발자도 '초저렴 수준으로 소라'의 흉내를 낼 수 있다는 것을 보여주는 것도 필요할진대 말이다.


그대들의 많은 체험과 경험으로 필자 같은 'AI 깎는 휴먼' 하나쯤은 괜찮지 않겠는가.


지금 당신의 상상력이 나, 우리 모두에게 필요한 시점이다.


'한글 소라' 서비스 링크: https://discord.gg/openfreeai  


그대여! 나와 함께 대양을 향해 항해를 할 텐가? 아니면 '초거대 AI'의 노예가 될 것인가?  

당신의 선택이 필요한 때이다.

작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari