AI가 책의 텍스트를 스스로 비디오북(멀티모달)으로 생성
인류의 문명은 텍스트가 등장하면서 본격화되었다.
텍스트는 보다 구체화된 문장을 거쳐 정보와 지식이 되었고, 결국 책이라는 완성본으로 귀결되었다.
책은 다시 타인과 대중을 움직이는 수단이자 결과로써 작용되고 기록된 것이 인류의 역사이다.
https://www.youtube.com/watch?v=vLrExsl42RU&t=5s
현대 사회에 접어들어 책은 디지털화를 맞아 전자적인 텍스트로서 PDF, EPUB 등의 포맷으로 규정되어 전자책이란 산업 장르로 발전되었다.
그러다 아이튠즈, 팟캐스트의 성장에 힘입어 시각적으로 읽는다는 개념의 "책 < 전자책"이 "오디오북"의 등장으로 새로운 변화를 맞아 오늘에 이르고 있다.
디지털적 기술의 진보적 측면으로 비유하자면,
1차원에서 2차원으로 다시 3차원으로 발전하는 공간 구조처럼 아날로그에서 디지털로 이행된 후 더욱 공감각적인 표현으로 발전한 것이라 할 것이다.
이러한 발전 과정에서, 당연히 오디오북에서 더욱 발전한 버전인 비디오북에 대한 시도와 관심이 있었다.
그러나 성우 한 명의 녹음 과정만으로 충분한 오디오북에 비해, 비디오북은 동영상이란 특성상 초당 프레임의 압박이란 걸 무시하더라도 수많은 연관성 있는 이미지의 생성과 배치가 필요했다.
결국 비디오북이란 개념은 시도에 비해 미미한 수준이었고 기껏해야 어린이 동화책의 영상 버전이 일반적인 사례였다.
결국 비디오북을 제작하기 위한 투입 비용, 시간, 노력, 기획 등의 제반 요소를 누가 더 저렴하고 빠르며 쉽게 할 수 있는지가 관건이라 할 것이다.
지난해 말 촉발된 챗GPT의 등장에 힘입어 AI의 전반 산업 진입이 진행되었고, 비디오북에 대한 갈증을 해결할 매우 결정적인 역할을 할 것이란 기대는 상식이 되어 버렸다.
"상형 문자 < 표의 및 표음 문자 < 책 < 전자책 < 오디오북 < 비디오북"
"코드 < 프로토콜 < 파일 < 텍스트 < 사운드 < 멀티모달"
필자는 약 13개월 전 챗GPT를 활용해 디지털 동화책을 제작해 보았고, 최근에는 다양한 LLM과 애플리케이션, API 등을 종합해 비디오북을 만들기 시작했다.
일단 결과적으로, 가능성을 보았다.
1. AI로 비디오북 제작에 동원된 제반 기술 요소들
-책 원문(저작권만료로 공개된 텍스트)
-랭귀지 모델 및 Assistant("챗GPT-4")
-웹서비스 및 개발 구성 요소(Huggingface, Gradio 등)
-개발 언어적 요소(Python, Json 등)
-음성 생성(Elevenlabs/ OpenAI 휘스퍼/ 구글 TTS API)
-자막 출력 및 음성과 Sync(관련 API)
-배경 영상 소스(저작권 Free 공개 영상 API)
-동영상 렌더링(MPEG, 관련 API)
-기타(API HUB, 데이터 저장소 등)
...
2. 제작 설계 과정 및 작업 진행 간 이벤트들
-우선 화면 구성 배치를 규정하는 것을 고려하였다.
가독성이 있으면서 청각적, 시각적 모두 만족스러운 결과가 나와야 하기 때문이다.
-이를 위해 우선 책의 원문 텍스트가 표시되는 "자막"의 위치와 형태를 여러 시행착오 끝에 최적의 위치와
형태 요소를 찾았다.
화면 중앙 하단보다는 좌측 상단 배치가 책이란 특성을 살리는데 더 보기 좋고 읽기도 용이했다.
-"자막"은 책의 원문을 AI가 "음성"으로 읽기 시작하면서 한 Phrase씩 자동 표시되며 한 문장이 완성되면
이어서 음성으로 청취되는 다음 단어가 문장이 될 때까지 순서대로 화면상에 출력되게 하였다.
-하나의 "씬"(장면이자 하나의 작은 단락)이 음성과 "자막"의 출력이 다 끝나면, 자동으로 다음 "씬"으로
장면 전환이 이루어진다.
-화면 하단부에는 출력되는 음성의 '오디오의 비주얼 한 표시'가 실시간으로 표시되게 하여 역동감을 부여
하였다.
-배경음악은 문맥에 어울리는 분위기와 멜로디가 AI에 의해서 자동 선택되어 플레이된다.
-책의 원문의 Context를 AI가 인식하여 각 "씬"마다 서로 다른 연관 키워드를 기반으로 어느 정도 라벨링
이 되어있는 공개된 저작권 Free 영상 또는 이미지를 찾아 각 "신"마다 자동 배치한다.
-물론 AI가 해당 문맥(특히 한글이다 보니)을 제대로 이해 못 해 엉뚱한 배경을 삽입하는 경우도 종종
있다. 이 문제를 해결하기 위해 최종 리터칭(편집)을 사람이 개입하는 게 보다 높은 퀄리티를 만들어 낼 수
있을 것이다.
-AI의 지원으로 자동화된 전처리까지만 끝나도 그동안 사람이 들이는 노력과 비용이 90% 이상 절감될
것이 자명하다.
3. 작은 에피소드이자 사소한 발견
제작과정에서 우연히 알게 된 오류 사항으로, 음성 복제 기능이 상대적으로 우수한 일레븐랩스의 음성 생성(TTS)의 경우 비교 대상인 OpenAI와 구글에 비해 한국어 특정 "단어"에 대한 발음을 완벽히 엉뚱하게 한다는 것을 비디오북 제작 과정에서 발견하였다.
아마도 다국어 발음을 염두에 둔 그들만의 알고리즘에 아주 사소하지만 일관된 오류가 있다고 추정이 된다.
귀도 그만큼 예민한데, 눈은 어떻겠는가?
비디오북의 도전이자 비디오북이 처할 도전이 바로 그것이 될 것이다.
백문이 불여일견이라고 하지 않던가?
이제 보고 듣고 느껴보자.