영상화를 위한 (내맘대로) 글쓰기 체계_1편

내 입맛대로 갈겨보는 글과 영상의 단위규격 표준화 작업

by 대장장이 휴


글이 영상으로 바뀌는 일이 가장 쉬워진 시대다.


과거엔 수많은 예산과 시간, 인력, 기술이 필요했다면 지금은 아니다.


순식간에 시나리오화를 하고 각색을 하고 콘티를 짜고 숏리스트를 만들고 이미지와 영상을 만들어낼 수 있는 시대.


문제는, 그렇다고 해서 글을 영상으로 바꾸는 일이 말처럼 그리 간단치는 않다는 것이다.


오히려 과거에 비해 근본적인 차원에서의 고찰과 생각은 적어지고 있기 때문에, 짐작건대 아마 앞으로 갈수록 정말 내가 상상하고 원하는 것을 그대로 구현해내는 일은 더욱 어려워질지도 모른다.


그래서 내가 지금 생각하는 건, 어떻게 하면 글을 영상으로 새롭게 만들어내는 효과적이고 체계적인 나만의 방식을 구축할 수 있느냐다.


과거와는 달라야 한다.


하지만 과거에 좀 더 명료했던 본질을 놓쳐선 안 된다.


이러한 작업은 필연적으로 과거와는 다른 환경에서 과거의 근본을 담아내야 한다는 측면에서 기존에 없던 새로운 방식의 체계를 짜올릴 걸 요구하게 된다.


내가 가장 좋아하는 일이다.


기존의 것들을 해체해서 다시 재구성하는 일.


그래서 지금 내가 하려고 하는 일은, 그런거다.


요즘 유행하는 AI와 각종 서비스들을 이어주는 MCP 같은 것.


음, 조금 어렵게 표현하면 과거의 인터넷 프로토콜인 TCP/IP 같은 통신규약, ISO같은 표준체계 구축.


쉽게 말하면 그냥 시간낭비 없이 후다닥 글에서 영상으로 냅다 때려박는 기준 만들기.


좋다. 가보자.



ASL과 문장


어떻게 해야 글에서 바로 영상화 작업으로 넘어가는 과정에서 불필요한 매칭과 변환을 줄일 수 있을 것인가.


모든 고민의 시작은 여기서 출발한다.


내가 흥미롭게 느꼈던 건, ASL이라는 개념이었다.


Average Shot Length. 평균 숏 길이.


영화, 드라마, 유튜브 등 각 영상은 시퀀스로 구성되고, 이 시퀀스는 다시 씬으로 구성된다.


각 씬들은 여러 숏들로 구성된다.

(중간에 내가 좋아하는 '비트'라는 단위가 또 있지만 일단 건너뛰자.)


이 숏에 관해 꽤 여러 가지 연구들이 이루어져왔다.


과연 성공적으로 대중들에게 인정받는 영화들은 과연 영화 전체에서 몇개의 숏을 가지는가.


하지만 이 질문은 영화 전체 길이가 전부 다르다는 데서 근본적인 한계를 가진다.


그래서 나온 게, 영화 길이와 무관하게 평균적으로 숏이 얼마나 긴지를 체크한 ASL.


과연 한 숏은 몇초정도 길이를 가지는가.


이 평균 숏 길이, 즉 ASL은 시간이 흐름에 따라 점차 짧아져왔다.


연구결과를 보면 아주 긴박하게 흘러가는 매드맥스 같은 액션영화들은 평균 2.4초 정도의 길이를 가진다고 한다.


장르의 호흡이 길어질수록 ASL은 길어진다.


결론을 말하자면, 평균 3초 내외가 가장 무난하다고 한다.

(이게 사실 좀 짧은 ASL을 가진 영화에 속하는 거 같긴한데 명확한 통계자료를 확인할 수 없어서 그냥 내 내키는대로 3초로 잡았다. 다른 거랑 좀 이어서 편하게 퉁치려고.)


이 3초는 흥미롭게도 인간이 자연스럽게 휴식하고 있는 동안 눈깜빡임을 하는 시간이다.


그리고 아주 재밌게도, 이 3초는 오래전에 내가 유튜브 영상을 제작하면서 궁금해서 찾아본 사람들이 지루하다 느끼지 않고 연속성이 있다고 느낄 수 있는 평균 클립의 지속시간이기도 하다.


내가 늘 다른 글에서도 이야기하지만, 내가 강박적으로 숫자3을 사랑해서 이런 결론에 어거지로 짜맞춘 게 결코 아니다!


역시 3... 후...


내가 하고 싶은 이야기는 이렇다.


평균적인 숏길이는 3초가 무난한 거 같다.

(사실 짜맞춰서 그렇지 찾아보면 4초나 그 이상으로 언급되는 경우도 많다. 눈깜빡임 시간도 책 볼때는 평균 6~12초라고 한다.)


나의 3에 대한 무한한 애정을 발판 삼아, 그리고 점점 빨라지는 주의집중 최대시간 같은 걸 고려해서 이상적인 ASL은 3초라고 내 마음대로 결론지었다.


그러면 이 영상업계에서 쓰는 단위인 ASL을 글과는 어떻게 연결시킬 수 있을까.


글은 '막', '장', '절', '섹션', 문단, 문장, 단어 등 뭐 여러 단위가 있는데. 내가 ASL과 연결시키려는 건 문장이다.


이는 철저하게 사람이 자연스럽게 글을 읽어내려갈 때 소요되는 시간, 즉 글읽는 속도를 고려한 매칭이다.


우리가 한글을 읽을 때 자연스럽게 읽어내려가는 평균적인 속도를 Gemini에게 물어보면 약 25자 ~ 30자를 이야기한다.


그래서 나는 숫자 3의 10배인 30을 사람이 자연스럽게 글을 읽어내려갈 때 3초에 읽을 수 있는 글자수로 정했다. (물론 공백 포함이다.)


결국 공백포함 기준, 인간은 초당 10자 정도를 읽을 수 있다고 보는건데, 내가 여러번 테스트해본 결과 얼쭈 그 정도 속도로 읽을 수 있다.


가독성이 낮지 않은 평범한 글이라면.


웹소설의 형식이 오늘날 사람들의 가장 보편적인 기호와 취향을 반영하는 글의 형식이라고 나는 생각한다.


웹소설은 물론 작품마다 다르지만 거의 한문장이 곧 한 문단이다.


즉, 한 문장이 끝나면 한줄 간격을 벌리고 다른 문단인 것처럼 서술되는 경우가 매우 많다.


그리고 확실히 그런 글들을 읽으면 인지적 부하가 덜하다.


애초에 글자수가 적고, 시각적으로도 훨씬 날날(?!)하게 느껴지기 때문이다.


그래서 그걸 기준으로 생각하면 사실상 문장 1개가 1개의 문단이므로, 문장=문단=공백 포함 30자 가 된다.


그리고 당연하게도 30자로 끊으려면 문장이 간결해야 하고 복문이어선 안 된다.


즉, 주어와 서술어가 하나씩만 나오는 단문이어야 한다.


자, 그러면 정리해보면 이렇다.


글에서의 '문장'(=문단) = 공백 포함 30자 내외 단문


이것이 영상에서의 '샷' = 3초 내외 길이(ASL)


이렇게 매칭이 된다.


부르는 용어도 통일하는 게 좋다.


그냥 컷으로 한다. 즉, 글을 쓸 때도 이제 문장 1개를 그냥 '샷'이라고 부른다.


그러면 글이 비문학 형식이든, 소설형식이든, 시나리오 형식이든, 뭐든 간에 그 글에서 공백 포함 30자 내외의 문장 1개가 곧 1개 문단이 되고 이를 '샷'이라고 부른다.


그리고 이 글에서의 '샷'이 곧 영상에서의 '샷'이 된다. 물론 영상에서의 샷은 3초 내외로 한다.



자, 그러면 이제 이 가장 미시적인 단위라고도 할 수 있는 '샷'에서 한층 상위단계로 올라가볼 차례다.


한층 더 올라간 수준에서도 역시 글과 영상 간의 표준화 작업(?!)을 진행할 예정이다.


다음 상위단계에서 우리가 살펴볼 단위는 영상업계에서 '비트'라고 부르는 단위다.