2분 앱 영상 매뉴얼, 설명할 시간에 직접 만들었습니다

외주 견적 기다릴 시간에 AI와 8만원으로 직접 해결한 1.5일 실무기록

by 함윤선

이번에 리뉴얼한 앱, 특정 사업장에 화이트라벨링되어 나가잖아요.
핵심만 딱 짚어주는 2분짜리 가이드 영상 하나 있으면 좋겠는데...


뒷자리 책임님의 요청을 듣고 바로 외주 단가와 일정을 떠올려봤다. 서비스 로직도 모르는 업체에 기획안 넘기고, 2분짜리 영상 하나 받으려고 수정 피드백을 수차례 주고받다 보면 최소 일주일은 훌쩍 지나간다.


복잡하게 설명하고 조율할 시간에 그냥 내가 직접 툴을 잡는 게 빠르겠다고 판단했다. "제가 직접 할게요. 금방 끝날 것 같아요." 외주 업체 견적서 기다릴 시간에 2분짜리 앱 매뉴얼을 1.5일 만에 완성한 기록이다

https://youtu.be/eNeVzBOQHok?si=hUdv9rPFqi2wZFn9

1. ‘커뮤니케이션 비용’을 0으로 만드는 메이커의 태도

대행사에 일을 맡기면 실력이 부족해서 시간이 걸리는 게 아니다. 비즈니스 현장의 ‘커뮤니케이션 비용’이 문제다. 내부 사정을 모르는 외부 작업자에게 사업장 검색 설정이나 사번 입력 절차 같은 디테일을 설명하고 조율하는 과정이 실제 제작보다 더 긴 시간을 잡아먹는다.

나는 이 비효율을 생략하기로 했다. 최근 외주 업체와 씨름하며 느꼈던 피로감이 오히려 동력이 됐다.전문 제작사의 화려한 모션 그래픽이나 정교한 연출은 포기하더라도, AI를 활용해 내부에서 소위 '짜치지는 않네~ '하는 수준의 결과물을 신속하게 뽑아 현장에 넣고 싶다는 욕망이 컸다. 직접 도구를 쥐면 머릿속 의도가 즉시 시각화된다. 외주 관리에 힘을 쏟느니 내 손으로 직접 만드는 '내재화의 속도'야말로 이번 작업의 진짜 목적이었다.



2. 현금 8만 원으로 구축한 실전 워크플로우

인건비를 제외한 순수 제작비는 단 8만 원이었다. 영상 편집 툴인 파이널컷 프로는 몇 년 전 ‘유튜브 스타’를 꿈꾸며 야심 차게 샀던 내돈내산 유물이다. 정작 인플루언서의 길은 걷지 못하고 결국 개인 맥북을 회사에 챙겨와 매뉴얼을 만드는 데 쓰고 있지만, 뭐 어떤가. 덕분에 추가 지출 없이 결과물을 뽑아내고 있으니 이제야 제값을 하는 셈이다.


Phase 1. 촬영: 녹화와 동시에 편집을 끝내는 툴 (FocuSee)

이 툴은 예전에 회사에서 1인 라이선스로 8만 원 미만일 때 구매해 둔 것을 활용했다. 현재는 AI 기능을 강화한 2.0 버전 위주로 판매되는 듯하다. 단순히 화면을 녹화하는 기능만 있는 게 아니다. 스마트폰을 PC에 연결해 앱 구동 화면을 실시간으로 찍으면, FocuSee가 다음 과정들을 알아서 처리한다.

자동 줌(Auto Zoom): 마우스 클릭이나 손가락 터치(미러링 시)가 일어나는 지점을 AI가 추적해 실시간으로 화면을 확대하고 이동시킨다.

자동 레이아웃 적용: 녹화가 끝나면 배경지 설정, 커서 하이라이트 효과 등이 이미 입혀져 있다. 생(쌩) 녹화본이 아니라 바로 가이드로 써도 될 만큼 정돈된 영상이 나온다.

노가다 삭제: 프리미어 같은 툴에서 일일이 노가다로 잡아야 할 '화면 확대'와 '레이아웃 조정' 단계를 통째로 생략할 수 있어, 녹화 종료와 동시에 편집의 80%가 완료된다.

Focusee에서 간단한 모자이크/스팟라이트/컷편집은 할 수 있다


Phase 2. 설계: 영상과 매뉴얼을 학습시켜 대본 쓰기 (Gemini)

촬영한 영상을 통째로 제미나이에 업로드하고, 기존 서비스 매뉴얼과 브랜드 소개서를 함께 학습시켰다. AI가 서비스의 고유 명칭과 비즈니스 로직을 미리 인지한 상태에서 나레이션 스크립트를 써주기 때문에 처음부터 끝까지 혼자 쓰는 것보다는 확실히 빠르다.

다만, 여기서부터 기획자의 '눈'이 본격적으로 개입되어야 한다. AI는 생각보다 오탈자가 잦고, 간혹 서비스 로직과 맞지 않는 잘못된 정보를 그럴듯하게 내뱉기도 한다. 결국 영상 프레임과 대본초안을 일일이 대조하며 팩트를 체크하는 검수 과정이 필수다. 이 작업이 생각보다 까다롭고 시간을 많이 잡아먹지만, 이 단계를 대충 넘기면 매뉴얼로서의 기능을 상실하기에 가장 집중해야 하는 구간이기도 하다.


스크린샷 2026-02-10 오전 12.34.34.png
스크린샷 2026-02-10 오전 12.34.51.png


Phase 3. 음성: AI 목소리로 나레이션 입히기 (Google AI Studio)

성우 섭외 없이 구글 AI 스튜디오를 활용했다. 이때 나레이션의 톤과 느낌을 결정하는 프롬프트 역시 제미나이에게 요청하면 수월하다. 최대한 정교한 결과를 위해 원하는 분위기를 구체적으로 설명한 뒤 영문 프롬프트로 변환해 달라고 요청하는 것이 팁이다. 성우는 리스트 최상단에 있는 'Zephyr'를 추천한다. 신뢰감 있는 아나운서 톤을 가장 잘 구현해 주어 서비스 매뉴얼에 적합하기 때문이다.

Frame 1261159521.jpg


Phase 4. 최종 편집: 파이널컷으로 마무리하기 (Final Cut Pro)

앱 사용법을 어느 정도 인지하고 있는 상태라면 앞선 1~3단계 과정은 4~5시간 만에 끝낼 수 있다. 본인이 잘 아는 서비스를 직접 찍고 AI 도움을 받아 대본 정리하는 과정은 막힘이 없기 때문이다. 하지만 마지막 조립 단계인 파이널컷 프로 편집에서 영업일 기준 꼬박 하루가 더 소요됐다.

자막은 Whisper AI로 자동 생성해 시간을 아꼈지만, 영상 편집을 매일 하는 사람이 아니다 보니 3개월 만에 다시 잡은 툴의 작업 흐름을 되찾는 데 시간이 걸렸다. 지금까지 만들어본 영상도 서너 개가 전부였다. 진짜 시간 낭비는 대본 단계에서 미처 발견하지 못한 단어 오류에서 왔다. 싱크 작업을 다 맞춰놓은 상태에서 치명적인 오탈자 등을 발견해 나레이션을 다시 뽑고 자막을 수정하는 재작업을 반복했다. (이래서 Phase2 대본 과정이 매우 중요하다!) 앱 숙련도는 물론이고 편집 툴까지 손에 익은 사람이라면 전체 과정을 단 하루 만에 끝내는 것도 가능해 보였다.


스크린샷 2026-02-10 오전 12.54.13.png



3. 파인다이닝보다 '김밥천국'이 필요한 순간

전문 제작사의 화려한 그래픽은 없다. 하지만 사용자에게 당장 필요한 것은 눈부신 영상미가 아니라 ‘어디를 눌러서 어떻게 이용하는지’ 알려주는 명확한 가이드다.


나는 이를 ‘김밥천국’의 힘(??)이라 부르고 싶다. 화려한 요리는 아닐지라도, 배고픈 이들에게 가장 신속하고 정확하게 메뉴를 내어주는 힘이다. 실무에서는 80점 이상의 품질을 갖춘 결과물을 1.5일 만에 현장에 던져주는 것이 훨씬 강력한 무기가 된다.



에필로그: 결과물로 증명하는 기획자

작업물을 확인한 책임님의 안도 섞인 반응을 보며 확신했다. 외주 업체와 소통하느라 에너지를 쏟느니, 적절한 도구를 활용해 직접 결과물을 뽑아내는 것이 조직과 나 자신에게 훨씬 이득이다.

완벽함보다 속도가 중요한 시대다. 기획서 뒤에 숨어 관리만 하는 사람이 아니라, 직접 도구를 쥐고 문제를 해결하는 '메이커'로서의 기록을 계속 남겨보려 한다.

작가의 이전글40억짜리 '통곡의 벽'을 넘어 도서관에 가는 법