나의 고독한 AI 에디터 개발기
“더 쉽고 빠르게, 모든 생성 기능을 개발할 수 있게 됐지만
문제는, 어떻게 더 자연스럽게 이어지게 만들 것인가였다.”
그런데 기능 도입에 발 빠르게 대응하다 보니 기존 플랫폼들은 이미지와 영상을 어떻게 연속적으로 작업하게 할 수 있을까 등의 사용자 경험 설계를 세심하게 고민하지는 못한 듯합니다. 단지 이미지 생성 기능 메뉴 옆에 새로운 메뉴 버튼을 추가하고 거기서 연결되는 새로운 페이지에서 비디오 생성 기능 인터페이스를 제공할 뿐이었습니다. 기존에 이미지를 중심으로 제공하던 Krea 등은 새로운 메뉴를 만들어 비디오 생성 페이지에 유저를 진입시킵니다. 초기 HiggsField 등도 마찬가지로 이미지 생성과 영상 생성, 업스케일링 생성 화면이 모두 분리되어 있습니다.
이제 유저들은 이전처럼 여러 플랫폼을 왔다 갔다 하는 수고는 덜었지만 여전히 하나의 플랫폼 안에서 여러 메뉴들을 왔다 갔다 하며 여러 화면들을 오가야 하는 건 여전했습니다.
생성 기능단에서 모듈화가 잘 되어 있다면 굳이 여러 페이지를 오가는 인터페이스 개발을 할 필요는 없습니다만 실제로 수많은 유저들을 상대로 운영하고 있는 플랫폼들이 최신 AI 모델을 업데이트할 때마다 인터페이스를 새로 개선하는 것은 쉽지 않았을 것입니다.
하나의 콘텐츠를 생성하기 위한 워크플로우는 연속적입니다. 텍스트를 입력하면 이미지가 만들어집니다. 그리고 그 이미지를 입력하면 영상이 만들어집니다. 결국 서로 인풋과 아웃풋이 연계되는 양상이고 이런 과정을 어떻게 화면단에서 풀어낼 것인가 고민이 필요합니다.
그래서 저는 하나의 캔버스화면을 중심으로 이미지를 생성하고 곧바로 그 이미지를 활용해 영상화할 수 있도록 구조를 설계했습니다. 이미 기본 구조를 하나의 에디터 화면에서 모든 것이 가능한 모듈 기반의 멀티 모달 인터페이스를 설계했기 때문에, 그리고 기획, 디자인, 개발을 모두 저 혼자 수행했기 때문에 아이디어를 빠르게 기능화하여 적용할 수 있었습니다.
2026년 지금은 모든 플랫폼들에서 내가 만든 이미지 결과물을 다시 다음 생성을 위한 인풋 소스로 활용할 수 있습니다. 하지만 2025년 하반기까지만 해도 그렇지 못했습니다. 내가 만든 이미지를 곧바로 영상화하려면 해당 이미지를 내 컴퓨터에 다운로드한 다음 비디오 생성 페이지에서 다시 업로드해야 했습니다.
저는 비디오 생성 기능을 별도페이지로 분리하지 않고 마치 하나의 에디터에서 둘셋 UI만 변경되도록 한 뒤 현재 화면을 그대로 비디오 생성의 input으로 이용할 수 있게 만들었습니다.
#Use current screen 버튼을 클릭하면 현재 화면이 등록됩니다.
지금은 다양한 멀티샷등의 개념으로 최대 15초가 넘는 영상을 한 번의 생성으로 만들어주지만 당시만 하더라도 최대 8초 혹은 10초의 비디오가 생성됐습니다. 더욱이 API 기능단에서는 비디오의 길이를 늘여주는 Extend 기능이 아직 없던 때라 연속적으로 이어지는 장면 연출이 어려웠습니다. 이런 어려움까지 해소해 준다면 정말 연속적인 비디오 생성 작업이 가능할 것 같았습니다.
기본적으로 비디오의 첫 시작 장면에 해당하는 이미지를 비디오 생성 모델에 인풋으로 제공하고 해당 이미지로부터 영상이 흘러가게 하는 방법을 가장 많이 사용합니다. 비디오는 결국 연속된 이미지 프레임의 모음입니다. 만약 이전에 생성된 비디오에서 마지막 이미지 프레임을 추출해서 다음 비디오의 첫 장면 소스로 제공하면 연속적인 비디오를 만들 수 있을 것 같았습니다. 곧바로 생성된 비디오의 마지막 프레임을 추출하는 스크립트를 짜서 Use Last Frame이라는 기능을 구현했습니다. 유저가 라이브러리에서 생성된 비디오 아이템의 Use Last Frame 버튼을 클릭하면 곧바로 해당 비디오의 마지막 프레임을 새로 생성하는 비디오의 첫 프레임으로 활용할 수 있도록 했습니다.
한 번 생성에서 최대 8~10초 내외이던 시절, Use Last Frame 기능으로 각각 8초, 5초로 생성한 비디오 두 개를 자연스럽게 연결하게 해서 단일 생성으로는 만들 수 없는 긴 비디오를 자연스럽게 생성할 수 있게 했습니다.
2025년 9월 11일 구글의 VEO3를 제 툴에 업데이트 한 뒤, 커뮤니티에서 지금까지 불가능했던 어노테이션 프롬프팅을 VEO3를 통해 공개합니다. 이전에는 시작이 되는 장면을 이미지로 제공하고 영상에 대한 설명을 텍스트로 입력해서 영상을 생성해야 했습니다. 단순히 텍스트 프롬프트만으로는 한 장면 안에서 여러 요소의 움직임을 내가 상상한 대로 설명하는데 한계가 있었습니다.
그런데 VEO3는 첫 프레임의 이미지 위에 직접 그림을 그려 움직임을 설명할 수 있게 했습니다. 움직임을 원하는 사람이나 물체에 네모 박스를 그려 대상을 지정하고 화살표를 그려 모션 방향을 지정하는 식의 프롬프팅이 가능해졌습니다. 대상의 움직임이 어떤 순서로 어떻게 움직여야 하는지 순번을 그려 넣어 지시하는 것도 가능해졌습니다.
그런데 대부분의 플랫폼들에서는 단순히 첫 번째 프레임의 이미지와 텍스트 프롬프트만 입력할 수 있었기 때문에 드로잉 지시가 있는 이미지를 포토샵이나 그림판등에서 별도로 만들어와야 했습니다. 더 나은 프롬프팅 기능을 사용할 수 있음에도 해당 기능을 위한 인터페이스가 부재하니 작업 흐름이 끊기더라도 어쩔 수 없이 포토샵이나 그림판에서 드로잉 지시를 만들어와야 했습니다.
해당 기능은 매우 강력한 기능임과 동시에 앞으로의 이미지 생성, 영상 생성 시 반드시 자주 활용하게 될 기능이라 생각했습니다. 저는 이미 유저가 자유롭게 내용을 편집할 수 있는 캔버스를 에디터의 중심으로 개발했기 때문에 드로잉 기능을 캔버스에 곧바로 도입할 수 있겠다 생각했습니다.
2025년 9월 11일에 VEO3를 툴에 추가하고 5일 뒤 16일에 해당 드로잉 기능을 완성해 툴에 업데이트할 수 있었습니다. 유저는 제 툴에서 이미지, 비디오를 생성하던 연속적인 워크플로우에 드로잉 모드를 추가적으로 활용할 수 있게 됐습니다. 외부에서 드로잉을 따로 해서 다시 해당 이미지 파일을 업로드하는 것이 아닌 원할 때마다 드로잉 모드를 현재 편집 과정 중에 호출해서 캔버스 위에서 텍스트 메모를 작성하고 도형 그리기로 대상을 지정하고 자유 드로잉 모드로 화살표등을 그릴 수 있게 해 작업의 연속성을 그대로 살리면서 새로운 프롬프팅 기법까지 수용할 수 있게 됐습니다.
캔버스가 기초가 되는 제 툴에서 드로잉 모드의 개발은 단순한 기능이 아니라, 프롬프트를 확장하는 새로운 인터페이스였습니다. 이 글을 작성하고 있는 2026년 4월 이제는 대부분의 생성형 인터페이스들이 드로잉 기능을 갖추고 있습니다. 그렇지만 해당 드로잉 모드 기능은 2025년이 다 끝나갈 무렵에도 시장의 대부분 플랫폼들에서 제대로 제공하지 않았습니다. 심지어 VEO를 개발한 구글이 제공하는 AI 툴에서 조차 드로잉 모드를 제대로 제공하지 못했지만 저는 제 툴 안에서 독자적으로 해당 프롬프팅의 필요성을 빠르게 인지하고 연속된 워크플로우를 제공해야 한다는 생각 덕분에 해당 기능을 보다 빠르게 탑재할 수 있었습니다.
제 툴은 단순히 한 가지 AI모델로 공간 이미지를 생성하고 그 위에 3D 모델을 올려 스크린캡처로 이미지를 뽑으려던 아이디어에서 출발했습니다. 이제 여러 AI 모델을 취사 선택해 AI로 이미지를 생성하고 마음에 안 드는 부분을 다시 KONTEXT모델을 활용해 텍스트 명령만으로 편집하고 이를 VEO와 KLING 등으로 곧바로 영상화하게 됐습니다.
다른 플랫폼들이 기능을 “모아놓은 것”에 가까웠다면, 저는 그 기능들을 “연결하는 것”에 집중했습니다. 다른 거대 플랫폼들은 모든 기능들을 하나의 플랫폼 안에 내재화는 했으나 기능별로 화면이 파편화된 것에 비해 저의 툴에서는 하나의 에디터에서 모든 작업이 이루어지게 된 것입니다.