나의 고독한 AI 크리에이티브 툴 개발기 #3
“이미지는 여기서 만들고,
영상은 저기서 만들고,
편집은 또 다른 데서 해야 했다.
AI 툴은 많아졌는데
이상하게 작업은 더 끊겼다.”
2024년까지만 하더라도 문자 기반은 ChatGPT, 이미지는 미드저니, 영상은 런웨이등으로 미디어의 종류마다 플랫폼과 솔루션이 파편화되어 흩어져 있었습니다. 마치 기존 어도비 생태계를 예를 들어 이미지는 포토샵을 켜고 편집하고 다시 영상을 편집하기 위해 프리미어나 애프터이펙트를 켜고 이를 보고서나 기획서로 만들기 위해 파워포인트나 키노트를 다시 켜고 작업하는 것과 비슷했습니다.
결국 AI 솔루션은 효율화가 키워드이기 때문에 파편화된 플랫폼들이 제공하는 영역들을 하나의 플랫폼 화면 안에서 실행하고자 하는 것이 새로운 트렌드가 되어가고 있었습니다. 그렇기 때문에 2024년에는 하나의 화면 안에서 원하는 워크플로우를 모두 연결할 수 있는 ComfyUI가 주목을 받았던 것 같습니다. 그렇지만 저는 ComfyUI 가 전문가들에게는 문제가 없겠으나 제가 타깃으로 하는 비전공자들에게는 허들이 높다고 생각했습니다. 또 역시 ComfyUI도 하이엔드 GPU를 필요로 했습니다. 한 화면에서 연결된 워크플로우의 가능성은 보였지만, 비전공자에게는 너무 어려웠습니다.
저는 곧바로 FLUX 뿐만 아니라 다양한 AI 모델들이 웹에서 사용 가능한 API로 제공될 것임을 예상했습니다. 기존 프로토타입의 코드를 모듈 기반으로 쪼개어 어떤 AI 모델이 등장하더라도 교체하거나 취사선택할 수 있도록 준비했습니다.
“이전엔 복잡한 노드나 손편집으로 하던 수정이, 텍스트 한 줄로 가능해졌다.”
2024년 말에서 2025년 초에 FLUX KONTEXT의 등장은 저의 프로토타입이나 웹기반 플랫폼들이 성장하게 된 큰 원동력을 제공했다고 생각합니다. 기존에 여전히 포토샵 그리고 ComfyUI가 주목을 받았던 이유는 편집 때문이었습니다. 단순히 이미지를 생성하고 끝내는 것이 아니라 인물의 얼굴을 바꾸고 빛을 다시 조절하고 특정 영역만 변경하는 인페인팅, 바깥 영역으로 이미지를 확장시켜 주는 아웃페인팅 등이 복잡한 ComfyUI 워크플로우 혹은 포토샵의 손편집으로 가능했기 때문이었습니다.
FLUX KONTEXT는 이러한 편집을 단순히 텍스트 프롬프트 한 줄로 가능하게 해 주어 AI 프로덕션을 한 단계 도약시켰습니다. 이전에는 COMFYUI 워크플로우를 화면 가득히 채우거나 포토샵에서 한 땀 한 땀 수정했어야 하는 것들이 KONTEXT를 활용해 '배경에 책장 삭제해 줘', "인물을 한국인으로 바꿔줘", "눈 내리는 겨울 배경으로 바꿔줘" 같이 단순한 텍스트 명령으로 끝이 났기 때문입니다. AI가 더 이상 ‘생성만 하는 도구’가 아니게 됐다는 걸. 이제는 만들고, 고치고, 바꾸는 전 과정이 텍스트로 연결될 수 있게 됐습니다.
미리 어떠한 API가 새로 등장해도 적용할 수 있도록 모듈화 해놓았던 저의 툴에 곧바로 KONTEXT를 적용할 수 있었습니다. 그런데 기존에는 단순히 공간을 생성하고 공간을 3D 공간에 적용시키는 워크플로우로서만 AI를 활용했는데 KONTEX의 등장으로 모든 프로덕션 전 과정을 AI가 감싸는 구조를 떠올릴 수 있게 됐습니다.
곧바로 단순히 배경 만들기 기능에만 있던 AI 기능과 UI를 가장 메인으로 변경했습니다. 즉, 텍스트 프롬프트를 입력하는 UI가 가장 상위 레벨에 올라가게 되어 이제 어떤 작업을 하던지 텍스트를 기반으로 AI로 시작하고 AI로 편집하게끔 UX를 변경하게 된 것입니다.
이전 구조:
AI가 단순 배경 만들기 하위 기능으로 배경 탭 아래에 종속됨
새로운 구조:
AI를 생성부터 편집까지 메인 기능으로 활용할 수 있게 되면서 프롬프트 베이스 생성/편집 기능을 가장 메인으로 배치
단순 3D 제품 배경 조합 AI 툴에서
당시까지만 하더라도 웹브라우저의 한 화면 안에서 3D 모델을 배치할 수 있으면서 이미지를 편집할 수 있는 AI 툴은 없었습니다. 이제 제 툴은 WebGL기반의 캔버스 위에서 공간 배경을 AI로 생성하고 다시 AI로 생성된 공간과 배치된 3D 장면을 상세하고 연속적으로 편집하게 됐습니다.
특히 KONTEXT는 부분 제거 기능에 탁월했습니다. 이전에는 AI로 제품과 관련한 이미지를 생성할 때 AI가 가짜로 생성한 제품을 지우려면 포토샵을 거치는 수작업이 필요했습니다. 그리고 그 위에 실제 제품을 합성했습니다. 이제는 KONTEXT로 다음과 같이 AI가 생성한 가짜 제품을 말로써 간편히 편집할 수 있게 됐습니다.
해당 툴을 활용하여 회사의 새로운 제품군의 상세페이지에 활용할 이미지를 AI로 이전보다 수월하게 제작할 수 있었습니다. 예전 같으면 여러 창을 켜고 여러 플랫폼을 오가거나 외부 대행사에 넘겼을 작업들이었습니다. 기존 2D 이미지 어셋에 의존하면서 대행사를 써서 비싸게 만들어 냈던 상세페이지 콘텐츠들을 직접 표준화된 어셋으로 가공한 3D 모델과 해당 툴만 활용해 한 화면 안에서 다양한 AI 기능을 조합하며 사무실 책상 앞에서 제작해 낼 수 있었습니다.
여기서 멈출 수는 없었다.
그리고 2025년이 되자 더 많은 AI 모델과 플랫폼이 등장하기 시작했고 이미지 생성과 편집만으로는 다양한 크리에이티브에 대응하는데 한계가 있었습니다.
이제 3D 공간과 텍스트 프롬프팅을 기반으로 제 툴의 구조가 명확해졌습니다. 이 구조를 기반으로 더 나아가야 한다고 생각했습니다. 이제 단순 이미지 한 장을 생성하는 것이 아니라 연속적이고 동시다발적으로 AI 콘텐츠를 생성하게 됐습니다. 운영 측면에서는 사용 편의성을 위해 이제 생성한 데이터들을 저장하고 불러올 수 있는 DB를 확장 구축하고 라이브러리 기능과 워크스페이스 기능의 필요성이 명확해졌습니다. 그리고 수많은 AI 모델과 API들이 쏟아지기 시작했습니다. 이를 활용해 이미지를 넘어 영상, 그리고 프로덕션에 쓰이기 위한 업스케일링까지 결국 하나의 흐름으로 이어져야 했습니다.