#1 이렇게 하면 될 것 같은데로 시작한 AI 툴 개발

나의 고독한 AI 크리에이티브 툴 개발기 #1

by 민근

서론


2024년 여름.

사람들은 AI로 상업적인 제품 이미지를 만들기 시작했다.
나도 그 흐름에 합류했다.

그런데..

"이렇게는 안 된다."


직접 개발한 AI 에디터의 현재(2026-04) 버전


2024년부터 2026년 상반기까지 개별 미디어 영역에서 실험적이고 단편적으로 활용되던 ai 생성 콘텐츠들이 AI 모델들의 발전과 통합으로 플랫폼화되고 실제 크리에이티브 영역에서 활용되기 시작했습니다. 이제는 대중들에게 선보이기 위한 프로덕션 레벨의 콘텐츠 생성 워크플로우가 발전하고 정착했습니다. 저는 어쩌다보니 그 과정을 직접 겪으며 때로는 먼저 실험하기도 하고 대부분은 후발주자로 쫓아가면서 직접 현업에서 활용할 수 있는 정도의 AI 에디터를 완성하고 운영하게 됐습니다.


AI로 이미지 -> 3D -> 비디오 -> 업스케일링을 하나의 편집화면에서 연속적으로 수행할 수 있는 프로덕션 툴을 직접 1인 개발하여 에이전시에서 다양한 현업 과제를 수행하는데 저만의 툴로 활용해 왔습니다. 기획부터 구조 설계, 개발까지 저의 그간의 3D + AI 경험을 갈아 넣다 보니 툴을 개발하고 운영한 지 1년이 되어가네요. 이제 프로토타입 단계까지 합치면 2년이 되어 갑니다.


처음에는 단순히 제가 애정을 가지고 만든 AI 툴을 소개하려 했으나 어쩌다 보니 그 여정을 훑으면서 제가 최전선에서 겪어왔던 크리에이티브 영역에서의 AI 변천사까지 이야기하게 됐습니다. 이 글을 작성하는 2026년 3월 말 독자적으로 제 툴을 개발하고 업데이트하며 운영하는 것은 비용 측면에서는 점점 어려워지고 있습니다. 어찌 보면 개인 단위에서 단순히 열정만으로 이 정도 규모의 AI 에디터를 계속 유지보수 해가는 게 의미가 있을까 싶기도 합니다. 그래서 지금까지의 여정을 기리기 위해서라도 이렇게 저의 이야기를 공유하게 됐습니다.


그럼 지금부터 단순한 아이디어와 문제 해결을 위해 시작한 프로토타입 개발이 어떻게 하나의 통합된 AI 크리에이터로 성장해 버렸는지 이야기해 보겠습니다.





단순한 문제정의로부터 시작된 나의 길고 외로운 여정


왜 만들게 됐는가?


2024년 여름, 처음 스테이블디퓨전에서 FLUX가 등장해 모두가 프로덕션에 어떻게 AI를 사용할 것인가 고민하던 시기에 AI 컨설턴트로서 에이전시에 합류하게 됐습니다. 당시 사람들이 고민하고 있던 부분은 어떻게 하면 제품 이미지를 활용해 AI로 광고이미지를 제작할 것인가였습니다. 당시는 2D 이미지를 가지고 어떻게든 하나의 제품샷을 생성해내려고 했습니다. 그런데 저는 곧바로 2D 공간 개념 안에서는 콘텐츠 제작 자유도에 한계가 있음을 깨달았습니다.



초기 버전의 프로토타입. 제품 3D를 중심으로 웹상의 3D 캔버스 위에서 원하는 위치, 각도, 크기로 배치한 제품을 우선으로 배치하고 이미지를 만들어가도록 했다.


배경 이미지와 제품 이미지를 어떻게 자연스레 합성할 것인가?


예를 들어 공간의 이미지를 만들고 기존에 보유한 제품 이미지를 합성하려 할 때 생성한 공간 이미지의 원근감과 제품 이미지가 서로 맞지 않는 문제가 생깁니다. 혹은 제품 이미지를 우선으로 AI에게 배경 아웃페인팅을 요청하는 경우에도 AI가 제품 디테일을 보전하지 못하거나 품질이 떨어지는 공간을 생성했습니다.


클라이언트는 다이나믹하거나 더 다양한 앵글의 프로덕트 이미지를 원합니다. 모든 사람들이 AI로 이를 해결하려 했지만 2D 공간에서 AI에게 의존하는 것에는 한계가 있었습니다.


가장 큰 문제는 바로 자연스러운 합성이었습니다. 위의 모든 문제를 어떻게 잘 해결했다 해도 생성한 공간 이미지와 나의 제품 이미지가 자연스럽게 합성되려면 공간에 맞는 빛과 그림자를 제품 이미지에도 입혀줘야 했습니다. 당시 stableDiffusion 1.5 모델을 기준으로 Relight 워크플로우는 배경을 기준으로 제품에 빛과 그림자를 자연스레 입혀줄 수 있었으나 역시 화질 저하 문제와 제품의 디테일을 AI가 훼손했으며 다른 워크플로우와 자연스레 연결시키려면 복잡한 ComfyUI 노드를 거쳐야 했었습니다.




"이거 3D로 하면 끝나는 거 아닌가?"



웹과 3D 공간의 워크플로우 접목


저는 다년간 WebAR을 개발하며 웹 개발과 특히 Three.js를 기반으로 하는 WebGL 3D 콘텐츠 개발을 해왔습니다. 더욱이 4년 동안 웹 기반의 WebXR 저작도구의 기능을 기획하고 SAAS 제품을 런칭한 경험이 있었습니다. 저에게는 위의 모든 문제들은 3D 월드 안에서는 너무도 쉽게 해결되는 것들이었습니다. 더욱이 웹 기반으로 3D 공간에서 AI를 작업한다면 그 효율성과 파급력이 엄청날 것이라 확신했습니다.


왜 웹인가

그 당시 사람들이 로컬 기반으로 ComfyUI를 구축하거나 스테이블디퓨전을 실행하는 것에 집중할 때 AI API를 웹에서 실행하는 방향을 주목했습니다. 왜냐하면 당시 AI의 또 다른 문제는 유저 디바이스의 GPU 성능을 요구한다는 것이었는데 제가 타깃으로 하던 사람들은 그램 노트북 정도를 보유했을 뿐이었습니다. 저는 누구나 접속할 수 있는 웹을 통해 클라우드 환경에서 API를 통해 AI를 사용하는 환경을 WebGL을 접목해 제공하자는 목표를 세우게 됐습니다.


왜 3D인가

3D 공간의 씬(Scene) 구조는 기본적으로 카메라, 조명, 환경, 오브젝트들로 구성되어 있고 Renderer 가 이 모든 요소를 수학적으로 계산해 이미지를 뽑아줍니다. 우리가 2D 배경 이미지에 2D 박스 이미지를 합성하면 배경에 어울리게 박스를 포토샵등으로 밝기나 대비등을 조정하고 그림자를 직접 그려줘야 합니다. 반면 3D 공간에 백그라운드로 배경 이미지를 설정하고 3차원 CUBE를 넣고 렌더링을 하면 큐브는 공간의 빛을 자연스레 받고 그림자도 자연스레 형성됩니다. 저에게는 3D 공간 세팅은 굉장히 단순했고 그 단순한 세팅 하나로 제품 이미지를 배경에 합성하고 그림자를 그리고 Re-light 하는 과정이 반자동화할 수 있다고 생각했습니다.



초기 3D의 실험



초기 프로토타입에서 배경을 FLUX AI로 생성한 후 마음에 드는 배경이 나오면 캔버스 화면의 Background로 곧바로 적용할 수 있게 했습니다.



저는 제품의 3D 모델링을 GLB 포맷으로 최적화하는 시도로 가설을 테스트해 보기 시작했습니다. 우선 WebGL 3D 캔버스를 중심으로 UI를 구축했습니다. 당시 BLACK FOREST LAB 이 제공하는 FLUX 1.1 PRO API를 직접 연결해 유저가 원하는 공간을 텍스트 프롬프트로 입력하면 3D 캔버스에 그 배경을 Background로서 설정해 주고 해당 Background를 곧바로 HDRI 이미지로 변형해 캔버스에 올라가는 모든 3D 물체들이 해당 백그라운드의 환경 정보를 토대로 라이팅이 들어가도록 했습니다. 큰 창으로 햇살이 들어오는 밝은 거실을 AI 이미지로 만들면 3D 공간에 바로 적용되고 거기에 제품 3D를 놓으면 햇살이 그대로 제품에 입혀지고 그림자도 적용되어 자연스럽게 배경과 제품이 합성됩니다.



배경 이미지를 HDRI로 적용하여 배경의 광원이 제품에 자연스레 스며들게 배경 광원 설정 기능을 제공했습니다.



생성된 배경에 맞게 제품을 배치 후 자연스러운 합성을 위한 그림자, 조명을 추가적인 단순 조작으로 설정할 수 있게 했습니다.



기존에 3D를 잘 모르던 사람들도 쉽게 과정을 따라갈 수 있도록 제품 배치-> 배경 생성 -> FOV 설정 -> 그림자 설정 -> 조명 설정, 이렇게 5단계로 기능을 축약했습니다. 특히 조명 설정 같은 경우 기존 3D 프로그램에서는 직접 조명을 다양한 종류로 추가하고 위치나 색감, 강도등 복잡한 설정을 거쳐야 했지만 스튜디오 3점 조명 세팅을 미리 프리셋으로 만들어놓고 단 3개의 조명에 대한 설정만 하면 되도록 단순화했습니다. 그림자 기능을 조명 세팅과 별도 단계로 분리한 이유도 디자인이나 예술 특히 3D 공간에 전문성이 없는 사람들은 조명 세팅에 관계없이 그림자를 쉽고 빠르게 AI 배경에 맞는 보기 좋은 방향과 강도로 편집하기를 원했기 때문이었습니다.



결과물은 배경과 제품이 합성된 이미지, 제품만 있는 이미지, 제품 마스킹 이미지를 다운로드하게 하여 포토샵등에서 추가 보정의 편리성을 제공했습니다.



그 당시엔 추가적으로 프로덕션 퀄리티로 끌어올리기 위해선 어찌 됐건 후보정을 거쳐야 했고 클라이언트가 포토샵 파일을 요구하는 경우가 많았습니다. 그래서 배경과 제품이 합성된 이미지와 함께 제품만 있는 이미지, 포토샵 등에서 영역 지정 편집을 쉽게 할 수 있게 도와줄 제품 마스킹 이미지를 별도로 다운로드할 수 있는 기능을 제공했습니다.



꽤나 만족스러웠던 성과


포토샵을 거치지 않은 툴 자체에서만 만든 이미지


해당 프로토타입은 곧바로 여러 POC에서 비디자이너, 비 AI 전문가들이 직접 사용했고 SNS등의 디지털 제품이미지를 생산하는데 적합한 워크플로우로 검증됐습니다.


비슷한 시도를 하고 있는 곳이 있었습니다. 그런데 비싸고, 무거웠고, 어려웠습니다.

저는 반대로 싸고 가볍고 쉽게 가기로 했습니다.


당시 ADOBE의 섭스탠스 스테이저(Substance Stager)가 저와 같은 개념이었습니다. 어도비는 Stager에서 본인들의 Firefly로 배경을 생성하게 하고 그 배경에 3D를 얹어 이미지를 뽑아낼 수 있는 기능을 선보였습니다. 그러나 섭스탠스 3D 라이선스의 비싼 구독비와 3D 툴을 설치해 사용해야 한다는 부담감, 그리고 해당 소프트웨어를 사용하기 위해서는 개인 컴퓨터의 GPU가 좋아야 했기에 일반 마케팅, 기획자들에게는 큰 허들로 작용했습니다. 더욱이 당시 Firefly의 품질이 좋지 않았기에 제가 만든 FLUX 기반의 AI 3D 툴이 훨씬 어필이 되었습니다.


결론적으로는 어도비 스테이저의 사용 경험과 품질, 저의 프로토타입 사용 경험과 품질을 비교했을 때 제품 이미지를 생산하기에 가장 필요한 기능으로만 단순화하고 가벼운 PC의 웹에서 돌아가는 제 프로토타입이 비전공자를 대상으로 훨씬 매력적이었습니다.


특히 가장 처음 Ai 이미지 제작 과정에서 제기된 문제인 제품 이미지와 배경 이미지의 원근감을 맞추기 어려운 이슈를 3D 공간과 Ai 배경 이미지를 결합해 해결할 수 있다는 것을 2건의 poc 프로젝트를 통해 검증했으며 아직 FIREFLY가 아쉬웠던 때의 포토샵 후보정을 위한 AI 제품 이미지 소스를 빠르게 제공할 수 있었습니다.






여정의 시작...


하나의 문제에 대해 해결 가설을 세우고 프로토타입을 만들어 직접 검증해 보니 더 발전할 수 있는 가능성이 보였습니다. 그렇게 점차 작은 문제를 해결하고자 개발한 프로토타입이 자연스레 다음 스텝으로 저를 안내했고 그로 인해 돌이킬 수 없는 여정을 시작하게 됩니다....