#7 3D데이터가 없다면 AI로 생성해 보자

나의 고독한 AI 에디터 개발기

by 민근
나: 왜 3D 기능을 만들어줬는데 쓰지를 못하니.
???: 3D 파일이 없는데요?


3D가 없다.


여전히 실제 프로덕션에서는 3D가 가장 큰 걸림돌이었습니다. 제 툴이 3D 공간에서 AI 편집이 가능했으나 결국 3D 모델을 직접 만들거나 수급받지 못하면 3D 기능은 거의 쓰일 일이 없었습니다. 스스로 AI 워크플로우에 3D를 활용하는 것에 대한 효율성과 가치는 입증했으나 3D 어셋을 표준화하고 어셋 화하는 일은 대행사에 맡기거나 대부분 비용이 없어 직접 설계 데이터를 손으로 변환해내야 했습니다.


3D를 해결하기 위한 세 가지 목표

이런 상황에서 제 툴의 3D 기능 개발 목표는 다음과 같았습니다.


첫 번째는 3D 공간과 3D 모델 컨트롤 기능을 제공해 보다 정확하고 자연스러운 제품 합성으로 디지털 콘텐츠를 위한 장면 구축이 가능해야 한다.

두 번째는 첫 번째를 위해 글로벌 표준에 따른 3D 어셋 제작과 어셋 매니지먼트 시스템을 내재화해야 한다.

세 번째로, 그러나 3D 모델이 없어도 제품 이미지만으로 3D 공간에서 AI와 저작할 수 있어야 한다.


첫 번째의 목표는 저의 가장 초기 프로토타입부터 툴에 기능화하여 사용하면서 이미 실전성을 검증했습니다. 그렇지만 표준화된 3D 어셋을 구축하는 시스템이 마련되어 있지 않으면 아무리 좋은 3D AI 기능이라도 사용할 수가 없었기 때문에 두 번째 목표를 제시했습니다. 그러나 두 번째 목표를 달성해 나가는 일은 산업 구조적으로 혁신을 거쳐야 하는데 여러 상황을 겪고 나서 현재로서는 시작초자 불투명하다 판단하게 됐습니다.




3D를 만드는 것이 아니라,

3D를 ‘생성해서 쓰는 방향’으로.


결국 가장 좋은 것은 3D 모델을 만들 수 없어도 가지고 있는 제품 이미지 만으로 3D 기능을 활용할 수 있는 것입니다. 저는 세 번째 목표에 집중하기 시작했고 3D 생성 AI에서 해답을 찾기 시작했습니다. 결국 3D까지 AI로 생성할 수 있어야 완전한 AI 크리에이티브 생태계를 하나의 플랫폼 안에서 구축할 수 있다고 믿었습니다.



다양한 3D 생성 모델들의 발전


급격하게 시장에 쏟아지던 최신 이미지/ 비디오 생성 모델들을 연구하는 한편 다시 제 툴의 기본 베이스인 3D 기능에 집중하기 시작했습니다. 여러 3D AI 생성 모델들과 개별 플랫폼들을 직접 비교 시험하며 제 워크플로우에 활용할 수 있을까 테스트해 보고 있었습니다.


2025년 초기에는 아직 제 기준에서 괜찮은 수준의 3D 생성 모델들이 API로 제공되지는 않고 있었습니다. 그 당시 국내에서는 Meshy가 엄청난 마케팅으로 대중적인 3D 생성 선택지로 떠오른 것 같았습니다. 또 Microsoft의 Trellis 도 주목을 받았습니다.


그렇지만 제가 당시에도 그리고 2026년 지금까지도 가장 만족했던 것은 Rodin의 3D 생성모델이었습니다. 그 당시 제 기준에서는 다른 모델보다 빠르게 PBR 매터리얼을 지원했고 다른 3D AI 모델들이 한 개의 이미지로부터 3D를 생성하려 할 때 다각도의 이미지 인풋을 기반으로 꽤나 정교한 3D 모델을 생성해 주었습니다. 다행히 Rodin이 자체 API를 제공하여 곧바로 저의 툴에 텍스트/이미지 인풋 기반으로 3D 모델을 곧바로 생성해 3D 씬에 바로 추가하는 기능을 개발할 수 있었습니다. 이후 제 데이터를 fal.ai 구조로 통합하면서 Rodin 이외에도 여러 3D AI 모델들을 툴에 교차 탑재하여 시험해 볼 수 있었습니다. 이후 속도나 가성비면에서 hunyaun 등의 더 빠르고 간편한 3D 모델들이 공개되면서 툴에 사용하기 시작했습니다.




완벽하지 않지만, 충분히 쓸 수 있다


아직 만족스럽지 못한 3D 생성 결과물,

다른 모델과의 조합으로 워크플로우를 완성하다


당시에 AI가 당연히 제품을 완벽히 3D화 할 거라는 기대는 없었습니다. 특히 저 스스로가 다년간 Cinema4D, Blender 베이스로 직접 모델링과 렌더링, 캐릭터 애니메이션을 작업했던 3D 백그라운드를 가지고 있다 보니 AI 가 만들어준 러프한 3D 모델이 3D 모델 제작 과정을 대체할 거라는 기대는 아예 안 했습니다. 프로덕션 수준으로는 생성형 3D 모델로 만든 제품 3D를 곧바로 활용할 수 없는 데는 분명했습니다. 다만 앞으로 3D AI가 발전할 것이니 이를 대비하고 현재 트렌드를 앞서 읽고 기능화했다는데 의의를 두었습니다.


그렇지만 단일 AI 생성이 아닌 저의 설계대로 여러 다른 AI API들의 기능을 연계한다면 지금의 3D 데이터도 충분히 활용가능하리라 생각했습니다. 3D 모델을 활용하면 콘텐츠 제작이 너무나 수월하겠으나 절대로 3D 모델을 확보하지 못할 것 같은 창작자들을 타깃으로 고안했습니다. 이들이 적어도 제품의 이미지는 가지고 있다면 이를 3D AI를 활용해서 러프하게 제품의 윤곽을 3D 모델로 생성하고 곧바로 3D 공간에 배치하게 할 수 있겠다 싶었습니다. 이를 3D 제품 스케치라고 표현한다면 이 3D 제품 스케치를 다른 AI 모델과 연계할 수 있는 방법이 곧바로 떠올랐습니다.




3D를 결과가 아닌, 힌트로 쓰다



소파 제품 이미지를 곧바로 3D 한 다음 3D 캔버스 공간에서 카메라 세팅으로 원하는 원근감으로 배치할 수 있게 했다


Nano Banana가 세상에 출시되기 전, 당시 가장 유효했던 이미지 프롬프팅 방법인 ControlNet 기법을 활용할 수 있게 툴에 기능화했다.




가장 초기에 실험한 예는 툴에서 생성한 3D 오브젝트들로 씬의 레이아웃을 3D공간으로 만들고 그 장면을 레퍼런스 이미지 삼아 장면을 AI로 생성하는 것이었습니다. 실제로 당시 주요한 생성 방법으로 단순 텍스트 프롬프트를 입력하는 것이 아닌 이미지 인풋을 레퍼런스로 입력해 이미지를 생성할 수 있게 기능화해 놓은 상태였습니다.


지금에야 NanoBanana만 사용하면 너무나 쉽게 될 일이지만 Nano Banana가 아직 세상에 출시되기 전, 당시까지 가장 유효했던 이미지 프롬프팅 기법이었던 Kontext를 더불어 FLUX REDUX 등이 ControlNet 기법을 기능화했습니다. 유저가 입력한 이미지의 레이아웃을 그대로 유지하며 이 레이아웃 위에서 AI가 새로운 이미지를 생성해 주는 기법을 활용한 방법이었습니다.


대표적으로는 LINE, DEPTH 추출 방법이었는데 인풋으로 입력된 이미지의 윤곽선이나 깊이(공간) 정보를 AI가 추출하여 해당 정보를 기반으로 새롭게 이미지를 만들어주는 방식입니다.




AI가 생성해 준 제품 3D를 원하는 원근감과 각도, 크기, 위치로 배치한 후 당시에 Flux Redux의 Depth Map 기반 이미지 생성 솔루션을 사용할 수 있게 했다.


구조를 유지한 채 생성하는 방법


내가 가지고 있는 제품 이미지(예를 들어 소파)를 곧바로 툴에서 3D AI로 3D 모델화합니다. 그리고 3D 캔버스 위에서 원하는 각도로 배치하고 원하는 카메라 화각까지 설정할 수 있습니다. 원하는 위치, 크기, 각도와 원근감으로 제품 구조의 힌트가 될 3D 모델을 배치했다면 해당 장면의 구조를 참조해서 AI가 제품의 디테일을 현실감 있게 살려주고 나머지 비어있던 공간을 제품의 각도와 원근감에 맞게 채워주게 됩니다.


이 방법은 기존 2D 제품 이미지만 활용할 때 제품 사진의 각도에 잘 들어맞는 배경 이미지를 생성할 수 없거나 스톡 이미지를 찾을 수 없어 제작이 까다로웠던 기존 프로세스의 어려움을 일부 해소해 주었습니다. 유저가 3D 모델이 없어도 3D 모델을 생성해 장면을 만들어 이를 다시 원하는 느낌, 실사 혹은 애니메이션 느낌 등등으로 이들 기능을 활용해 AI로 완성할 수 있게 했습니다.



가능성과 한계


이 방법은 완벽하지 않은 AI의 제품 3D 생성 결과물을 어떻게 프로덕션 레벨의 작업물에 소스로 활용할 수 있을 것인가에 대한 가능성을 제시해 주었습니다. 다만 아직까지도 이미지 생성 단계에서 일관성 유지가 되지 않던 때였습니다. 소파 같은 가구나 식물등 주변 사물들은 3D로 배치 후에 AI가 어느 정도 자유도를 가지고 이미지 생성 시 변형해도 괜찮았지만 제품은 그렇지 않았습니다.


다음 예시를 보면 3D 모델을 힌트로 사용하더라도 여전히 제품을 완전히 다른 모습으로 생성하는 것을 볼 수 있습니다. 소파 옆에 공기청정기 제품을 배치하려고 했던 시도입니다. 저의 툴에서 공기청정기 제품 이미지를 3D로 생성하고 옆에 비치할 소파 역시 3D로 생성했습니다. 그런 후 구조를 참조하게끔 AI로 이미지를 재구성합니다. 즉 AI 렌더링을 시도합니다.


소파는 주변 오브젝트이기 때문에 어느 정도 처음 이미지에서 조금 달라져도 괜찮습니다. 그러나 결과에서 보이듯이 제품이 제품 그대로 특징을 잘 유지해야 하지만 완전히 다른 공기청정기를 AI가 생성하는 문제가 여전히 남아있었습니다.


물론 그럼에도 불구하고 해당 프로세스는 굉장히 유효했습니다. 왜냐하면 기존에는 AI가 크기나 위치, 구도까지 중구난방으로 생성했는데 AI로 만든 3D를 곧바로 활용해 배치하여 구조를 참조하게 함으로써 적어도 제품의 크기, 위치, 주변 공간의 레이아웃이 의도대로 그대로 유지된 이미지를 얻을 수 있기 때문입니다. 해당 이미지를 다시 소스로 활용해 가짜 AI 제품 위에 실제 제품을 빠르게 합성할 수 있었습니다.


AI가 생성한 가짜 제품을 진짜 이미지로 교체해 완성한 예




여전히 진짜 제품 합성은 포토샵을 거치거나 Blender 등으로 옮겨 3D 제품 모델링을 손으로 작업한 것을 이용했습니다. 제 기준에서는 프로덕션에 이 툴이 완전히 활용되기 위해서는 주변 프롭 오브젝트들을 생성하는 것이 아닌 실제 제품 3D 모델을 활용할 수 있어야 했습니다.


어떻게 하면 한 단계 더 나아갈 수 있을까 고민을 하던 와중에 이미지 레퍼런스로 입력한 대상을 훼손 없이 그대로 유지하며 새로운 장면을 만들어주는 모델들이 등장하기 시작했습니다. 바로 Flux LoRA 트레이닝 방식을 시작으로 ZERO SHOT의 등장과 ChatGPT 이미지의 발전, 종결자 Nano Banana의 등장이었습니다.


저는 이런 생각이 동시에 들었습니다.

3D를 더 본격적으로 활용할 수 있겠는데 라는 설렘과


어라, 3D가 애초에 필요 없어 질지도 모르겠다.










매거진의 이전글#6 서로 다른 AI들을 어떻게 연결할 것인가