brunch

ChatGPT의 지브리 스타일 이미지 생성의 비밀

by 박재현

최근 AI 세계에서 가장 뜨거운 화제는 단연 OpenAI가 선보인 GPT-4o의 이미지 생성 기능 업데이트입니다. GPT-4o를 이용해 자신의 사진을 지브리 스타일로 변환한 그림을 SNS에 올리는 것이 크게 유행하면서 ChatGPT의 가입자도 크게 늘어났다고 합니다. 이번 사건은 많은 사람들이 AI 기술에 좀 더 친근하게 접근할 수 있도록 하는 마케팅적으로도 주목할 만한 현상이지만, 좀 더 깊이 있게 이해해보면 AI 기술의 흐름에 있어 꽤 의미 있는 전환점이 될 수 있는 사건으로 볼 수 있습니다.


image.png?type=w966 OpenAI : 4o Image Generation in ChatGPT and Sora


사실 기존 ChatGPT에서는 이미 Dall-E라고 불리는 모델로 이미지 생성 기능을 제공하고 있었습니다. Dall-E는 Midjourney, Stable Diffusion, Flux과 같은 여러 다른 이미지 생성 모델과 마찬가지로 Diffusion 모델 기반으로 만들어졌습니다. 그런데 이번에 공개한 이미지 생성 모델은 흥미롭게도 이미지 생성 모델에 굳게 자리잡은 Diffusion 모델 구조에서 벗어나, 텍스트 생성 모델인 GPT-4o를 기반으로 Auto Regressive 방식으로 개발되었다고 합니다.


지난 2월, Diffusion 모델 기반의 LLM 서비스의 등장으로 Auto Regressive 모델의 입지가 공격받는 듯했으나, 이번에는 거꾸로 Auto Regressive 모델 기반의 이미지 생성 모델의 등장으로 반격을 하는 상황이 되었습니다. 이러한 변화는 모델 아키텍처의 근본적 전환과 함께, 이미지 생성 AI의 활용 방식에 있어 새로운 패러다임의 등장을 의미합니다.


이번 포스팅에서는 Auto Regressive 모델의 이미지 생성 연구에 대해 되짚어보고, 향후 예상되는 발전 방향과 기술적·문화적 함의에 대해 분석적으로 논의해보고자 합니다.




기존 Diffusion 모델의 한계와 도전


Diffusion 기반 이미지 생성은 텍스트를 이미지로 변환할 때 CLIP 텍스트 인코더로 프롬프트를 임베딩하고, 이 임베딩 정보가 이미지 생성을 조절(Conditioning)하며 이미지를 얻는 방식입니다. 이 접근법은 혁신적이었지만 몇 가지 본질적 한계점이 드러났습니다.


Diffusion 방식의 이미지 생성 모델의 구성

CLIP 인코딩 병목: CLIP 모델로 긴 문장을 하나의 벡터로 압축하다 보니 복잡한 세부 정보가 손실될 수 있습니다

프롬프트 반영의 어려움: Diffusion 모델이 임베딩된 문장을 이미지로 생성하는 과정에서 사용자 의도와 다소 동떨어진 결과를 만들 수 있습니다.

복잡한 파이프라인: Diffusion 방식은 CLIP, U-Net, VAE 등 별도 학습된 모델들이 조합되어 복잡한 파이프라인을 형성합니다


이러한 한계들 때문에, 프롬프트 내용이 온전히 반영된 이미지를 얻는 데 어려움이 있었고, 모델이 생성한 이미지의 품질과 텍스트-이미지 일치도에도 제한이 있었습니다. 그 결과, 연구자들은 Diffusion을 대체하거나 보완할 새로운 접근법을 모색하기 시작했습니다.




Auto Regressive 이미지 생성 모델의 부상


이 때 등장한 것이 Auto Regressive 방식의 이미지 생성 모델입니다. Auto Regressive 모델은 이미지를 토큰의 연속 시퀀스로 간주하여, 마치 문장을 쓰듯 토큰을 하나씩 순차적으로 예측하며 그림을 그려나가는 접근법입니다.


텍스트 생성에 쓰이던 방식을 이미지 생성에 접목한 것으로, 언어와 시각 정보를 동일한 맥락에서 다룰 수 있다는 강점이 있습니다. 2024년을 전후하여 몇몇 연구들이 이 방식을 제안하며 Diffusion 모델의 대안으로 부상했습니다. 대표적인 사례 몇 가지를 살펴보겠습니다.


image.png?type=w966

Liquid (2024)

Liquid는 이미지와 텍스트를 동일한 토큰 공간에 통합한 구조를 선보였습니다. 특히 Liquid는 한 모델 안에 이미지 인식과 생성 능력을 모두 넣으면서도, 모델 크기가 커질수록 멀티모달 학습으로 인한 성능 저하가 줄어든다는 스케일링 법칙을 실험적으로 확인했습니다.


image.png?type=w966

Lumina-mGPT (2024)

Lumina-mGPT는 Auto Regressive 모델 구조 뿐만 아니라 새로운 학습 방법을 제안하였다는 특징을 갖습니다. 그 결과 단일 모델이 이미지 생성 뿐만 아니라 Semantic Segmentation이나 Depth Map 예측 같은 추가적인 비전 인식 까지 해내는 만능 Vision-Language 모델의 역할을 할 수 있음을 보여주었습니다.


image.png?type=w966

Janus-Pro (2025)

Janus-Pro는 최근 화제가 되었던 딥시크에서 공개한 멀티 모달 모델로 이미지 이해와 생성에 특화된 경로를 분리(decoupling)하여 각각 최적화하였습니다. 예를 들어 입력 이미지에 대해서는 전용 인코딩 경로로 분석하고, 생성 시에는 별도의 디코딩 경로를 통해 이미지를 합성함으로써 두 작업에서 전문적인 성능을 발휘합니다.


위의 사례들에서 공통적으로 드러나는 Auto-Regressive 이미지 생성 모델의 강점은 다음과 같습니다.

첫째, 텍스트와 이미지 간의 매끄러운 통합이 가능합니다. 언어모델의 방대한 지식을 이미지 생성에 활용하므로, 프롬프트의 뉘앙스나 상식적 맥락까지 반영될 수 있습니다.

둘째, 프롬프트 충실도가 높아집니다. 이미지 토큰을 예측하는 과정 자체가 텍스트 생성과 유사하므로, 모델이 문장을 이해하고 논리적으로 이미지 장면을 구성하는 데 유리합니다.

셋째, 모델 일원화로 인한 간결성입니다. 하나의 모델로 멀티모달 작업을 모두 처리하므로 별도 모듈 간의 인터페이스 문제나 중복 학습이 줄어들고, 멀티모달 학습으로 상호 보강 효과도 기대할 수 있습니다.


다만 약점도 존재하는데, 이미지를 토큰 시퀀스화 한 경우 상당히 많은 토큰이 필요하다보니 생성 속도가 느리며 특히 고해상도 이미지 생성시 부담이 매우 크다는 점이 지적됩니다.




GPT-4o에 Auto Regressive 이미지 생성 통합: 무엇이 달라졌나


OpenAI의 GPT-4o는 위와 같은 Auto Regressive 접근을 자사 주력 모델에 전격 통합함으로써, 이미지 생성 품질과 유연성에서 비약적 향상을 이루었습니다. OpenAI에서 데모 영상으로 통해 공개한 주요 변화들을 하나씩 살펴보겠습니다.

image.png?type=w966


프롬프트 준수 및 세밀한 제어

GPT-4o는 주어진 지시를 이전보다 훨씬 정확히 따른 이미지를 만들어냅니다. 예를 들어 여러 객체가 등장하고 복잡한 관계가 있는 장면도 잘 해석하며, 사용자가 원하는 스타일이나 구성을 충실히 반영합니다.


image.png?type=w966


텍스트 및 로고의 정확한 생성

기존 Diffusion 모델이 어려움을 겪던 이미지 내 글자 넣기를 GPT-4o는 훨씬 정확하게 해냅니다. 모델 아키텍처 자체에 언어 능력이 내재되어 있기 때문에, 간판의 문구나 제품의 라벨처럼 명확한 의미의 글자를 요청하면 실제 언어로 또렷하게 표현합니다.

image.png?type=w966


Image-to-Image 변환과 멀티턴 대화

사용자가 이미지를 업로드하고 “이 이미지의 일부를 바꿔줘” 또는 “이 스타일로 다시 그려줘” 같은 지시를 내리면, 모델이 기존 이미지를 이해한 후 원하는 변경사항을 반영한 새로운 이미지를 만들어냅니다. 이때 기존 Diffusion 모델 대비 원래 이미지의 맥락과 캐릭터의 일관성 등을 잘 유지해줍니다. 게다가 한 번의 생성으로 끝나는 것이 아니라, 여러 턴에 걸쳐 이미지를 점진적으로 개선하거나 수정할 수 있습니다.


이처럼 GPT-4o에 Auto-Regressive 이미지 생성을 통합한 결과, Text-to-Image 분야는 한 단계 진화한 모습을 보이고 있습니다. 기존에는 텍스트 AI와 이미지 AI가 분리되어 각각 작동하던 반면, 이제는 한 모델이 언어와 시각을 모두 이해하고 생성함으로써, 사용자로서는 훨씬 자연스럽고 강력한 도구를 손에 넣은 셈입니다.


GPT-4o 사례는 Auto Regressive 이미지 생성 방식이 연구 단계에서 머무르지 않고 실제 서비스에 적용되어 일반 소비자들에게 혜택을 주기 시작했다는 점에서 의의가 큽니다.




멀티모달 AI와 차세대 인터페이스의 가능성


GPT-4o의 등장은 AI와 상호작용하는 인터페이스 측면에서도 중요한 시사점을 줍니다. 이 모델은 진정한 멀티모달 입력-출력을 지원하는데 이러한 Omni-모달 대화는 차세대 인터페이스로서 커다란 잠재력을 가집니다


일례로 별도의 이미지 생성기나 그래픽 툴을 열 필요 없이, 대화형 AI 한 곳에서 모든 작업이 이루어질 수 있습니다. 예컨대 “이 수학 문제를 풀어줘”라고 물으면 필요한 경우 도형이나 그래프를 그려 설명을 보강할 수도 있습니다. 이러한 인터페이스는 인간에게 훨씬 자연스러운 소통 방식으로, 마치 사람과 대화하면서 종이에 그림을 같이 그려가며 생각을 나누는 것과 비슷한 협업을 가능케 합니다.


image.png?type=w966


사용자 입장에서는 AI와 소통하는 방법의 스펙트럼이 넓어지고, 가장 효과적인 방식으로 정보 교환을 할 수 있게 됩니다. 궁극적으로는 인간과 컴퓨터 간 상호작용 방식을 한층 인간에 가깝게 진화시키는 핵심 열쇠라 볼 수 있으며, GPT-4o는 그 가능성을 대중에게 입증한 사례라고 할 수 있습니다.




결론: 작지만 큰 변화


사실 AI 이미지 생성 모델은 상업적으로 활용도가 매우 높기 때문에 이미 몇 년 전부터 그래픽 관련 전문가들을 중심으로 상당히 큰 시장을 형성하고 있었습니다.


따라서 이번 OpenAI에서 선보인 이미지 생성 기능은 일견 또 다른 유사한 모델의 등장 정도로 보일 수도 있습니다. 하지만 앞서 얘기한 대로 그 내막을 뜯어보면 결코 작은 발전이 아니라는 점을 이해하셨으리라고 생각됩니다.

image.png?type=w966

기존에는 원하는 맥락이 반영된 이미지를 얻기 위해서는 상당한 프롬프트 엔지니어링과 여러 단계의 후처리 파이프라인이 필요했습니다. 이번 발전은 이러한 과정을 단순화하여 AI 이미지 생성의 대중화를 크게 앞당겼다고 평가할 수 있습니다.


더군다나 기존의 멀티모달 모델들이 텍스트는 입력과 출력이 모두 가능한 반면에 이미지는 입력만 가능했다는 점에서 한계가 있었습니다. 이제는 진정한 의미의 멀티모달 모델이 등장했다는 점에서 기술적 의미도 적지 않습니다. 즉, 언어·시각·청각 정보를 모두 아우르는 범용 인공지능(Artificial General Intelligence)에 한 걸음 다가섰다고 볼 수 있습니다.


또한 모델 아키텍처 측면에서는 Transformer 기반 생성 모델의 범용성이 다시 한번 입증되며 최근의 AI 연구 방향성에 다시 한번 확신을 불어넣어주는 계기가 되지 않았을까 생각됩니다.


keyword
작가의 이전글인간의 직관 vs 계산의 힘 : 무엇이 AI를 이끌까?