brunch

Auto Regression 과 Diffusion

AI 기술의 양대산맥

by 박재현

인공지능이 그림을 그리고, 글을 쓰고, 음악을 작곡하는 시대가 왔습니다. 2023년 챗GPT의 등장 이후 폭발적으로 성장한 AI 기술은 이제 우리 일상 깊숙이 들어왔습니다.


하지만 이 모든 놀라운 기술 혁신 뒤에는 단 두 가지 핵심 원리가 있다는 사실, 알고 계셨나요? 바로 Auto Regression(자기회귀)와 Diffusion(확산) 모델입니다. 이 두 기술은 마치 현대 AI의 양대산맥처럼 각자의 영역에서 혁신을 이끌고 있습니다. 언어 모델을 지배하는 자기회귀 방식과 이미지 생성을 주도하는 확산 모델이 어떻게 작동하는지, 왜 이토록 성공적인지 함께 살펴보겠습니다.




Auto Regressive 모델: 한 걸음씩 나아가는 AI


Auto Regressive 모델은 시계열 데이터를 처리할 때 한 시점의 출력을 다음 시점의 입력으로 사용하며, 과거 정보를 축적해나가면서 전체 시퀀스를 구성합니다. 텍스트 생성에서는 하나의 단어를 예측하고, 그 단어를 포함해 다음 단어를 예측하는 식으로 진행되며, 이 방식은 자연스러운 문맥 흐름과 일관성을 확보하는 데 매우 효과적입니다. 특히 Transformer 기반 구조에서는 각 단어 간의 장기적 의존성까지 고려할 수 있어, 문장의 앞뒤를 조화롭게 연결하는 표현 능력이 뛰어납니다.


Auto Regressive 모델의 텍스트 생성 과정


예를 들어, GPT와 같은 언어 모델이 "오늘 날씨가"라는 입력을 받으면, 이전 단어들을 바탕으로 "좋습니다"라는 다음 단어를 예측하고, 다시 "오늘 날씨가 좋습니다"를 바탕으로 다음 단어를 예측하는 방식으로 문장을 완성해 나갑니다. 마치 글쓰기를 할 때 한 단어씩 이어 나가는 인간의 방식과 유사합니다.




확산 모델: 혼돈에서 질서를 창조하는 AI


Diffusion 모델은 노이즈로 가득한 상태에서 출발하여, 매 단계마다 조금씩 원본 데이터의 형태를 되살리는 방식으로 작동합니다. 즉, 처음부터 정답을 예측하기보다는 점진적인 개선과 보정(refinement)을 통해 최종 결과물을 구성합니다.


Diffusion 모델의 이미지 생성 과정


이는 이미지나 오디오와 같은 연속적인 데이터의 전역 구조와 미세 디테일을 함께 잡아가는 데 매우 적합한 구조입니다. 각 단계에서의 변화 폭이 작기 때문에, 작은 오류를 고치며 정밀하고 현실적인 결과를 생성할 수 있습니다.


DALL-E나 Stable Diffusion과 같은 이미지 생성 모델은 처음에는 완전한 무작위 픽셀(노이즈)에서 시작하여, 수백 번의 단계를 거치며 점차 형태와 색상, 질감을 갖춘 이미지로 변환해 나갑니다. 마치 안개 속에서 천천히 모습을 드러내는 풍경처럼, 모호함에서 명확함으로 진화하는 과정을 거칩니다.




인간 지능와의 흥미로운 유사성


Auto Regressive 모델과 인간의 언어 처리

Auto Regressive 모델과 인간의 언어 생성을 비교해볼 수 있습니다. 인간은 문장을 말하거나 글을 쓸 때 순차적으로 단어를 이어가며 사고를 표현합니다. 이는 자가회귀 언어모델의 동작과 유사해 보입니다.



뇌과학의 예측 부호화 이론(predictive coding)에 따르면 뇌는 실제로 끊임없이 다음에 들어올 감각 신호나 단어를 예측하면서 인지 과정을 진행한다고 합니다. 언어의 경우 뇌도 문맥을 바탕으로 다음에 올 말을 어느 정도 예상하며 듣고 말하는데, 이는 GPT 같은 모델의 다음 단어 예측 과정과 맥락상 유사합니다.


Diffusion 모델과 인간의 창의적 과정

Diffusion 모델과 인간의 사고/상상 사이에도 흥미로운 비교가 가능합니다. 확산 모델이 처음에는 노이즈만 가득한 상태에서 점차 형태를 갖춰가는 과정은, 인간이 아이디어를 구체화하거나 상상을 시각화하는 과정과 비슷하다는 견해가 있습니다. 예를 들어 화가가 스케치를 대략 그리고 계속 덧붙여 세부를 완성하거나, 우리가 막연한 이미지를 머릿속에 떠올린 후 점점 선명하게 그려보는 과정이 확산 모델의 동작과 비유되곤 합니다.



"뇌가 꿈을 꿀 때 무작위한 신호에서부터 이미지를 생성한다"는 가설이나, "창의적 발상은 혼란스러운 단편들을 점진적으로 정련하여 구체화한다"는 심리학 이론 등은 확산적 생성과 일맥상통하는 면이 있습니다. 한 실험적 분석에서는 확산 모델이 기억을 저장하는 방식이 마치 인간의 홀로그래픽 기억과 유사하다는 주장을 하기도 했습니다. 뇌가 특정한 위치에 기억을 또렷이 저장하기보다는, 전체 신경망에 걸쳐 희미한 패턴으로 저장해두고 적절한 실마리(큐)를 받을 때만 기억을 재생한다는 것입니다.




복잡계의 단순성: 두 모델의 성공 비결


복잡한 문제를 작은 단위로 분해하는 전략

Auto Regressive 모델과 Diffusion 모델은 모두 복잡하고 고차원적인 데이터를 처리할 때 전체를 한 번에 다루기보다, 그 구조를 잘게 쪼개어 순차적으로 해결하는 방식을 택합니다.


두 모델 모두 복잡한 문제를 단순한 하위 과제로 분할함으로써 학습과 생성의 안정성을 확보합니다. 이는 단순히 기술적 편의성을 넘어서, 복잡한 생성 과제를 해결하는 데 있어 인지적으로도 효율적인 전략이라 할 수 있습니다. 복잡성을 단계별로 분해하여 처리하는 방식은 훈련 과정의 수렴을 빠르게 만들고, 생성 시에는 결과물의 질적 일관성과 다양성을 확보하는 기반이 됩니다.



자기 지도 학습: AI 성장의 핵심 동력

또 하나의 중요한 공통점은, 두 종류의 모델 모두 자기 지도 학습(self-supervised learning) 방식을 사용한다는 점입니다. 이는 모델이 외부의 수작업 라벨 없이도, 데이터 그 자체에서 학습에 필요한 신호를 추출할 수 있도록 하는 전략으로, 최근 대규모 AI 모델의 성공을 이끈 핵심 요인이기도 합니다.


Auto Regressive 모델에서는 전체 시퀀스를 입력으로 받아 일부 요소(예: 다음 단어, 다음 프레임 등)를 예측 대상으로 삼는 방식으로 자기 지도 학습이 수행됩니다. 예컨대 언어 모델에서는 문장의 앞부분만을 주고, 그 다음에 올 단어를 맞추도록 하여 학습 데이터를 구성할 수 있습니다.


Diffusion 모델 또한 매우 유사한 방식으로 학습됩니다. 원본 이미지나 데이터를 받아, 그 위에 인위적으로 가우시안 노이즈를 추가한 버전을 생성한 후, 노이즈가 섞이기 전의 상태를 예측하도록 모델을 훈련시킵니다.

Masked AutoEncoder


이러한 자기 지도 학습의 장점은 매우 큽니다

거대한 양의 비정형 데이터(이미지, 텍스트, 음성 등)를 손쉽게 활용할 수 있으므로 스케일 업(scale-up)에 매우 유리합니다.

데이터 수집 비용과 시간이 현격히 줄어들며 지속적으로 모델의 성능을 개선할 수 있는 데이터 공급이 용이합니다.

학습 도메인에 관계없이 범용적으로 적용 가능합니다. 언어, 비전, 오디오, 바이오, 시계열 등 거의 모든 데이터 유형에서 활용이 가능합니다.




경계를 허무는 두 기술


Diffusion 기반 언어 모델의 등장

Diffusion 모델이 이미지 분야를 넘어 자연어 처리(NLP) 분야로 확장되고 있습니다. 최근 공개된 Stanford 대학 연구진이 주도한 Inception Labs의 Mercury라는 모델은 Diffusion 방식을 이용한 대규모 언어 모델(dLLM)로서, 문장을 단어 하나씩 예측하지 않고 한 번에 전체 문장을 거칠게 만들어 놓고 반복 수정하는 접근을 취했습니다.


이 모델은 문장을 통째로 다듬어 나가기 때문에 속도가 빠르고 문맥적 일관성이 뛰어나다고 알려져 있으며 데모 영상에서는 기존 LLM 대비 10배 가까이 빠른 모습을 보여주며 많은 관심을 불러보았습니다.



Auto Regressive 모델의 이미지/영상 분야 재진출

한편으로 Auto Regressive 모델도 이미지 생성 등 원래 확산 모델이 강세였던 분야에서 성과를 내고 있습니다. 최근 Auto Regressive 이미지 생성 모델 분야에서는 'Visual AutoRegressive 모델링(VAR)'이 주목받고 있습니다.


VAR는 기존의 '다음 토큰 예측' 방식에서 벗어나, 이미지의 전반적인 구조를 먼저 예측한 후 세부적인 부분을 생성하는 '다음 스케일 예측' 방식을 도입하였습니다. 이를 통해 ImageNet 256x256 벤치마크에서 FID 1.73, IS 350.2의 성능을 달성하며, 기존의 Diffusion Transformer를 능가하는 결과를 보였습니다.

Visual Auto Regressive 개념도




서로 다른 길, 하나의 AI 혁명


어려운 문제를 해결하고 창의적인 글과 그림을 생성해내는 AI 모델들은 겉보기에는 매우 복잡한 기술처럼 보이지만, 사실 놀라울 정도로 단순한 원리에서 시작합니다. 간단한 요소들을 쌓아 올려 복잡한 문제를 해결한다는 아이디어는 수십 년 전 컴퓨터 이론에서 비롯된 것으로, 자기회귀(Auto-Regressive) 모델과 확산(Diffusion) 모델에 공통적으로 녹아들어 오늘날의 놀라운 발전을 이끌어냈습니다.


흥미롭게도, 이 두 모델은 인간 지능과 유사한 특성을 보여줍니다. 이러한 유사성은 단순히 기술적 흥미를 넘어, 지능의 본질이 무엇인지 깊이 고민해 볼 수 있는 의미 있는 단서를 제공합니다.



더 주목할 점은 최근 이 두 기술의 경계가 허물어지고 있다는 사실입니다. 연구자들은 자기회귀 모델의 일관된 시퀀스 생성 능력과 확산 모델의 고품질 세부 표현력을 결합하려는 시도를 활발히 진행 중입니다. 만약 이 두 장점이 성공적으로 융합된다면, 미래의 AI는 훨씬 더 강력하고 유연한 생성 능력을 갖추게 될 것입니다.


우리는 지금 AI 기술에 의한 인류 역사의 중요한 전환점을 맞이하고 있습니다. 두 모델의 발전과 융합은 앞으로의 AI 기술이 어떤 모습으로 진화할지 상상하게 만듭니다. 이러한 복잡한 AI 기술 속에서도, 그 핵심 원리를 이해한다면 다가올 혁신을 더 명확히 예측하고 받아들일 수 있을 것입니다. 그러니 지금부터 이 흐름에 주목해 보는 것은 어떨까요?




keyword
작가의 이전글딥시크 량원펑 인터뷰: 혁신에 대한 철학