확산 모델(Diffusion)의 기술적 실체
2024년 11월 14일 실시된 대학수학능력시험 국어 영역에서는 이미지 생성 인공지능(AI)의 핵심 기술 중 하나인 '확산 모델(Diffusion Model)'에 관한 지문이 출제되었다. 이 확산 모델은 이미지 생성 AI인 '스테이블 디퓨전(Stable Diffusion)'의 기반 기술로, 'DALLE2'나 '미드저니(Midjourney)'처럼 사실적이고 창의적인 이미지를 만들어내는 최신 생성형 AI의 핵심 알고리즘으로 활용되고 있다.
확산 모델이란 노이즈를 조금씩 없애면서 이미지를 만들어 가는 모델이다.
그림 1과 같이, 처음엔 완전한 노이즈(잡음)에서 시작해서 한 단계씩 노이즈를 제거하면 마지막엔 사진처럼 보이는 이미지가 나온다(좌->우). 이 과정은 이전 단계만 보고 다음 단계를 결정하는 마르코프 체인 과정이다. 그리고, 완벽히 정해진 값이 아니라 확률적으로 움직이는 확률 모델이다.
마르코브 체인이란 과거의 모든 정보가 현재 상태에 압축되어 있으며, 다음 상태는 오직 현재 상태에 조건부로 확률적으로 결정되는 과정이다.
즉, AI 모델이 한꺼번에 수만 가지 변수를 고려할 필요 없이, 바로 직전 단계의 노이즈만 예측해서 제거하면 되기 때문에 연산의 복잡도를 획기적으로 낮출 수 있다. 이는 특허 관점에서 '연산 효율성 증대'라는 기술적 효과로 직결된다.
여기서, AI 모델은 어떻게 노이즈를 예측하는 것일까?
순방향 과정 (Forward / Diffusion): 우->좌
먼저, xt-1은 원본 이미지에 가까운 상태를 의미하고, xt는 여기에 노이즈가 한 단계 더 추가된 이미지 상태를 의미한다. 아래쪽에 표시된 q(xt|xt-1)는 이미지에 노이즈를 추가하는 규칙으로, 원본 이미지에 소량의 가우시안 노이즈를 더해 다음 단계의 이미지를 만드는 과정을 나타낸다. 이 과정은 사람이 미리 수식으로 정의해 둔 고정된 규칙이며, 학습 대상이 아니다. 즉, 이미지를 어떻게 망가뜨릴 것인지는 명확히 알고 있는 상태에서 출발한다.
q(xt|xt-1)는 xt-1이 주어졌을 때 그로부터 xt가 생성될 확률을 정의한 것이다.
역방향 과정 (Reverse / Denoising): 좌->우
반면, 위쪽에 표시된 pθ(xt-1|xt)는 노이즈가 섞인 이미지 xt를 보고, 그 직전 단계의 이미지 xt-1가 무엇이었을지를 추정하는 확률 모델이다. 이 부분이 바로 신경망이 학습하는 대상이며, 확산 모델의 핵심 기능에 해당한다. 모델은 노이즈가 섞인 이미지를 입력으로 받아, “이 단계에서 어떤 노이즈가 제거되었어야 하는지”를 예측함으로써 한 단계 더 깨끗한 이미지를 복원하려고 시도한다.
이러한 학습은 지도학습 방식으로 이루어진다.
그림 2와 같이, 학습 과정에서는 먼저 시간 t에 따라 미리 정의된 가우시안(정규) 분포의 규칙에 따라, 원본 이미지 또는 이전 이미지(xt-1)에 실제로 노이즈를 추가하여 확산 이미지(xt)를 생성한다. 이때 사용되는 노이즈는 평균과 분산이 명확히 정의된 가우시안 분포로부터 샘플링되므로, 모델은 해당 단계에서 주입된 노이즈의 정답 값을 정확히 알고 있다. 이러한 노이즈 추가 과정은 학습 대상이 아닌 고정된 규칙에 따라 수행된다(Fixed forward diffusion process).
이미지는 픽셀 행렬(Pixel Matrix)로 이루어지고, 각 픽셀은 빨강(R), 초록(G), 파랑(B)의 강도를 나타내는숫자값(R,G,B 값)을 가진다. 확산 모델이 다루는 대상은 결국 이 숫자값들의 집합이며, 노이즈가 추가된다는 것은 이 숫자들에 무작위적인 변동(가우시안 노이즈)이 가해짐을 의미한다.
그리고, 그림 3과 같이, 신경망은 노이즈가 섞인 확산 이미지(xt)를 입력받아 해당 단계에서 주입된 노이즈를 예측하고, 모델이 예측한 노이즈 값과 실제로 가우시안 분포에 따라 추가된 노이즈 값 사이의 차이가 최소가 되도록 파라미터 θ를 업데이트한다.
즉, “정답 노이즈가 이미 주어진 상태에서 이를 맞히도록 학습하는 구조”이기 때문에, 확산 모델의 학습은 안정적인 지도학습 문제로 정식화될 수 있다. 이 과정을 모든 시간 단계 T에 대해 반복하면, 모델은 다양한 수준의 노이즈가 섞인 이미지에 대해 그 이전 상태를 정확히 추정할 수 있는 능력을 갖게 된다.
가우시안 분포는 ‘평균’이 중심이고, ‘분산’이 퍼짐의 정도를 정하는 종 모양 분포다. 확산 모델의 학습은 가우시안 분포에서 생성된 ‘정답 노이즈’를 기준으로, 그 분포의 평균(이전 이미지)을 얼마나 잘 복원하느냐를 지도학습 방식으로 반복하는 과정이다.
이후 실제 이미지 생성 단계에서는, 완전한 노이즈 상태에서 시작하여 학습된 pθ(xt-1|xt)를 반복 적용함으로써, 노이즈를 단계적으로 제거하고 점점 원본 이미지에 가까운 결과를 생성하게 된다.
확산 모델은 노이즈가 섞인 이미지를 입력으로 받아, 개별 픽셀을 독립적으로 처리하는 대신, 주변 픽셀들과의 상관관계에 기반한 국소적 패턴(윤곽, 질감, 경계)을 분석한다. 이를 위해 확산 모델은 노이즈 예측기를 사용하며, 노이즈 예측기는 확산 이미지에 포함된 노이즈의 강도와 방향, 그리고 공간적 분포 특성을 내부의 수치적 표현으로 요약한다. 이 과정에서 형성되는 중간 특징 벡터는 잠재 표현(latent representation)으로 불리며, 노이즈가 이미지 구조에 어떤 방식으로 작용했는지를 압축적으로 나타낸다.
VAE의 잠재 공간(Latent Space)은 원본 이미지의 특징을 고정된 확률 분포(평균과 분산)로 압축해 놓은 정적인 공간이다. 이 공간 안에 데이터의 핵심 정보(유전자)가 모두 담겨 있으며, 여기서 점을 하나 찍으면 새로운 이미지가 생성된다. 확산 모델(DDPM)의 잠재 표현(Latent Representation)은 노이즈가 섞인 이미지에서 노이즈의 특성을 추출하여 수치화한 '중간 연산 결과물'이다. 모델이 각 단계에서 "어느 방향으로 픽셀을 이동시켜야(Denoising) 하는지"를 결정하기 위해 내부적으로 계산하는 '방향타' 역할을 한다. VAE처럼 고정된 공간을 의미하기보다, 매 단계(마르코프 체인)마다 새롭게 계산되는 동적인 수치 집합이다.
이때 모델이 직접 출력하는 값은 중간 특징 벡터 자체가 아니라, 보통 현재 단계에 섞여 있는 가우시안 노이즈의 추정값(노이즈 예측값)이다. 즉, 노이즈 예측기는 입력 상태 xt 또는 zt를 보고 지금 이 상태를 만들 때 들어갔던 노이즈가 어떤 모양이었는지를 추정한다. 이 노이즈 추정값은 각 위치(픽셀/latent 위치)마다 존재하는 텐서로서, 결과적으로 어느 방향으로 얼마나 노이즈를 제거해야 하는지를 계산하는 데 사용된다.
잠재 표현 자체가 학습의 목적은 아니다. 확산 모델이 실제로 학습하는 것은, 노이즈가 섞인 이미지가 주어졌을 때 각 픽셀 값이 이전 상태로 복원되기 위해 어느 방향으로 얼마나 이동해야 하는지에 대한 규칙이다. 다시 말해, 확산 모델은 특정 픽셀과 그 주변 픽셀들이 함께 어떤 방향과 크기로 변화할 때 자연 이미지 분포에 더 가까워지는지를 조건부 평균 이동 규칙의 형태로 학습한다.
이를 위해 확산 모델은 노이즈 예측기가 추정한 노이즈 값과, 가우시안 분포에 따라 실제로 주입된 노이즈 값 사이의 차이를 손실 함수로 계산하고, 이 차이가 최소가 되도록 모델 파라미터를 반복적으로 업데이트한다. 이러한 학습 과정을 통해 모델은 특정한 픽셀 패턴이 노이즈로 인해 훼손되었을 때, 그 패턴이 어떤 노이즈 특성에 의해 생성되었을 가능성이 높은지를 조건부 확률 분포 pθ의 형태로 내부 파라미터에 내재화하게 된다. 그 결과, 확산 모델은 개별 이미지를 기억하는 것이 아니라, 픽셀 패턴과 노이즈 특성 간의 통계적 관계를 일반화된 규칙으로 학습하게 된다.
정리하면, 확산 모델은 이미지를 외우는 대신, 노이즈가 섞인 상태에서 픽셀들이 어느 방향으로 얼마나 함께 변화해야 자연 이미지로 복원되는지를 통계적으로 학습한다.
추론/생성 과정(Inference Phase)에서, 학습이 끝난 노이즈 예측기(U-Net 등)에 노이즈 이미지 또는 중간 단계의 확산 이미지를 입력하면, 학습된대로 잠재 표현을 구하고 이를 바탕으로 노이즈를 예측한다. 이미지 연산기는 입력된 확산 이미지로부터 예측된 노이즈를 빼서 현재 단계의 노이즈가 제거된 다음 단계의 이미지를 출력한다. 이 단계를 반복하면 결국 노이즈가 대부분 제거되어 원본에 가까운 이미지만 남게된다.