기술적 토대
—잠재 공간이란 무엇인가

잠재 공간의 철학—"있을 법한 것"의 이미지 1

by 정웅

AI 이미지 생성 모델의 핵심에는 '잠재 공간(latent space)'이라는 개념이 있다. 수억 장의 이미지가 신경망을 통과하면서, 각 이미지는 수백 개의 수치로 이루어진 벡터로 변환된다. 이 벡터들이 배치되는 고차원 공간이 잠재 공간이다. 잠재 공간에서 가까운 점들은 시각적으로 유사한 이미지에 대응하고, 먼 점들은 시각적으로 다른 이미지에 대응한다. 이 공간의 한 점을 지정하면, 그 점의 좌표가 하나의 이미지로 펼쳐진다.


확산 모델은 이 과정을 특히 시적인 방식으로 수행한다. 이미지에 점진적으로 노이즈를 추가하여 완전한 무작위 상태로 만든 후, 그 과정을 역전시켜 노이즈로부터 이미지를 복원한다. 이것은 질서에서 혼돈으로, 그리고 혼돈에서 새로운 질서로의 여행이다. 여기서 핵심적인 것은, 복원되는 이미지가 학습 데이터의 어떤 특정 이미지의 복제가 아니라는 점이다. 그것은 학습된 통계적 분포에서 추출된 새로운 점, 즉 '있을 법한' 이미지이다.


텍스트 조건부 생성은 이 과정에 언어의 차원을 추가한다. 사용자가 프롬프트를 입력하면, 언어 모델이 텍스트를 벡터로 변환하고, 이 벡터가 잠재 공간에서의 이미지 생성을 조건짓는다. 즉, 언어가 이미지의 좌표를 지정하는 것이다. 이것은 이미지 생성에서 전례 없는 방식이다—이미지가 빛이나 물감이 아니라 언어에서 출발한다.

이전 04화제3의 단절—AI 이미지의 출현