2단계 – 프롬프트 설계의 방향성

태그 프롬프트 시대에서 캡션 프롬프트 시대로

by 근배



2022년, 우리는 ‘masterpiece, best quality, 4k’ 같은 단어로 이미지를 만들었다.

2025년, 우리는 ‘흐린 오후의 골목에서 아이가 웃는다’라고 적는다.
이 변화는 단순한 취향의 문제가 아니다. AI의 사고 구조 자체가 달라졌기 때문이다.


이번 장에서는 AI 모델의 구조적 변화와 함께, ‘어떤 프롬프트를 어떻게 써야 하는가’ 에 대해 이야기하려 한다.
특히 초보자도 이해하기 쉽도록 실제 예시 이미지와 함께 설명할 것이다.



프롬프트란 무엇인가

프롬프트(prompt)란 사용자가 AI 모델에 원하는 결과를 유도하기 위해 입력하는 명령문 또는 지시 문장이다.
간단히 말하면, “이 이미지를 이렇게 만들어줘”라는 언어적 도구다.
하지만 AI가 발전하면서, 그 언어의 ‘형식’이 달라지고 있다.

나는 이미지를 생성할 때 프롬프트를 다섯 가지로 구분한다.
태그형, 캡션형, 구조형, 자연어형, 이미지 프롬프트.
이 중 이번 장에서는 태그형과 캡션형의 차이를 중심으로, 프롬프트의 방향성을 짚어보겠다.




1. 태그형 프롬프트


우선 아주 기본적인 형태부터 보자.

태그형은 키워드를 나열하는 가장 단순한 구조다.


Image_fx (14).jpg
Image_fx (11).jpg
woman

AI는 ‘woman’이라는 단어를 입력받고, 학습 데이터 안에서 해당 키워드와 연관된 잠재영역(latent space)에서 이미지를 복원한다.
그래서 ‘서양 젊은 여성’이 나오는 이유는, AI가 학습한 수많은 데이터 중 “woman”이 그렇게 분류된 경우가 많기 때문이다.





Image_fx (13).jpg
Image_fx (12).jpg
woman, Asia

이번에는 ‘woman’과 ‘Asia’를 함께 넣었다.

AI는 “아시아 여성”이라는 교차 영역에서 이미지를 복원한다.
이제 잠재공간에서의 움직임이 감지된다.
즉, “woman”이라는 거대한 영역 안에서 “Asia”라는 좌표로 이동한 것이다.




Image_fx (18).jpg
Image_fx (19).jpg
여성, 강남룩

이제 한국어 키워드를 써보자.
이미지FX(구글의 무료 이미지 생성 툴)는 한국어를 인식한다.
‘여성’, ‘강남룩’ 두 단어를 입력하면, AI는 ‘여성’, ‘강남’, 그리고 ‘한국어’라는 세 개의 잠재 좌표를 동시에 자극한다.
결과는 자연스럽다— 강남 거리에서 볼 법한, 세련된 한국인 여성의 이미지가 나온다.

이 과정을 통해 알 수 있는 것은 명확하다.
AI는 단어를 그 자체로 이해하는 것이 아니라, 단어가 위치한 ‘의미 좌표’를 따라 이동하며 이미지를 복원한다는 것이다.



Image_fx (20).jpg korean, woman

‘한국인 여성’이라고만 지정하는 것과 ‘강남’이라는 구체적인 단어를 사용하는 것은 전혀 다르다. ‘korean’은 인종적 분류이지만, ‘강남’은 문화적 맥락이다. AI는 구체적인 현대어 키워드를 더 좁은 영역으로 인식한다.

이것이 태그형 프롬프트의 핵심이다.
단어를 더 구체적이고 현실적으로 줄여 나가는 것.

단어 하나가 잠재공간의 위치를 바꾸는 ‘좌표 이동’임을 직관적느끼고 이해해보자.


다음으로, 이제 잠재 공간을 조금 더 섬세하게 들여다보자.


Image_fx (23).jpg 강남, 절제된세련미, 도시적감각, 고급브랜드무드, 트렌디컬러매치, 여성스러운디테일, 슬림·세미핏, 미니멀액세서리, 우아한블라우스, 스커트·슬랙스조화, 차분한톤


Image_fx (22).jpg

강남, 인스타그램, 절제된세련미, 도시적감각, 고급브랜드무드, 트렌디컬러매치, 여성스러운디테일, 슬림·세미핏, 미니멀액세서리, 우아한블라우스, 스커트·슬랙스조화, 차분한톤


키워드가 많지만, 모두 스타일의 세부값을 조정하기 위한 묘사일 뿐이다. 그러나 여기서 가장 중요한 키워드는 ‘인스타그램’이다. 이 단어 하나로 결과의 성격이 완전히 달라진다.
‘인스타그램’이 없는 이미지는 다소 작위적으로 느껴지고, 반대로 넣었을 때는 카메라 감각이 살아난다.
그 이유는 단순하다. 인스타그램이라는 단어가 ‘실제 휴대폰으로 촬영한 듯한 사진’이 모여 있는 잠재영역을 자극하기 때문이다.
AI는 그 영역 안에서 이미지를 복원한다. 이것이 바로 잠재 공간 개념의 핵심이다.

프롬프트란 결국, AI가 어떤 단어로 세상을 학습했는지를 추적하며, 그 단어가 존재하는 영역으로 AI를 유도하는 과정이다.
우리가 적는 프롬프트는 곧 하나의 가설이며, 이미지를 생성하는 과정은 그 가설을 검증하는 실험이다.

꼭 ‘인스타그램’이 아니어도 좋다.
같은 효과를 내는 키워드는 많다. film photo, digital shot, dslr, 50mm lens, raw lighting 등.

중요한 건 AI에게 ‘이 장면이 어떤 방식으로 기록된 이미지인가’를 알려주는 것이다.

어떤 키워드가 효과적인지 모르겠다면, AI에게 직접 물어보면 된다.


데이터 라벨링

AI 모델의 초창기 학습 과정에서는, 사람이 직접 이미지를 분류하고 태그를 달았다. 이 과정을 데이터 라벨링이라 부른다.
‘이건 사과’, ‘이건 개’, ‘이건 하늘’처럼 일일이 구분했다. AI는 그렇게 학습했다. 따라서 초기 모델일수록 태그형 프롬프트에 반응이 좋았다. 이 구조는 여전히 작동하지만, 현재는 한계가 분명하다. 단어의 나열만으로는 ‘맥락’이나 ‘의도’를 전달하기 어렵기 때문이다.



2. 캡션형 프롬프트

이제 본격적으로 AI가 스스로 학습하는 시대의 언어, 캡션형 프롬프트를 살펴보자.

‘캡션’이란 사진이나 그림 아래, 그 내용을 설명하는 짧은 문장을 말한다.

이미지 생성에 사용된 프롬프트 :벽에 걸린 정제된 예술 작품 아래로 캡션이 있다. 사진은 현실과 같은 톤이다. 예술 작품은 프레임 바깥에 배치되어 모서리만 보인다. 메인 피사체는 캡션이다. 캡션이 클로즈업되어있다. 캡션의 내용은 "A caption refers to a descriptive text provided below a photo or illustration to visually explain or supplement it."




캡션형 프롬프트는 AI에게 “이 장면이 어떤 상황인지 설명하듯” 입력하는 방식이다.
이 문장은 AI에게 단순한 명령이 아니라 맥락을 제공하는 설명문으로 작동한다. 예전에는 단어(태그)가 중심이었지만, 이제는 단어의 관계, 상황의 인과관계를 AI가 이해한다. 왜냐하면, 현재의 생성형 AI는 인간이 아닌 AI 자신이 학습을 시키는 구조이기 때문이다.

즉, 데이터셋이 더 이상 태그가 아니라 “문장”으로 되어 있다.


비디오 생성 모델인 SORA는 GPT 모델을 기반으로 학습되었다. VEO는 구글의 GEMINI를 기반으로 학습되었다. 두 모델 모두 텍스트의 인과관계를 중심으로 학습한다.
그래서 이제는 “keyword”가 아니라 “context”가 중요하다.
이것이 바로 캡션형 프롬프트가 등장한 이유다.



태그형 vs 캡션형 프롬프트.png 태그형 vs 캡션형 프롬프트




왜 캡션형이 더 잘 통하는가

AI에게 이미지를 설명시키면, 그 문장은 거의 예외 없이 ‘캡션형’으로 나온다.
이는 곧, AI가 세상을 그렇게 인식하고 있다는 뜻이다.
그렇다면 사용자인 우리는, AI의 언어로 말해야 한다.


예를 들어, 과거에 내가 미드저니로 만든 한 이미지를 GPT와 GEMINI에게 각각 설명시켜 보았다. 둘 다 이미지 분석을 한 후, 문장으로 프롬프트를 재작성했다.


yg8857_realistic_full-body_portrait_of_a_woman_with_platinum__8e841b03-3b87-49fe-95f5-23d3f7151967_0.png
Image_fx (28).jpg
Image_fx (29).jpg
왼쪽 순서대로 원본, GPT의 프롬프트로 만든 이미지, GEMINI의 프롬프트로 만든 이미지



AI별 프롬프트 구조 분석.png



결과물은 서로 다른 AI가 작성했음에도, 본질은 같았다.

즉, AI는 문맥과 장면의 관계를 중심으로 사고한다. 우리가 이런 문장 구조로 프롬프트를 작성하면, AI는 훨씬 높은 재현율로 응답한다.



정리하자면

태그형: 인간의 분류 언어 → “이건 ○○이다.”

캡션형: AI의 설명 언어 → “이 장면은 ○○하다.”


AI가 AI를 가르치는 시대, 우리는 단순히 명령을 내리는 존재가 아니다. 이제는 AI가 이해할 수 있는 언어로 사고하는 존재가 되어야 한다. 그리고 그 언어가 바로 캡션형 프롬프트다.


“AI에게 프롬프트를 만들게 하라”는 말은 결국, AI의 사고구조로 사고하라는 뜻이다. 그리고 AI의 사고는 AI가 제일 잘안다. 그렇기에 AI로 프롬프트를 만들어야 하는 것이다. 명령이 아닌 설명, 단어가 아닌 관계, 태그가 아닌 문장. 그것이 2025년 이후의 프롬프트 설계의 방향이다.




keyword
작가의 이전글1단계 — 디퓨전 모델의 원리