brunch

GPT 이미지 가이드, 1000장 만든 사람의 기술

GPT 사진생성 무료 전자책 PDF

by SPECAL
gpt4o_image_generation_1.png


자 오늘도 돌아온 김승현입니다. 아래는 제가 이번 이야기를 위해 젠슨파크로 전자책을 만들어왔으니 다운로드하여서 읽어보세요 다른 곳에 공유하셔도 상관은 없지만 최소한 활용 시 출처만 밝혀주시길 바라겠습니다.


오늘은 제가 대략 1000장 이상을 만들면서 느꼈던 것들 이야기를 한번 풀어보려 합니다.



GPT 사진생성의 기초이론

먼저 사진생성에 대해 논하려면 최소한의 기초적인 이론을 이해하셔야 합니다.

최근 유행하는 AI사진생성의 경우 디퓨전모델이란 기술을 사용하는데 GPT는 조금 독특합니다


SORA라는 외부도구를 사용하여 사진을 생성하는 것이지요

gpt4o_image_generation_2.png


자연어처리까진 알겠어 그래서 디퓨전모델이 먼데?


일반적으로 디퓨전 모델을 검색하는 최초의 디퓨전 모델 논문에 나온 사진으로

Generation-with-Diffusion-Models.png

전체이론을 설명하기엔 복잡하지만 간단히 설명하면

노이즈를 활용하여 연산한다!

이게 핵심입니다. 여타 다른 게 많지만 노이즈를 생사용한 확률론을 사용하기에 결국 주변에도 영향을 주고 받는는 이야기가 핵심이죠


이는 결국 연산할 수 있는 크기게 정해져 있다는 소리가 되는 것이고 우리가 생각하는 사진의 오류는 다 여기 서 발생한다고 보셔도 됩니다

gpt4o_image_generation_3.png


재미있는지 점은 일반적으로 사용하는 디퓨전모델의 경우 자연어처리의 구조화된 프롬프트 기법의 효율성이 상당히 떨어집니다.


실제로 잘 만들어진 사진의 프롬프트를 확인해 보시면 문장단위로 구성을 하는 경향성이 강해요, 심지어 그쪽이 출력이 높고요 이건 디퓨전모델의 특성에 기인한 것으로 문장단위로 해석의 여지를 줄여하는 기본적인 특성 때문입니다.

gpt4o_image_generation_4.png

여기서 흥미로운 부분이 발생하는데 일반적인 디퓨전 모델에선 없었지만 GPT사진생성에만 나타나는 독특한 현상이 하나 있습니다.


이는 노란색느낌으로 사진이 생성된다는 것으로 전문가분들은 미숫가루색깔이라는 멸칭으로 부르시는 이 모델의 특징입니다.


흥미로운 지점이 "밝은", "선명한", "눈에 띄는", "강조된"이 네 가지 단어를 사용 시 GPT는 우측과 같은 녀석을 도출합니다,

다음 사진에 대한 프롬프트를 비교해 보죠

좌측


"고양이가 행복해하고 있는 그림을 그려주세요"
-적절한 백색광을 사용할 것 -보기 편한 색보정을 활용할 것

우측

"고양이가 행복해하고 있는 그림을 그려주세요"
-사진은 밝고 눈에 띄면서 선명하고 강조된 사진을 만들어


.

487829517_17855887764406917_5324756950348142217_n.jpg
488253099_17855887509406917_1607678467865471330_n.jpg

이러한 자료에 기반하여 노란빛을 선호한다는 것을 알 수 있는데 이는 GPT가 자연광기반의 사진을 많이 학습했다는 것을 역추론 할 수 있는 지표가도 합니다.


연구에 따르면 학설은 크게 3가지로 아래와 같은 주장을 하는데 저는 복합적이라고 보고 있는 편입니다.

1.LCM(=Color Look-up Module)
2. 화이트 밸런스 학습 편향
3. 프롬프트/렌더 설정 문제

결국 색감조절을 잘하면 아래와 같이 노란색 필터를 걷어낸 이후 제어를 넣어줄 수 있는 것이죠

487468697_17855890905406917_7914635767707205038_n.jpg


이러한 그림생성의 특질을 이해하시고 프롬프트 쪽으로 접근해 보시면 아래와 같은 지침을 어렵지 않게 떠 올릴 수 있습니다.

gpt4o_image_generation_5.png

기본적으로 구체적이고 명백해야 하며 순서대로 적용해야 한다는 지침이지요 관련예시는
위쪽 전자책에 넣어두었으니 한번 참고해 보시 길봐라며 다음으로 넘어가 보죠

gpt4o_image_generation_7.png

실제로 GPT에는 다양한 스타일이 담겨있습니다.


이를 활용하여 제어한 다음다음과 같은 프롬프트만으로도 쉽게 괜찮은 그림을 생성할 수 있죠

1. 수묵화 (Sumukhwa)+ 웹툰 스타일 (K-Webtoon)+Pixar+사이버펑크

2.Tattoostyle+Vintage Poster+Steampunk+Vector Art

486685876_17855245245406917_6678836866337957012_n.jpg
486226575_17855245272406917_7310862616607907525_n.jpg


그래서 어떤 것들이 포함되어 있나 확인해 보게 된다면 다음과 같은 예시들이 매우 다양하게 포함되어 있는 것을 확인하실 수 있습니다.

486717686_17855245470406917_9057129735789285668_n.jpg
487359813_17855245473406917_7180311421945707775_n.jpg
487461438_17855245491406917_5380296641069288015_n.jpg

여기서 재미있는 점이 최근 유행했던 지브리 프사 그리기에서는 이러한 특질들이 적용되어 있는데


지브리프사의 특징은 배경-스타일-인물 랜더링 순이라 생각보다, 만들었는데 손이 두 개가 되거나, 손이사라지는 오류가 많이 발생했던 것이죠 그렇기에 위에서 설명드린 프롬프트 세부제어를 잘하셔야 합니다.


이는 해외 포럼의 자료를 살펴봐도 비슷한 경향성을 띄는 것을 알 수 있습니다.

gpt4o_image_generation_9.png


실제로 제가 각 잡고 고퀄리티로 만든 작업물을 확인해 보시게 된다면 광고에도 충분히 적용할만한 퀄리티고 일반인들도 얼마든지 노력만 한다면 광고급의 사진을 만들 수 있는 시대가 도래했습니다.


486468499_17855349027406917_6226180204473154937_n.jpg
487386415_17855349210406917_3418877951432531476_n.jpg

실제로 포럼에서 이러한 사진생성 기반으로 설계도를 만들어 3D프린팅을 하려는 시도가 많이 있고

실제 출력을 하여 피겨를 많드신 분들도 포럼에서 찾아보실수 있습니다.


아래처럼 세부적인 청사진 형식 호는 설계도면 형식을 만들 수도 있고

일반적인 캐릭터 에셋처럼 3 중점그림을 만들 수도 있는 것이죠

ChatGPT Image 2025년 4월 12일 오전 04_08_03.png


문제는 이러한 자유도가 꼭 퀄리티를 보장하는 것이 아니기에 결국 아래와 같이 여러 파이프라인을 구성하여 업무를 해야 한다는 점이 어려운 점이긴 합니다.


다만 자연어를 지원하는 시점에서 굉장히 쉬워진 것도 사실이지요

gpt4o_image_generation_12.png


이러한 팁들을 기반하여 유료버전으로 한 번쯤 생성해 보시는 걸 추천드립니다.


관련한 질문은 언제든지 받고 있으니 편하게 연락 주시고 좀 더 많은 작업물이 보고 싶다면 아래스레드로 오시면 됩니다.


keyword
이전 22화[AI활용기] AI 최신기법기반 프롬프트 가이드북 쓰기