이미지 생성 AI 모델 뭐가 좋을까?

미드저니, 달리 중 어떤 모델을 사용할지 고민하는 당신을 위하여

Feb 27. 2024

아래 이미지를 한번쯤은 보셨을 겁니다. 미드저니 라는 모델을 이용하여 생성한 AI 이미지가 2022년 미술대회에서 우승하며 큰 화제가 되었었죠. 이 사건을 계기로 이미지 생성 AI 모델에 대한 가능성에 많은 대중들의 관심이 쏠렸으며, 현재까지도 꾸준히 발전되고 있습니다.

생성 모델 분야는 2014년 부터 연구 되어 왔습니다. 얼마 안되었다고 생각도 들지만, 딥러닝 연구 분야로 따지면 꽤 오래 연구가 된 분야 이죠. 그렇기에 다양한 생성 모델과 서비스들이 있는데요, 그중 대표적인 3가지 모델은 아래와 같습니다.

미드저니 (midjourney)

달리 (Dall-e)

스테이블 디퓨전 (stable diffusion)

3가지 모델 중 스테이블 디퓨전의 경우, 제대로 사용하기 위해서는 어느정도 프로그래밍 지식이 필요합니다. 게다가 이미지 생성 목적에 따른 커스텀 세팅이 없을땐 나머지 두개 모델 성능에 한참 못미치게 됩니다. 따라서, 사용성이 좋은 미드저니와 달리에 대해 알아보도록 하겠습니다.

먼저, 미드저니 입니다. 위 사진도 매우 훌륭하지만, 2022년 이후에 더욱더 많은 발전을 이루어 창의 적인 이미지는 물론 실사에 가까운 퀄리티의 이미지를 생성해내는 것이 특징 입니다. 사람 머리카락, 동물의 털, 다양한 카메라 구도는 물론이며 아래 마지막 사진을 보시면 테이블의 먼지와 같은 세심한 표현도 할줄 아는 모델 입니다.

둘번째는 달리 입니다. ChatGPT 유료 구독자에게 기본으로 제공되는 장점으로, 많은 분들이 사용 중입니다. 달리는 텍스트를 입력 받아 이미지를 만드는 text2img 분야에 엄청난 발전에 기여하였습니다. 달리의 경우 자연어 처리에서의 큰 성공을 거둔 GPT-3의 기술을 기반으로 하기 때문에, 텍스트 이해도가 매우 뛰어나다는 특징이 있습니다.

두개 모델을 비교하기 위해 "Cinematic portrait photography of an beautiful girl wearing colorful korean traditional clothing, the girl felt very sad, Tears are falling from her eyes, smiling mouth, The corners of the mouth are raised" 라는 프롬프트(텍스트)를 입력했을때 결과를 비교 해보도록 하겠습니다.

왼쪽 4장의 사진은 미드저니, 오른쪽 2장의 사진은 달리의 결과 입니다. 먼저 프롬프트를 분석 하겠습니다.

beautiful girl wearing colorful korean traditional clothing : 한복을 입은 아름다운 여성

the girl felt very sad, Tears are falling from her eyes : 슬퍼하며, 눈에서 눈물이 흐른다

smiling mouth, The corners of the mouth are raised : 웃는 입, 입꼬리가 올라가 있다

(한마디로 요약하자면, "울고있지만 입은 웃고있는 한복을 입은 아름다운 여성" 정도가 되겠습니다.)

프롬프트 이해도 측면에서 분석해 보겠습니다. 먼저, 미드저니 결과에서는 눈물에 대한 이해가 다소 부족한 것으로 보입니다. 첫 번째 사진은 물을 흘린 것처럼 보이며, 마지막 사진에서는 물방울이 흩어지는 모습을 볼 수 있습니다. 반면, 오른쪽 달리 결과를 살펴보면, 눈물이 매우 자연스럽게 연출된 것을 확인할 수 있습니다. 또한, 웃는 입 모양의 표현도 잘 되어 있음을 알 수 있습니다.

이제 퀄리티 측면에서 분석해 보겠습니다. 피부 묘사, 카메라 초점, 조명 연출 등을 봤을 때, 미드저니는 실사에 가까운 퀄리티를 보여 줍니다. 달리의 경우, 전반적으로 나쁘지 않은 퀄리티를 보이지만, 디테일한 부분에서는 다소 부족함이 보입니다.

두모델의 특성을 비교해 보았을때 실사와 같은 퀄리티를 원하면 미드저니를 사용하고, 복잡한 설정의 이미지를 사용할때 달리를 사용하면 될까요? 물론 중요한 판단 지표이지만, 이번엔 서비스의 "환경"에 대해 생각해 보아야 합니다.

미드저니는 디스코드 에서 구동되고, 달리는 ChatGPT 사이트에서 구동이 됩니다. 이 두 환경은 사용자 경험과 제공되는 기능 측면에서 매우 다른 양상을 보입니다.

이미 생성 모델의 특성상, 한번에 원하는 이미지를 얻기란 힘듭니다. 여러번 프롬프트를 수정해서 시도하며 모델의 반응을 관찰하고, 그에 따라 프롬프트를 계속 조정하는 것이 중요합니다. 이러한 접근 방식을 통해 사용자는 점차 원하는 이미지에 가까워질 수 있습니다.

해당 과정을 미드저니 에서 어떻게 하는지 간단히 보여 드리겠습니다.

처음 입력을 하면 기본적으로 미드저니는 4개의 이미지를 생성해 줍니다. 여기서 3번째 이미지가 마음에 들지만, 조금 바꾸고 싶은 부분이있으면 V3 를 눌러 프롬프트를 수정 합니다. 해당 기능 뿐 아니라 이미지 크기를 키우거나, 이미지 일부분 영역을 변경하거나, 등 다양한 기능이 있습니다. 디스코드 채팅을 이용하지만, 사용자 경험은 UI 프로그램에 가깝습니다.

이번엔 달리 입니다.

GPT 와 대화하다가 바로 이미지를 요청할수 있다는 큰 장점이 있죠. 대화를 통해 원하는 이미지를 유도해 나가는 과정이 미드저니의 UI 프로그램과 전혀 다른 사용자 경험을 줍니다.

마치며...

어떤 모델을 선택해야 하는지는 개인의 선호, 특정 작업의 요구 사항, 그리고 접근 가능한 환경에 따라 달라질 것입니다. 미드저니와 달리 모두 강력한 이미지 생성 능력을 갖추고 있으나, 디테일한 설정과 프로그램 학습이 필요 합니다. 자신의 목적에 가장 잘 맞는 모델을 선택하여 목적에 맞는 AI 이미지를 얻으시길 바랍니다.

감사합니다.

keyword

찬진

CTO와 팀장 사이 그 어디쯤...

팔로워 2

프로덕트 매니저가 갖춰야할 태도작가의 다음글