brunch

You can make anything
by writing

C.S.Lewis

by NOLGONG Aug 06. 2022

놀듯이 미드저니! 일하듯 달리?

크리에이터 관점의 MidJourney와 DALL-E2 협업 차이점

OpenAI가 DALL·E 2 를 알리면서, Creative AI의 이미지생성 가능성에 대한 기존의 대중의 생각을 충격적으로 완전히 뒤흔들었습니다. Midjourney는 빠르게 Discord를 통해 공개하면서 일반 대중에게 확산되었고, 이제는 DALL·E 2도 일반 대중에게 오픈되었습니다.

오늘은 거대모델 이미지생성 Creative AI 중 MidJourney와 DALL·E 2와의 그 동안의 작업 경험을 공유해 보고자 합니다. MidJourney와 DALL-E2 외에도 여러가지 이미지 생성 AI가 있지만, 놀공에서는 Creative AI와의 협업을 Coding 없이 최대한 Prompt의자연어로 대화하며 작업을 '함께' 하는 방향을 시도하고 있습니다. 그래서 다른 이미지생성 AI 보다는 Midjourney를 많이 활용하고 있고, 최근에는 DALL·E 2도 사용하기 시작했습니다. 두 Creative AI 모두 prompt로 이미지를 생성하지만, DALL·E 2는 웹기반 인터페이스를 사용하고 MidJourney는 Discord의 봇을 인터페이스를 사용하기 때문에 사용성과 프롬프트 사용방법 및 결과물 퀄리티등 여러가지 차이가 있습니다.

구글에서는 두가지 다른 접근의 Text-to-Image Model의 IMAGEN과 Parti를 개발중인데, 아직 공개는 되어 있지 않아서 소식만 접하고 있습니다. 오늘은 오픈 소스측의 이미지 생성 Creative AI 대항마(?) Stable Diffusion의 초대장도 도착했네요 :-). MidJourney 처럼 Discord를 사용해서 프롬프트로 생성하는 구조라서, Midjourney와 비교가 많이 될 것 같습니다. 이것도 좀 실험해 보고 비교해 보면 재미있겠네요. (8월 7일 베타테스터 대상으로 Bot interface가 공개되고 나서 잠시 사용해 보았는데 오픈소스라서 여러가지 생각을 하게 해주는데요. 다른 difussion Ai들 처럼 추후에 개발환경이 공개되면 다른 레벨의 확장과 이슈가 일어날 것 같습니다.)

자 이제 원래 하려던 Midjourney와 DALL·E 2 비교로 돌아가 보겠습니다.

꽤 긴 시간 사용하며 원하는 스타일의 이미지 생성이 가능해진 와 이제 막 사용을Midjourney 시작한 의 공평한 DALL·E 2 비교는 아니겠지만, 창작자의 입장에서 Creative AI와의 협업 Co-Creating 과정에서 큰 차이가 느껴졌습니다.

멋진데... 그런데 자세히 보면...

라마야나의 전쟁 장면을 Midjourney로 그린 결과

Midjourney의 이미지는 오 멋진데 라고 생각되지만, 자세히 확대해서 보면 뭘 그렸는지 모르겠는 경우가 있습니다. 전체 이미지의 컬러 톤과 구도가 멋지게 잡혀있지만, 이미지를 확대해서 보면 뭔지 모를 것들로 가득차 있는 경우가 있습니다. 실망스러울수도 있지만, 그림 전체가 보이지만, 가까이서 자세히 부분을 보면 추상적인 것이 왠지 저는 이 부분에서 인상파의 작품들이 생각났습니다.

개인적으로는 뉴욕 메트로폴리탄 미술관에서 모네의 La Grenouillère를 실물로 처음 봤을때의 감동이 떠올랐습니다. 의미를 부여하고 완성시키고 그 과정에서 빈 곳을 채울 수 있는 인간이기 때문에 가능한 그런 경험인 것이죠. 그래서 Midjourney는 구체적인 사물보다는 풍경 같은 이미지 생성에서 더 만족스러운 결과가 잘 나오는 것 같습니다. 이에 비해 DALL·E 2는 다른 세상의 퀄리티를 보여줍니다.

비교 불가한 DALL·E 2의 디테일

DALL-E2 베타 사이트에서 디스플레이되는 샘플 이미지들

DALL·E 2의 결과물을 보면 정말 깜짝 놀랄 수준입니다. 이런 디테일로 텍스트 프롬프트에서 AI가 이미지를 생성할 수 있다고?!! 하고 놀라게 되죠. DALL·E 2가 공개되었을 때 이런 이미지 퀄리티가 사람들을 흔들었던 거죠. DALL·E 2가 생성한 이미지는 정말 사진 같은 뚜렷한 디테일이 표현되어있고 미드저니 같은 노이즈는 보이지 않습니다.

특히 DALL·E 2가 잘하는 이미지들을 Midjourney에서 생성해서 비교해 보면 두 Creative AI의 디테일 재현에 대한 차이를 크게 느낄 수 있습니다.

(물론 엄청난 속도로 발전하는 분야라서 이미 DALL·E 2와 이미지 퀄리티만으로 보면 비교할 만한 IMAGEN, Parti, 그리고 최근에 공개된 오픈소스 Stable Diffusion등이 있어, DALL·E 2가 더 이상 독보적이라고는 할 수 없습니다)

프롬프트: "A sea otter with a pearl earring" by Johannes Vermeer

유명한 요하네스 페르메이르의 '진주귀걸이를 한 소녀' 스타일로 해달을 그리라는 프롬프트를 입력하고 비교해 보면, DALL·E 2가 아주 그럴듯하게 이미지를 만든것에 비해 Midjourney는 뭔가 웃기려고 그림을 그린 것처럼 뭔가 엉성한 그림을 그렸습니다. 해달 자체를 표현하는 디테일이 수준이 다르죠.

프롬프트: a photo of a cute brown cat and a corgi with sunglasses posing for selfi

이번에는 밤색 고양이와 코기가 선글라스 끼고 셀피 찍는 모습의 사진을 이미지로 요청했습니다. 는 이번에도DALL·E 2 놀랄정도로 거의 완벽한 사진 같은 이미지를 생성했습니다. 그에 비해 Midjourney는 꽤 괜찮은 귀여운 강이지를 생성했습니다. 귀엽기는 한데, 사진적 디테일로 보면 확실한 차이가 느껴지죠.

DALL-E2로 생성한 이미지들

DALL·E 2가 만들어 내는 사진 같은, 요청한 디테일을 현실적인 느낌으로 살리는 이미지는 Midjourney로는 생성이 불가능에 가깝습니다. 두개 서비스의 현재 유료 가격 차이 만큼이 반영된 디테일 표현이라고 할까요?

디테일 비교에서는 Midjourney는 DALL·E 2의 상대가 안되는 것처럼 보입니다.

그런데 말입니다.

디테일이 이미지의 작품성을 의미하지는 않죠. 이번에는 이미지의 작품성(?), 미적인 구도 등의 관점에서 한번 두 Creative AI를 비교해 본다면 어떨까요? 물론 작품성은 객관성도 있지만, 취향 같은 주관성도 있다는 점을 전제한 평가입니다만.

우주의 돈키호테

DALL·E 2가 좀더 선명한 우주 배경이라든가, 정말 일러스트레이션 풍을 살리긴 했지만, 개인적으로는 Midjourney의 묘사와 색감이 훨씬 극적이고 작품성과 완성도가 느껴집니다. (이미지를 확대하면 말탄 돈키호테의 모습은 아무것도 아닌 덩어리들의 집합이라는 것은 안-비밀이죠)

황금의 도시에 도착한 돈키호테

황금의 도시에 도착한 돈키호테 역시 이번에도 DALL·E 2의 구체적이 묘사가 좋지만 그냥 그림이구나 하는 느낌이라면, 역시 Midjourney의 작품을 만드는 구도와 분위기는 와~ 좋다 라는 말이 절로 나오게 합니다.

페이메르 스타일로 그린 황금의 도시에 도착한 돈키호테

이번에는 DALL·E 2에게 힘을 실어주려고 페이메르 스타일로 그려보게 했습니다.

역시 구체적으로 표현되는 디테일은 DALL·E 2가 압도적입니다. 페이메르 풍의 그림에 더 충실하다고 할 수 있습니다. 이에 반해 Midjourney는 페이메르의 스타일을 프롬프트가 제시한 풍경을 살려서 풍경화에 제시된 페이메르의 스타일을 적용했다고 볼 수 있습니다. 그런데, 프롬프트에는 없었던 풍차를 표현 한 것을 보면, Midjourney와 DALL·E 2 모두 돈키호테 원작을 알고 있었네요. 책 좀 읽은 Creative AI 인가봅니다 ^^

이번에도 DALL·E 2에 대한 감상이 "잘 그리네" 였다면 Midjourney의 작품은 "와!" 하는 감탄이었습니다.

However, 이러한 감상과 작품을 만드는 과정과 결과에 대한 해석은 '인간'인 제가 사람의 관점과 경험에서 표현을 한 것이고, 실제 Creative AI들은 어떤 의지나 생각을 가지고 이미지를 생성한 것이 아니라, 학습된 방식대로 프롬프트에 반응한 것이죠. 저는 이런 부분이 AI의 작업을 폄하하기 보다는 오히려 이렇게 창작이 가능하다는 것이 놀랍다는 생각이 듭니다. 스케일과 접근 형태의 차이는 다르지만, 인간의 창작과정 또한 결국 학습된 내용과 방식에 대한 패턴적 결과로 볼 수 있을 것 같습니다. In the grand scheme of things, 인간의 의지와 의도를 우리가 너무 과대 평가 하고 있는 것일 수도 있죠. ^^

그래서 둘의 가장 큰 차이가 뭐라고?

Midjourney와 DALL·E 2의 이미지 디테일을 비교하다가 결과물의 작품 감상으로 이야기가 넘어가 버렸네요. 처음에 하려고 했던 창작자가 Creative AI와 Co-Creating 협업을 할 때 가장 크게 느껴지는 차이에 대한 주관적인 이야기로 다시 돌아가 보겠습니다.

MidJourney는 놀이고 DALL-E2는 일이다.

짧게 한마디로 표현하면 그렇습니다. Midjourney는 가지고 놀듯이 이미지를 만들고 작품을 발견하는 느낌이고, DALL·E 2는 작업 도구를 사용해서 결과물을 조금씩 편집하면서 만들면서 일하는 느낌을 받았습니다. 이 느낌을 좀 더 설명해 보기위해 Midjourney와 DALL·E 2의 이미지 생성 과정을 조금 자세히 알아 보기로 하죠.

Discord의 Midjourney 이미지 생성 인터페이스

Midjourney는 Discord의 챗봇 인터페이스를 사용해 채팅하듯이 텍스트 프롬프트를 입력합니다. 그러면, 위의 이미지 처럼 4개의 결과물이 생성되고 마음에 드는 이미지를 [U1]~[U4] 버튼으로 선택해 고해상도 이미지로 생성하거나 [V1]~[V4] 버튼을 눌러서 선택한 이미지의 변형을 다시 4개 더 추가로 생성합니다.

텍스트 프롬프트를 편집하면서 만들어 지는 이미지를 조정 할 수는 있지만, 일반적인 이미지 툴처럼 편집기능이 없기 때문에, 전체 이미지를 계속 만드는 과정에서 원하는 방향을 선택해서 최종 결과물을 선택하는 형태로 작업을 하게 됩니다.

Midjourney는 Text Prompt에 추가로 image를 URL 주소로 입력하는 Image prompt 가 가능합니다. 이미지를 통한 가이드가 가능한 것 같지만, 그 방식이 사람이 이미지를 인식하는 방식과는 다릅니다. 예를 들어 위의 1번부터 3번까 이미지들을 Image Prompt로 입력하면 그 아래와 같은 4개의 이미지가 생성됩니다.

이미지 프롬프트를 사용할 때는 텍스트와 달리 인간의 이미지 인식과 AI의 이미지 인식 방식의 차이를 확실하게 느끼게 됩니다. 인간의 경우 일반적으로 이미지를 시각적으로 인식해 구도등을 정보로 활용해서 이미지를 발전 시켜나가겠지만, 위에 1번을 보면 AI는 전혀 다른 방식으로 이미지를 이해합니다. 하지만, 이미지의 디테일이 높아지는 1,2,3을 순서적으로 보면 디테일이 높을 수록 결과물에 이미지 프롬프트가 더 잘 반영된다는 것을 확인 할 수 있습니다. Creative Human과 Creative AI 가 사고하고 인지하는 방식은 다르지만, 소통하고 협업 하는 방법은 있는 것 같습니다 ^^

Discord의 챗봇 인터페이스의 특성처럼 Midjourney는 말하고 듣고(보고) 다시 말하고 하는 대화 처럼 Co-Creating을 진행한다면 웹 인터페이스로 자신만의 UI를 가지고 있는 DALL·E 2는 편집(Edit) 기능을 가지고 있습니다.

DALL·E 2는 단순하기는 하지만 이렇게 이미지의 일부를 지우고 텍스트 프롬프트를 다시 입력해서 이미지의 편집을 세분화 할 수 있습니다. Midjourney에는 없는 이미지 부분 생성은 다른 많은 것을 가능하게 합니다. 몇가지 예시를 만들어 보죠.

이렇게 생성했던 왼쪽의 다람쥐 이미지를 축소해서 빈 영역을 만들고 다시 업로드 해서 나무의 아래 부분을 더 추가해 그릴수도 있죠.

"모나리자 by 요하네스 페이메르" 를 수정해서 만든 이미지

이런 상체만 나와있는 초상화 이미지를 축소하고 이미지 확대가 잘 될 수 있도록 필요 없는 부분을 지운후 '꽃밭에 있는 소녀'라고 텍스트 프롬프트를 추가하면 이런 전신 이미지로 확대 할 수도 있습니다. 뭔가 편집 도구를 사용하면 의도한 결과를 구체화 할 수 있을 것 같은 느낌이 듭니다.

특히 기본 텍스트 프롬프트 결과물이 디테일은 매우 또렷하게 잘 표현되는 DALL·E 2다 보니 결과물의 구도나 표현력등 작품성(?)은 훨씬 우월하게 나오는 Midjourney와 비교 했을 때, DALL·E 2 로는 뭔가 확실히 의도한 구체적인 결과물을 만들고 싶은 생각이 들게 합니다.

그래서 텍스트 프롬프트로 이미지 생성에 포커스하는 Midjourney는 뭔가 놀듯이 계속 발견을 하면서 마음에 드는 것을 찾는 기분의 작업인데 반해, DALL·E 2는 구체적인 구상을 하고 그것을 편집하면 만들어 가는 일하는 것 같은 생각이 들게 됩니다. 발견의 재미는 없고 뭔가 직접 만들수 있는 도구의 사용적 접근. 이것이 놀듯이 Midjourney, 일하듯 DALL·E 2하게 합니다.

그러나 복불복, 체리픽킹

DALL·E 2가 편집 기능으로 도구적 느낌이 있는 것은 확실하지만, 현실적으로 아직 프롬프트로 기본 이미지 생성을 구체화에는 한계가 많고 반복적으로 생성하고 잘 나온 것을 체리픽킹 하는 방법이기 때문에 특정한 결과물을 Creative AI 에서 완성시키는 것은 효과적인 작업 프로세스가 아니라 생각됩니다.

물에 떠다니는 플라스틱 봉지를 먹는 고래

환경 관련 이미지를 만들어 보려고, 물에 떠다니는 플라스틱 봉지를 해파리로 착각하고 먹는 고래의 모습을 만들어 보기로 했습니다. 어, 뭔가 고래와 플라스틱 봉지가 모두 잘 나왔는데, 그런데 이 비율은 도대체... 봉지가 거대하거나 고래가 작거나 한 이미지가 나왔습니다.

그래서 다시 작전을 바꾸어 고래를 만들고 플라스틱 봉지를 추가 하려고 생각했습니다. 이를 위해 적당한 고래 이미지를 생성했는데 여기서도 화면에 딱 들어오는 고래 이미지를 만드는 과정에서 멋진 고래 꼬리만 잔뜩 생성하면서 크레딧을 낭비한 후에 포기하고 이미지 않에 딱 들어가는 고래 사진을 가져와서 Variations으로 새로운 고래를 생성했습니다. 그리고 떠다니는 플라스틱 봉지를 추가하기 위해서 Edit 기능에서 플라스틱 봉지 들어가 자리를 지우고 이미지를 생성한 결과가 위의 이미지입니다. 플라스틱 봉지...는 도대체 어디에... 있을까요? ㅎㅎㅎ

이럴바에는 그냥 고래 이미지랑 물에 떠다니는 플라시트 봉지 이미지를 포토샵에서 편집하는 것이 훠~~얼씬 빠르고 효과적이겠죠. 실제 이미 많은 프로페셔널 디자이너와 일러스트레이터들이 Creative AI를 최종 결과물이 아니라 자신의 작업을 위한 소스나 짧은 시간에 많은 레퍼런스 생성에 사용하고 있습니다. 빠르고 새로운 스케치 방법이죠.

아뭏든, 놀듯이 Midjoureny! 일하듯 DALL·E 2? 라는 Text Prompt로 이미지를 만드는 두개의 Creative AI는 비슷하면서도 많이 다릅니다. 다른 Creative Ai들도 각자 자기만의 색깔과 특성이 있죠. 딱 보면 알 수 있는 DALL·E 2 Look, Midjourney Look이 있는 거죠.

이제 시작입니다.

Creative AI는 이제 시작하는 지점에 있습니다. Creative AI 1.0 이라고나 할까요? 영화와 사진이라는 새로운 매체가 처음 나왔을 때와 비슷한 것 같습니다. 처음에는 새로운 매체가 기술적으로 가능한 것들을 보여주는 것이 시작이었습니다. 현재 공개중이거나 공개하려는 여러 Creative AI들이 쇼케이스 하는 결과물들을 보면 쉽게 느낄 수 있는 부분입니다. 그 태생이 기술이니 당연한 것이죠. 그러나 영화와 사진은 빠르게 기술을 자유롭게 다루는 아티스트들에 의해 기술이 아닌 매체가 담는 콘텐츠로 성장했습니다.

물론 Creative AI는 기술기반의 과거 매체와는 확연히 다르다고 생각됩니다. 단순한 아티스트의 창작의 도구가 아닌 Creative 도구이면서 동시에 Co-Creator로의 다른 변화와 성장을 할 것이라 생각됩니다. 두려움의 대상보다는 더 많은 가능성의 도구인 것이죠.

어떤 의미에서 게임 디자이너와 플레이어의 관계 같기도 합니다. 이 생각은 다음에 다시 풀어보기로 하겠습니다.

이제 새로 시작하는 매체를 만난 다는 것은 창작자에게 정말 두근두근한 일이 아닐까요!! 이제 시작입니다!