Midjourney - 브랜드 디자이너의 위기일까?

Nov 6. 2023

지난 <ChatGPT와 브랜딩 - 브랜드 기획자의 위기일까?> 글에서, AI가 사회적으로 충격을 주었던 또 다른 사례로 Midjourney에 대해 잠시 언급한 바 있습니다. 오늘날 이미지 생성 AI 중 가장 활발하게 연구되고 있으며, 가장 대중적인 위치를 점하고 있는 AI를 꼽으라면 DALL-E와 Stable Diffusion, 그리고 오늘 이야기할 Midjourney가 될 것인데, Midjourney는 그 중에서도 상당히 논쟁적인 위치에 있는 툴입니다.

이는 이 툴이 만들어내는 이미지의 퀄리티가 상당히 높고, 후술할 특성으로 인해 쉽고 다양하게 활용할 수 있기 때문이기도 하지만, 이를 사람들이 공격적으로 활용하면서 일종의 사회 현상으로까지 자리매김했기 때문일 것입니다. 한 디지털 아트 미술대회에서 Midjourney로 그린 그림이 대상을 수상하는 사건이나 Midjourney를 활용한 이미지에 대한 저작권 문제 제기 등을 통해, 이미지를 생성하는 AI에 대한 논쟁은 '창의성이 무엇인가?' 에 대한 사회적 논쟁으로까지 발전했죠. 완성된 이미지를 만들어 내는 행위는 오직 인간만이 할 수 있는 것이었고, 코끼리나 유인원 정도가 훈련을 토대로 이를 간신히 흉내내는 정도였기 때문에, 이미지의 생성을 인간의 창의력의 산물이라고 받아들였던 많은 이들은 적잖은 충격을 주었습니다.

또한, 이 툴로 만들어진 '패딩을 입은 교황' 사진이나 '체포되어 감옥에 갇힌 도널드 트럼프' 사진은 AI를 활용한 가짜 뉴스 확산 가능성에 대한 논란을 불러일으킬 정도로 높은 완성도를 자랑했습니다. 명품 브랜드 발렌시아가의 스타일을 ChatGPT를 통해 텍스트화하고 이를 Midjourney로 구현하여 해리포터 주인공들에게 입히며, 여기에 인물의 목소리와 움직임까지 모두 AI 기술로 구현해 완성시킨 'demonflyingfox'의 "Harry Potter by Balenciaga"는 그 작업 방식이 공개됨에 따라 수많은 패러디를 낳으면서 인터넷 밈의 경지에 올랐습니다.

발렌시아가는 손 안 대고 코 푼 상쾌한 기분일 겁니다.

특히 발렌시아가의 사례를 통해, Midjourney는 크리에이티브 또한 자동화될 수 있으며, 기존에 크리에이티브 생성을 위해 요구되었던 기술을 몇 줄의 스크립트로 대체함으로서 누구나 손쉽게 높은 수준의 이미지를 만들 수 있음을 보여주었습니다. 그렇다면, 여기서 ‘기존에 크리에이티브 생성을 위해 요구되었던 기술’을 가지고 있었던 사람들, 즉 디자이너는 도대체 어떻게 되는 걸까요? 지난 ChatGPT 글에서 이를 기획자의 일을 대체하는 도구보다는 그가 지닌 역량을 살펴봄으로서 업무의 과정을 보완할 수 있는 도구로 보았던 것처럼, 디자인을 다루는 입장 또한 그러해야 하리라 생각하면서 Midjourney가 디자인, 주로 우리의 업인 브랜딩과 관련하여 어떠한 일을 할 수 있는지를 살펴봅시다.

그보다 먼저, Midjourney가 어떻게 작동하는지부터 알아야겠죠. 지난 ChatGPT와는 달리 Midjourney는 스스로를 소개할 수 없기 때문에, 이것이 어떤 서비스이고, 어떻게 소개하기 위해서는 제 부족한 설명을 동원할 수밖에 없습니다. 기본적으로 Midjourney는 Text-to-Image 형식을 띠고 있습니다. 즉, 텍스트 형태의 Prompt를 입력하면 이에 부합하는 이미지를 생성하는 방식입니다. 이 Prompt의 구성요소가 무궁무진하기 때문에, 아예 원하는 의도에 맞게 프롬프트를 생성해주는 사이트까지 존재할 정도입니다. 프롬프트의 구성요소에 대해서는 정리한 자료가 있으니 참조하시길 바랍니다.

Midjourney가 이미지를 만들어내는 과정

이전의 이미지 AI 서비스와 마찬가지로, Midjourney 또한 GAN(Generative Advisory Network) 기술을 활용합니다. 이는 한 AI 안에 결과물을 만드는 '생성자'와, 실제와 유사한 이미지를 판별하는 '판별자'가 공존하는 형태를 지닙니다. GAN을 제안한 딥러닝 전문가 이안 굿펠로우는 이를 위조지폐범과 경찰의 관계로 묘사했습니다. 위조지폐범은 최대한 진짜같은 이미지를 생성하기 위해 애를 씁니다. 경찰은 이미 학습되어 있는 진짜 지폐에 대한 지식을 바탕으로 이것이 진짜인지 아닌지를 판별하는 것이지요. 그리고 이를 토대로 위조지폐범은 시장에서 통용될 수 있는 이미지가 무엇인지 학습하게 됩니다. 이를 무수히 많이 반복하다보면 위조지폐범은 진짜에 가까울 정도의 정교한 이미지를 만들어내게 되고, 경찰 또한 이를 판별하기 위한 새로운 방법들을 학습하게 되면서 결과적으로는 전체 이미지의 정교도가 올라가는 것이죠. 이런 관계를 ‘적대적 학습’이라고 부릅니다.

물론 이러한 관계성 때문에 간과되어서는 안되는 것은, 각 모델들이 학습해야 하는 이미지의 퀄리티가 좋아야 한다는 것입니다. 특히, 특정한 의도대로 이미지를 만들고자 한다면(위조지폐를 만드는 것처럼), 무작위의 이미지가 아닌 위조지폐에 대한 이미지로 모델을 특화시켜야 할 것입니다. 이를 파인튜닝이라 부르며, 이미지 뿐 아니라 대부분의 생성형 AI는 특화된 기능을 수행하기 위해 이러한 파인튜닝을 거칩니다. Midjourney를 애니메이션 극화체에 특화시켜 튜닝한 Nijijourney같은 사례를 예로 들 수 있겠습니다. 이러한 점을 이해한다면 앞으로 진행될 실험을 이해하는 데 도움이 될 것입니다.

거칠게 요약하자면, 무수히 많은 이미지를 학습해 정교함을 올린 GAN 기술 기반 이미지 생성 인공지능이, 우리가 원하는 스타일과 대상을 적은 스크립트를 텍스트로 입력하면 그 의도에 부합하는 이미지를 만들어준다는 것입니다. 이러한 이미지는 총 4가지 정도가 주어지며, 그 중 마음에 드는 것을 고해상도로 완성시키거나, 한 가지 방향성에서 발전시킨 안을 다시 제안해 달라고 할 수도 있습니다. 그렇다면 이러한 과정을 통해, 브랜드 로고도 만들 수 있지 않을까요?

Midjourney는 브랜드 로고를 만들 수 있을까?

왼쪽은 '스마트 팜'으로서의 특성을 강조하고, 오른쪽은 '생명을 위한 기술'이라는 컨셉을 강조해 이미지를 주문했습니다.

결론부터 말하자면, 어느 정도 수준의 로고를 만드는 것은 가능합니다. 특히 로고의 정교함이나 복잡함 수준에서는 인간보다 더 빠르게 로고를 만들 수 있다는 장점은 분명히 있습니다. 하지만 그것이 지금 일반적인 디자인 에이전시에서 기대하는 수준의 '크리에이션'은 아닙니다. 즉, 정교하긴 한데, 어디선가 본 듯한 뻔한 이미지를 자꾸만 만든다는 것이죠. 스크립트를 아무리 정교하게 짜도 이런 로고 크리에이션을 통해서는 어떤 의도를 정말 직접적이고 직관적인 것 이상의 차원에서 전달하기는 어려워 보입니다. 지난번처럼 대한제강의 스마트팜 프로젝트를 바탕으로 로고 크리에이션을 요청했을 때 튀어나온 이미지는 우리가 의도한 바와 전혀 다른 것이기도 했습니다. 심지어는 우리가 생각하는 디자인의 요건 - 볼드하면서도 깨끗한, 전문가적 이미지 - 도 모두 반영되어 보이지는 않습니다.

이러한 이미지들을 보면, AI가 스크립트를 이미지로 처리하는 방식이 상당히 게으르다는 느낌을 지울 수 없습니다. 이미지를 연상하는 단계가 있다면, 상당히 단순한 단계를 거친 것이죠. 물론 ‘스마트 팜’이라는 개념을 상세히 설명하고 표현하는 것은 인간에게도 어려운 일이겠지만, 언어적 인간은 이를 토대로 구체적이지 않은 연상 이미지까지 상상할 수 있는 능력이 있는 반면, AI는 거기에 미치진 못합니다. ‘스마트 팜’을 제시해 달라고 했더니 인간의 지능과 풀을 단순히 조합하질 않나, GREF를 ‘Green Foundry’로 보고 이것이 어느어느 컨셉의 스마트팜이라고 설명했더니 아예 스마트팜은 어디로 가고 공업적인 로고를 제안하거나 하는 식의 일이 이어졌습니다. 복잡한 개념으로 로고 크리에이션을 몰고 들어가면 들어갈 수록, 이러한 개념 중 하나를 취사선택하거나, 여러 개념 사이에서 갈피를 잡지 못하는 경우 또한 심심치 않게 일어나는 일이었습니다.

이러한 이미지들이 나오는 이유를, 우리는 아마도 구글 검색창에서 찾을 수 있을 것입니다. 동일한 목적의 검색을 구글 이미지에서 한다면, 아마 실제 로고 이미지보다 더 많은 수의 스톡 이미지들이 쏟아져 나올 것입니다. 즉, 이러한 현상은 Midjourney가 ‘로고’나 ‘브랜드’를, 우리가 알고 있는 브랜드가 아닌 스톡 이미지들로 학습했기 때문이라는 추측을 할 수 있습니다. 이는 일부분 어쩔 수 없기도 합니다. 우리가 익히 알고 있는 브랜드만을 학습시킨다면 학습의 양이 턱없이 부족했을 테니까요. 그렇다 하더라도, 파인 튜닝을 통해 이러한 현상이 나아지리라 생각되지는 않습니다. 이는 앞서 이야기된 GAN 모델이, 완벽한 상상력이 아닌 모방과 검증의 개념으로 이루어져 있기 때문에 더욱 그러할지도 모릅니다. 위조지폐범과 경찰 간의 경쟁의 결과로 나오는 것은 적당히 걸리지 않을 정도의 평균적 이미지이지, 아예 새로운 지폐를 위한 새롭고 신선한 개념이나 복합적인 이미지는 아닐테니까요.

각각 '99.1 Raeligh', 'GL'에 대한 타이포그래피를 주문한 것으로 보이는 이미지

로고타입으로 넘어가면 문제는 더 심각해집니다. Midjourney와 같은 이미지 생성 AI는 아직 우리가 만드는 정도의 타이포그래피를 만들 능력도 없을 뿐만 아니라, 문자를 제대로 배열할 능력 또한 없어, 특정 문자로 된 로고타입을 전혀 만들 수 없습니다. 이는 이 AI가 문자를 문자가 아닌 이미지로 보기 때문입니다. 때문에 AI는 어떻게든 그 문자를 만들어내려 애쓰면서도, 그 문자가 아닌 그 문자가 가진 이미지적 형태와 파편화된 요소만을 기억하고 이를 그리게 됩니다. AI 개발의 관점에서는 텍스트만을 위한 엄청난 양의 학습을 하거나, 텍스트와의 보완이 이루어져야 하는 지점이라고 볼 수도 있겠지만, 그렇다 하더라도 이러한 접근을 통해 완성된 타이포그래피는 가독성이나 언어적 표현보다는 장식적인 요소로 귀결될 것이라고 예상할 수 있습니다.

브랜드에 대한 보다 정밀한 상상

다행히도 브랜드를 디자인하는 일의 주도권은 아직 인류에게 있는 것으로 보입니다. 그렇다면 브랜드 디자인에는 Midjourney와 같은 생성형 AI가 전혀 쓸모 없는 것일까요? 분명히 복잡한 개념을 담을 수 있는 단순한 방법이나, 온전한 타이포그래피 같은 것들은 Midjourney가 잘 할 수 있는 것은 아니어 보입니다. 그렇다면 Midjourney가 잘 할 수 있는 것은 무엇일까요?

보다 정교한 브랜드 어플리케이션 및 확장 디자인의 가능성

앞서 발렌시아가 영상을 보았다면, Midjourney의 장점이 무엇인지 금방 알아차리셨으리라 생각됩니다. Midjourney의 장점은 추상적 형태나 문자보다는 이미지 자체를 정확히 구현하는 능력에 있습니다. 즉, 구체적인 사물과 스타일이 주어진다면 그것을 고품질로 구현해 줄 것이라는 점입니다. 이를 토대로 생각해 보면, 우리가 프롬프트를 자세히 작성하면 작성할 수록, 이러한 물건이 놓인 모습 뿐만 아니라, 우리가 목표했던 컨셉이 가져야 하는 시각적 요소 또는 분위기를 사물과 배경 모두에 녹여낼 수도 있다는 귀결에 이르게 됩니다.

이 점을 잘 활용한다면, 브랜드 어플리케이션을 만드는 과정에서 단순히 흰 바탕을 가진 일률적 목업에 그래픽 시스템과 로고를 삽입하는 것을 넘어, 서로 다른 컨셉을 지닌 브랜드 가져야 하는 시각적 요소 내지는 감성과 잘 어울리는 이미지를 AI로 구현함으로서, 브랜드의 무드를 가장 효과적으로 보여줄 수 있는 목업 툴로서 활용될 수 있을 것입니다. 사물 또는 사진을 바탕으로 추가적인 프롬프트를 통해 이미지를 구현하는 것이 가능한 만큼, 기존의 목업 이미지를 바탕으로도 위와 같이 특정한 무드가 느껴지는 이미지를 충분히 만들어낼 수 있습니다.

사물을 넘어 생각해 보면, 인물과 공간에서도 새로운 상상력을 발휘할 수 있을 것입니다. 브랜드가 추구해야 할 가치가 반영된, 또는 특정 라이프스타일을 갖고 있는 타겟 고객 또는 페르소나를 표현하거나, 특정 브랜드의 이미지가 특정 지역의 분위기와 녹아들어 있는 공간, 혹은 미래지향적인 일이 이루어지는 공간, 그 곳에서 벌어지는 일의 미래 등에 대한 상상도 가능할 것입니다. 특히 건축의 측면에서도 Midjourney가 장점을 여러 차례 보인 만큼, 지역 또는 브랜드의 무드와 어울리는 브랜드 공간을 새롭게 상상해 볼 수도 있을 것입니다. 이처럼 우리가 텍스트로만 상상했던 것을 이미지로 구현해 준다는 점에서, 텍스트를 이미지를 통해 확인하고, 그 이미지를 통해 텍스트를 보다 풍성하게 하는 상호보완적인 도구로 활용할 수 있을 것입니다. 이를 반복하다 보면, 더 정교한 브랜드 무드보드를 만드는 것뿐만 아니라, 우리가 제안한 컨셉이 실제 세상에서 어떻게 동작할지에 대한 일종의 테스트 또한 가능합니다.

결론

ChatGPT와 마찬가지로, Midjourney 또한 그 특성상 완전히 브랜드 디자인을 대체할 수는 없어 보입니다. 이는 오늘날 이미지를 만들어주는 AI 서비스가 무수히 많아도, 로고를 만들어주는 AI 서비스는 아직 없다는 점이 증명합니다. (있다 하더라도 매우 제한적이며, 기존 템플릿에 기반한 로고 메이킹과 별반 다르지도 않습니다.) 브랜드를 특정한 인식 요소를 컨셉을 통해 기업 또는 상품과 연결짓는 일이라고 생각한다면, 그러한 인식 요소에 있어서 풍부한 상상보다는 평균에 가까운 이미지를 추구하고, 브랜드 커뮤니케이션의 핵심 요소인 언어적 요소를 전혀 다루지 못하는 AI는 아직 브랜드 디자이너가 가진 능력을 따라갈 수 없습니다.

다만, 브랜드에서만 너무 많은 지식을 갖고 있는 것이 독이 되었을 뿐, 우리가 찾을 수 있는 이미지보다 Midjourney가 더 많은 이미지를 학습한 상태이고, 그래서 사람이 검색해 찾는 것보다 AI가 훨씬 다채로운 이미지를 구현해 낼 수 있다는 점을 잘 활용할 필요가 있습니다. 이러한 특성을 통해 브랜드가 갖고 있는, 또는 추구해야 할 가치, 혹은 우리 머릿속에 모호한 개념으로 남아있는 것들을 시각화하고, 더 나아가 브랜드의 미래를 더 선명히 보여줄 수 있는 도구로서 이러한 이미지 AI를 충분히 활용 가능하리라 생각됩니다.