동화책 쓰기 프로젝트 - 3
미드저니(Midjourney)를 써본 사람들은 생성형 AI의 엄청난 상상력과 가능성에 깜짝 놀란다. 미드저니 측에서 제공하는 갤러리에 가보면 인간의 상상력 못지않게 그 상상력을 멋지게 표현한 미드저니의 위력에 깜짝 놀라게 된다. 댓글들을 보면 "이제 일러스트레이터들은 할 일이 없겠어요~"라는 반응들이 대부분이다.
그러나 생성형 AI를 이용해서 "프로젝트"를 해본 사람이라면 아직 갈 길이 멀다는 것을 느낄 것이다. 오늘은 그 이야기를 해보고, 그 역경(?)을 딛고 추가로 만든 페이지들을 담아보고자 한다.
회사에서 일을 하다 보면 꼭 이런 사람들이 있다. 아무리 지시하고 요청해도 자기 고집과 스타일대로 일을 하는 사람. 주변에 이런 사람이 있다면 속이 터진다. 내가 원하는 건 A인데 왜 계속 B를 가져오는데...
생성형 AI가 바로 이런 말귀를 못 알아먹는 존재와 비슷하다.
물론 이렇게 반박하는 사람이 있다. 그건 너의 요청이 정확하지 않아서 그렇다. 생성형 AI의 언어로 바꿔보자면, 생성형 AI에게 작업을 요청하는 프롬프트(Prompt)가 잘못되었다는 것이다.
문제는 얼마만큼 정확한 요청을 해야 정확한 작업물이 나오는지 알 수 없다는 것. 그러다 보면 모든 잘못된 작업들을 잘못된 "프롬프트" 탓으로 돌리게 된다.
모든 문제를 정확하게 풀 수 있는 기계를 만들었다고 치자. 그래서 문제를 제시했는데, 오답을 내놨다. 그럼 기계가 잘못되었다고 생각해야 옳다.
그러나 기계가 잘못된 것이 아니라, "질문이 잘못되었다"라고 하는 것과 마찬가지이다.
물론 프롬프트를 개선해서 더 나은 결과를 얻을 수 있는 것도 사실이다. 예를 들면, 그냥 "A little girl"이라고 프롬프트를 넣으면, 미드저니가 자기 마음대로 다양한 스타일의 소녀를 그려준다.
그러나 내가 원하는 건 만화풍. 이제 "Cartoon Style"이라고 넣으면 어떤 스타일이든 만화 형식으로 그려준다.
물론 만화에도 다양한 화풍이 있다. 일본식인지, 서양식인지, 아니면 어떤 작가의 화풍인지. 그렇게 세분화해 가면서 원하는 모습을 얻을 수 있다.
그러나 다음과 같은 요청을 하면 제대로 된 결과물을 얻기가 어렵다.
"6세 소녀. 비가 오는 날 우산을 쓰고 걸어가는 중. 등에는 빨간색 가방을 메고, 흰색 운동화를 신었으며, 기분이 좋지 않은 듯이 보임. 차가 없는 주택가 풍경. 오후."
자세하게 요청하면 요청할수록 "변수"가 많아지기 때문이다. 즉, 내가 생각하는 우산과 미드저니가 그려준 우산이 다를 수 있다. 빨간색 가방이 각진 모양인지, 둥근 모양인지도 생각과 다를 수 있다. 운동화는 어떻고, 기분이 좋지 않은 건 또 어떠한가. 오후는 늦은 오후인지, 이른 오후인지.
즉, 머릿속의 이미지를 말로 풀어서 설명하다 보니 정확한 요청이 거의 불가능한 것이다. 이러다 보니 기본적으로 생성형 AI의 최초 작업물은 만족스럽지 못한 경우가 많다.
두 번째 문제는 매우 단순한 요청조차 미드저니는 제대로 소화하지 못한다는 것이다.
예를 들어, 같은 그림인데 배경을 지워달라거나, 배경색이 흰색인데 초록색으로 바꿔달라거나 하는 단순한 요청을 끔찍하리만치 소화를 못 시킨다.
앞의 문제 때문에 500장이 넘는 그림을 생성하고 검토해서 결국 마음에 드는 그림을 찾았다고 하자.
그런데 뭔가 살짝 마음에 안 드는 부분이 있다. 아니, 사실 살짝은 아니다. 우산을 쓰고 있는 그림을 글려달라고 했는데 우산은 없고 손잡이만 잡고 있는 것!
자 이제 미드저니에게 우산을 마저 그려달라고 요청해 보자. 전체 그림을 고치려는 것이 아니므로, 필요한 부분만 선택해서 새로운 prompt를 넣는다. (테크니컬 한 부분은 생략하겠다). 그럼 아래와 같은 결과물이 나온다.
... 뭔가 이상해지는 게 느껴지는가.
이를 해결하기 위해서는 몇 가지 방법이 있다. 첫 번째는, 전체 그림을 무한 반복해서 그려달라고 요청하는 것이다. 두 번째는, 그림의 일부를 무한 반복해서 그려달라 요청하는 것. 세 번째는, 다른 데서 얻은 우산 사진을 합성하는 것이다.
결국 원본이 워낙 마음에 들게 잘 나와서 "합성"으로 가기로 했지만, 무한 반복했다면 최소한 500-600장은 더 그려야 원하는 그림을 원할 수 있었을 것이다.
(혹시나 더 잘할 수 있는 방법이 있다면 알려주세요... 고수님들의 조언은 언제나 환영합니다)
미드저니를 사용하는 데 있어 가장 큰 문제점은 바로 "일관성"의 부족이다.
괜찮은 캐릭터를 뽑고 나서 그 캐릭터를 활용해 다양한 동작이나 표정을 만들기가 어렵다는 것. 그래서 일회성의 일러스트나 그림 등에는 활용도가 높지만, 캐릭터의 일관성이 중요한 웹툰이나 만화, 동화 등에서는 활용하기가 매우 어려워진다. 특히 속도가 생명인 만화에서는 문제가 더 심각하자.
예를 들어보자.
천신만고 끝에 다음과 같은 페이지를 완성했다.
이 장면은 당연히 미드저니가 한 번에 그려준 것이 아니다. 배경과 캐릭터를 따로 그리고, 각종 효과를 넣고 재구성한 것이다. (미드저니가 이 페이지를 한 번에 그려준다면... 그때는 정말 인류가 어려워지는 날이 올 것이다.)
이제 아이가 우산을 꺼내드는 다음 장면이 나와야 하는데, 정말 마음에 드는 그림이 있었지만 과감하게 버려야만 했다. 문제의 그림...
얼핏 보기에는 괜찮아 보인다.
그러나 이 그림을 바로 옆에 배치하면, 아이의 나이가 최소 2살 정도 차이가 나보이는 것이 느껴진다. 심지어 이 그림은 원본이 아니고 보정을 해서 조금 더 어려 보이게 만들었는데도 말이다.
미드저니 측에서도 이 문제를 인지하고 "CREF(캐릭터 레퍼런스)"라는 기능을 추가했다. 덕분에 훨씬 일관성 있는 작업물을 얻을 수 있게 되었지만, 아직 약간의 차이가 있는 것은 어쩔 수 없는 모양이다.
동화나 웹툰 등에서 캐릭터의 중요성은 두말할 것 없다.
특히 스토리를 진행하는 데 있어 캐릭터 간의 상호작용은 매우 중요한 부분이다. 엑스트라도 많이 등장하는데, 그 엑스트라들이 한 컷뿐 아니라 여러 컷에 등장하는 경우도 매우 많다.
미드저니가 가장 약한 부분이 바로 이것이다.
앞서 언급한 캐릭터 레퍼런스 기능을 통해 어느 정도 일관성 있는 캐릭터를 작업물마다 유지하는 게 가능해졌다. 그러나 캐릭터 레퍼런스는 한 번에 한 캐릭터밖에 되지 않는다.
그러다 보니 결국 여러 캐릭터를 따로 만들고, 배경에 넣는, 어떻게 보면 게임 디자인에 가까운 작업을 해서 여러 캐릭터들을 한 장면에 넣어야 했다. 다음 장면을 보자.
이 장면의 그림은 세 개의 구성요소를 활용했다. 먼저 도망치는 모습의 캐릭터와 뒤를 쫓는 미라, 그리고 피라미드 배경까지. 세 가지 요소를 각각 만들어 합쳤다.
물론 이런 식으로 작업하면, 어느 정도 원하는 결과물을 낼 수 있다. 이론상 수십 명의 캐릭터도 배치할 수 있고, 악수를 한다던가(손을 겹치게 만들면 되니까) 하는 단순한 상호작용을 그려낼 수 있다.
그러나 서로 포옹을 하고 있다던가 하는 복잡한 상호작용을 그려내기가 너무나 어려워진다. 결국 이 방식의 한계에 도달하고 마는 것이다.
영화 "닥터 스트레인지"에 보면, 닥터 스트레인지가 도르마무라는 악마와 거래를 하기 위해 시간을 무한반복해서 되돌리는 장면이 나온다.
결국 미드저니를 이용해 원하는 작업물을 얻는 것은 지속적인 반복과 점진적인 프롬프트의 업데이트뿐이었다. 무한반복해서 좋은 그림을 얻는다면야 못할 것 없겠지만, 문제는 단순한 요청을 처리 못해 정말 마음에 드는 그림을 버려야 하는 경우가 너무 많았다는 것. 또한 결국 캐릭터 간의 상호작용에 있어 한계에 도달한다는 것.
물론 미드저니의 버전이 높아지면 높아질수록 이런 문제들은 어느 정도 해결이 가능할 거라 믿는다. 그러나 결국 일러스트레이터의 터치가 있으면 훨씬 빨리 작업이 끝나는 경우도 훨씬 많았다.
그러다 보니, 미천한 그림 실력, 컴퓨터 그래픽을 다루는 실력이 너무 아쉬웠다. 아마 그런 능력이 있었으면 애초에 생성형 AI에 매달리는 일도 없었겠지만 말이다.
결국 일주일 동안 아내의 눈치를 보며 하루종일 핸드폰으로 프롬프트를 넣었다. 나중에는 프롬프트를 정교하게 바꾸는 것보다, 그냥 재생성하는 게 시간이 절약된다는 사실도 깨달았다.
그렇게 며칠 동안 아래와 같은 세 장을 더 완성했다.
이제 다음 페이지에서 비가 오고, 아이는 우산을 쓰고 상상력을 먹고 자라는 신비한 우주고래 “푸르니”를 만나게 된다.
벌써부터 얼마나 많은 프롬프트를 넣어야 할지 걱정부터 앞선다. 이러다 미드저니가 폭발하는 건 아닐까? 그래도... AI니까 괜찮겠지?
펄플렉시티(Perplexity)라는 챗지피티와는 다른, 일종의 전문가용 생성형 AI를 접한 후, AI가 사람의 일자리를 빼앗을 것이란 예상은 적어도 내 생각에는 어느 정도 맞다는 확신이 들었다.
주니어 레벨의 직원들이 도맡아 하던 문서 요약이나 발표자료 제작 등이 훨씬 수월해진 것. 10명이 할 일을 2-3명 이서도 충분히 할 수 있겠다는 생각도 들었다.
전화기가 보급되고 전신기사라는 직업이 사라졌듯이, 기술의 발전에 따라 직업들이 사라지거나 축소되는 것은 어쩔 수 없는 사회적 현상이다.
그러나 이런 생각도 해본다.
문서 요약 같은 비생산적인 업무를 하던 주니어 직원들이, 그 시간을 좀 더 생산적이고 머리를 써야 하는 다른 업무에 할애한다면 어떨까? 문서를 요약하는 대신, 더 폭넓은 정보들을 접하고 종합한다면 어떨까?
즉, AI를 경쟁자로만 볼 것이 아니라, 내가 활용할 수 있는 도구로 생각하는 게 낫지 않겠냐는 것이다.
그림을 못 그리는 나도 동화책을 만들 시도를 할 수 있는 것처럼, AI는 인류의 가능성을 더 열어주는 것 아닐까?
끝나지 않는 무한반복 프롬프트 작업 중에 했던 생각들을 정리해 봤다. 이제 또 프롬프트를 넣으러 가봐야겠다...