brunch

You can make anything
by writing

C.S.Lewis

by parcyun May 03. 2024

미드저니, 상업적 가능성에 대하여#3

[가상 인물 만들기]

https://brunch.co.kr/@parcyun/21



편향성


원본 이미지를 참고하여 새로운 이미지를 생성할 때 편향되는 현상을 최소화하기 위하여 가장 기본 상태가 되는 이미지를 생성해 보자


지난 작업에서 편향성을 제거하기 위하여 다음과 같은 조건이 필요하다는 것을 알아냈다.


배경 제거

의류 색상 제거

의류 특징 제거


이를 반영하기 위해 다음과 같은 프롬프트를 추가하였다.


white background

white tshirts


No background, no wrinkles, no color 등 특정 사물이나 묘사를 하지 말 것을 요구할 수도 있다. 실제로 미드저니에서는 --no 파라이터를 이용하여 상세하게 제한을 할 수 있다. 입력한 특정 사물이나 묘사를 '제거요소'로 반영하여 결과물을 생성하는 것이다.


그러나 많은 생성 AI는 제거요소를 추가하는 '부정적 표현'보다는 정확한 묘사를 지정하여 요청하는 '긍정적 표현'을 활용할 때 더 뛰어난 결과물을 보여주는 경우가 많다.


긍정 프롬프트


컴퓨터 공학의 산물로 탄생한 인공지능이지만 생성 AI의 결과물을 해석할 때 인간의 행동요소를 바탕으로 생각하는 것이 큰 도움이 될 때가 있다고 한다. 이를 인간 심리학에 빗대어 AI 심리학이라고 부르는 이도 있다.


인간이 머릿속에서 개념을 떠올리는 과정을 생각해 보자. 옷을 표현할 때 표현하지 말아야 할 '제거요소'를 만들어보자. 


<제거요소>

주름 있는 옷, 색이 진한 옷, 단추가 달린 옷, 레이스가 달린 옷, 목이 절개된 옷...


제거요소를 생각하면 생각할수록 제거요소에 대한 개념은 더욱 강화되고 계속해서 떠오른다. 분명 제거해야 할 요소임에도 불구하고 계속해서 해당 개념이 떠오르는 현상이 발생한다. 또한, 원하는 개념을 떠올리기 위해 소거법으로 작동할 제거요소는 무한히 계속해서 추가될 수 있다.


<필수요소>

흰색 티셔츠


이번에는 반드시 표현해야 하는 개념을 명확하게 떠올려보자. 제거해야 할 요소를 계속해서 떠올리던 방식과는 달리 표현해야 할 요소가 명확하게 정리된다. 


인간이 입력한 내용을 바탕으로 가장 확률이 높은 답을 생성하는 AI가 생성한 결과물에도 이러한 현상이 나타난다. 분명 논리적 알고리즘에 의하여 작동하는 컴퓨터 프로그램인 생성 AI가 어떤 원리로 이런 현상을 나타내는 것일까? 거대 생성 AI모델이 계속해서 등장하고 있는 시대에 앞으로 더 깊은 연구가 필요한 부분이라고 한다.




프로필 이미지


좌측부터 배우, 아이돌, 모델이 어울릴 것 같다.

긍정 프롬프트를 활용하여 프로필 사진 형태의 모델 이미지 생성을 요청하였다. 여러 차례 생성된 이미지 중에서 가장 마음에 드는 이미지 세 가지를 골랐다.


이미지를 생성하다가 눈에 띄었던 재미있는 점은 미드저니에게 'asian woman'을 그려달라고 할 때와, 'Korean woman'을 그려달라고 할 때 확연히 드러나는 차이점이 있다는 것이다. 색감이나 분위기가 조금 더 감성적이고 수수하게 표현되는 편이며 입술의 모양이나 코끝의 모양 등이 특유의 익숙한 형태로 생성이 된다. 자세히 설명하진 못하겠지만 뭔가 익숙한 한국인 같은 느낌.


생성된 이미지를 조금 확대하며 모델의 전신 이미지를 만들어보자. 생성 AI의 특성상 무작위성에 기대야 한다는 점 때문에 여러 번의 이미지 생성을 통해 원하는 이미지를 얻어내는 과정이 필요하다.





1차 Zoom out X2


미드저니의 기본 기능인 Zoom out X2를 요청하였다. 생성된 비슷한 네 개의 이미지 중에서 가장 자연스러운 이미지를 골랐다. 선택의 기준은 가장 눈에 띄지 않게 표현된 티셔츠와 팔의 각도이다.


이 이미지에서 다시 한번 더 Zoom out X2를 요청하였다.





2차 Zoom out X2


손이 사라진 이미지와 갑자기 어색하게 서있는 자세로 표현된 이미지를 제외하고 팔과 다리가 비교적 자연스럽게 표현된 이미지를 골랐다.


이 이미지에서 한 번 더 Zoomm outX2를 요청하였다.





3차 Zoom out X2


발이 사라져 버렸다. 바닥에 주름진 천 표현을 따로 요청하지 않았는데도 묘사가 된 것은 미드저니의 스타일 무작위성 기본값 때문인지 아니면 미드저니가 스스로 학습한 이미지를 바탕으로 한 무작위적 표현인 것인지는 알 수 없다. 그러나 모델 화보를 촬영한 듯한 느낌이 들어 분위기는 더욱 좋아졌다는 느낌이 든다.


Vary(Region) 기능을 사용하여 발을 다시 표현하게 요청하였다.





Vary(Region)


확실히 자연스러워졌다. 지난 글에서 말했듯이 신발 끈을 표현하는 등 상세한 신발 표현 부분에서 부족한 면이 보인다. 이는 점차 개선될 것으로 보이며, 수 차례 재생성을 통해 현재도 쉽게 해결할 수 있는 부분이다.


인물이 공중에 떠서 스쿼트를 하는 듯한 묘사가 약간 어색하게 느껴져서 다시 한번 Vary(Region) 기능을 사용해 흰색 상자를 추가하였다.





흰 상자 추가


sitting on the white box를 입력하여 수정을 요청하였다. 가장 자연스럽고 편안한 자세로 표현된 이미지를 골랐다. 바지와 신발 사이에 발목 표현이 좀 더 자연스러워졌다. 


그러나 여전히 신발 끈의 표현이 어색한 것을 알 수 있다. 오른쪽 발목의 색이 어색하게 표현된 점도 눈에 띈다. 손가락 역시 여전히 어색하게 표현되었다. 실제로 이미지를 활용하기 위해서는 추가적인 수정작업이 반드시 필요하다.




모델 활용


가상 인물의 프로필 이미지를 생성하여 이를 바탕으로 활용할 수 있는 방법에 대하여 알아보았다. 이번에는 다른 인물을 활용하여 좀 더 적극적으로 이미지를 생성해 보았다.


이번 작업도 위 작업과 마찬가지로 생성 AI의 무작위성의 원리를 바탕으로 하기 때문에 여러 번의 재생성과 수정을 거쳐 진행하였다.


먼저 베이스가 될 인물 모델이다.



위에서 생성한 인물 중 모델의 느낌이 가장 자연스럽게 어울리는 인물을 선택했다. 여전히 인물을 표현할 때 심도가 너무 얕아 불필요하게 아웃포커싱이 된 부분이 발생하는 점은 더 연구가 필요하다.


시작하기에 앞서 기존에 존재하는 모델의 사진과 blend를 한 결과가 궁금해졌다. 


원하는 모델의 이미지를 원하는 의상과 포즈를 담은 이미지에 어느 정도 이식이 가능하다면 어떨까? 아래 두 이미지를 첨부하여 blend 요청을 하였다.


김다미 화보 이미지(우)


최초의 생각은 첨부된 이미지를 참고하여 원본 모델 이미지를 새롭게 생성해 줄 거라는 것이었다.


그 결과는 다음과 같다.



완전히 다른 인물이 탄생하였다. 의상과 포즈도 달라졌으며 심지어 일부 사진에는 신체 표현이 몹시 어색하게 묘사되었다. Blend 기능을 시도해 보기 전에 간과했던 점이 있었다. 


참고에 사용된 두 이미지의 비중을 선택할 수 없다는 점.


원본 이미지의 비중과 참고된 이미지의 비중이 똑같이 반영된다는 뜻이다. 즉, 어떤 이미지도 서로의 원본이 될 수 없고 어떤 이미지든 서로를 참고한다는 뜻이다. 추후 업데이트를 통해 blend 비중을 설정할 수 있게 될지도 모르겠다.


이와 비슷하게 원본 이미지의 링크를 불러와 텍스트 프롬프트를 입력하고 --iw 값을 적용해 이미지의 비중을 제한할 수 있는 기능이 있으니 사용해 보길 바란다.




--cw 30



--cw 30. 밝은 하늘색 셔츠를 입고 앉아 있는 모습의 여성 이미지를 요청하였다. --cref를 적용해 원본 이미지를 참고하도록 했다. 위 이미지에서 원본과 흡사한 모습을 보여주는 1번과 2번을 재생성 요청하여 원하는 이미지를 얻어낼 수 있을 것으로 보인다.






다소 차가워 보이는 표정이지만 상당히 좋은 퀄리티의 결과물이 생성된 것 같다. 삐져나온 잔머리와 목의 방향이 일부 어색하다.





--cw 70



원본 모델 이미지와의 유사성을 좀 더 높여보기 위해 캐릭터 참고 비중을 70까지 높여보았다. 1번과 3번을 활용해 재생성하면 좋은 결과물을 얻을 수 있을 것 같다.





어떤 이유에서인지 --cw값을 30으로 적용했을 때보다 원본과의 유사성이 더 떨어져 보이는 느낌이다. 인물의 포징이나 표정 등의 묘사에서의 유사성은 높아졌지만 외모의 특징이 계속해서 다르게 표현된다.





--cw 0



이번엔 완전히 색다르게 이미지 참고 비중을 0으로 설정하여 side profile을 생성하였다. 외모적 유사성은 많이 떨어졌지만 결과물이 훨씬 다채롭고 자연스러워졌다.


여러 차례 작업을 반복하면서 찾아낸 적정한 --cw값은 30이다. 원본과의 유사성을 확보하면서 자연스러운 결과물을 얻어낼 수 있는 중간지점인 것 같다.




빛 활용


사진을 촬영할 때 빛을 잘 활용하면 더 극적이고 자연스러운 결과물을 얻어낼 수 있다. 역광이나 그림자, 반사광 등을 적극적으로 활용한 결과물을 시도해 보았다.



훨씬 극적인 장면이 연출되었다. 섬세한 빛 표현 덕분에 이미지의 퀄리티도 엄청나게 좋아진 효과를 얻었다. 조명 연출에 대한 묘사와 함께 ultra realistic photography라는 스타일을 입력하여 생성하였다. 단순히 프로필 사진을 촬영한 결과물이 아니라 정말로 더 실사 같은 결과물을 요청한 것이다.


이 중에서 원본인물과 유사하다고 생각되는 몇 가지 이미지를 선택하여 재생성을 통해 결과물을 만들어보았다.






상당히 높은 퀄리티의 자연스러운 인물 사진이 생성되었다. 포토샵을 통해 상세한 디테일에 대한 수정작업과 후처리 작업을 거친다면 일부 목업 작업을 통해 상업적으로 충분히 활용가능한 결과물이 나올 수 있을 것으로 기대된다.




셀카 모드


인물 모델을 생성하여 흔히 화보 촬영이라고 하는 상업용 촬영 결과물 위주로 생성하다 보니 문득 궁금한 점이 생겼다. 스튜디오에서 촬영한 멋진 결과물도 좋지만, 사람들에게 좀 더 친숙하게 느껴지도록 하기 위해서 일상의 모습이 담긴 사진도 필요할 것이다. 이 인물이 좋아하는 물건이나 장소에 대한 사진과 함께 '셀카 사진'을 적절하게 활용하는 것이 필요하다.


미드저니에게 iPhone 15 Pro로 촬영한 Selfie를 요청하였다.



자세히 보다 보면 일부 어색한 부분들이 눈에 띄지만, 기대 이상의 결과가 나왔다. 진짜 iPhone 인물 모드로 찍은 듯한 묘사가 나타나있다. 배경의 흐린 부분과 머리카락 경계의 약간의 어색한 묘사와 휴대폰 렌즈가 가진 화각으로 인해 나타나는 약간의 어안효과가 표현되었다. 스튜디오 촬영과는 달리 피사체가 약간 중앙에서 빗겨있거나 진짜 손으로 들고 셀카를 찍은 듯한 포즈와 각도가 자연스럽게 표현되었다.


일부 이미지를 확장해 보았다.






뒷 배경의 집안 공간까지 자연스럽게 무작위로 생성해 주는 것을 볼 수 있다. 특히, 배경과 머리키락의 경계 부분을 처리한 묘사가 아이폰 인물모드 특유의 모습이 보여서 재미난 부분이다.


위의 결과물들과 마찬가지로 적절한 후처리를 통해 충분히 사용 가능한 결과물로 만들어낼 수 있을 것으로 보인다.





시선 처리


인물 이미지를 생성할 때 가장 많이 만들어지면서 동시에 가장 자연스럽게 보이는 이미지가 바로 카메라를 정면으로 응시하는 이미지다. 그러나, 실제 상업용 촬영 결과물들을 살펴보면 다양한 방향으로 시선처리를 하고 있는 것을 볼 수 있다.


더 자연스럽고 현실적인 모습의 모델 이미지를 생성하기 위하여 다양한 방향으로 시선을 처리하고 있는 이미지에 대한 연구가 필요하다.


이번에는 위를 올려다보며 커피를 즐기는 모습을 요청해 보았다.



커피를 든 손의 묘사가 상당히 부자연스럽고 일부 커피잔이 표현되지 않은 이미지도 보인다. 커피를 제외하면 배경의 묘사나 인물의 묘사는 상당히 자연스럽다. 몇 번의 재생성과 수정을 거치면 상당한 퀄리티의 결과물을 만들어낼 수 있을 것이다.


가장 눈에 띄었던 이미지를 활용하여 목업 작업이 가능한 수준의 이미지 생성을 시도해 보았다.






손이 없음

컵이 공중에 떠있음

손가락이 여섯 개임

손이 갈라져있음

손가락 개수가 부족함


옷이나 배경 표현의 자연스러움을 보기 전에 먼저 눈에 띄는 문제점들이다. 초창기 생성 AI에서부터 꾸준히 발생하였던 '자연스러운 손가락 묘사'의 문제.


인간의 손가락은 자연스럽게 묘사하기 몹시 어려운 기관이다. 많은 작가분들도 어려워하는 부분이다. 굉장히 자연스러워 보이게 잘 표현했음에도 자세히 보면 어딘가 어색한 구석이 있기 마련이다.


실사와 구분하기 힘든 수준의 결과물을 만들어내는 v 6.0에서도 여전히 동일한 문제가 발생하고 있다.


문제는 손가락의 표현만 어색한 것이 아니라 컵을 표현하는 데도 상당히 어려워하고 있다. 손잡이가 불필요한 곳에 달려있다거나, 컵을 든 각도와 입을 대는 부분의 시점이 다르게 표현이 된다거나, 현실에는 존재하기 힘든 구조를 가지고 있는 등 수 차례의 재생성을 통해 이미지를 선별하는 과정이 반드시 필요한 사물이다.



수 차례 재생성과 수정을 통해 이미지를 선별하는 과정이 반드시 필요






가장 자연스럽게 묘사된 이미지를 골랐다. 여전히 테이크 아웃 잔을 든 손이 어색하게 묘사되었다. 테이크 아웃 잔도 자세히 보면 뭔가 어색하다.


두 손으로 머그잔을 들고 있는 이미지가 그나마 자연스럽다. 목업 이미지를 입혀도 될 정도로 보인다. 여전히 손 표면의 피부가 약간 찰흙처럼 묘사된 것이 눈에 띄기는 하지만 자세히 보지 않는다면 크게 신경 쓰일 부분은 아니다.


다른 이미지들도 위와 같은 과정을 거쳐 목업 이미지를 적용하고 상업적으로 사용 가능한 수준의 결과물을 생성하는 것이 가능하다. 원하는 이미지를 얻을 때까지 재생성하고 수정하는 과정을 거친 후 포토샵 등 후처리 애플리케이션을 활용하여 적절한 수준의 수정과 보정 과정을 거치는 것이다.





최적의 프로세스


지금까지 가상의 인물 모델을 생성하고 이를 통해서 원하는 형태의 이미지를 생성하는 과정에 대한 연구를 해보았다. 수많은 재생성의 과정과 프롬프트를 수정하는 과정을 통해서 현재 생성 AI를 활용한 최적의 작업 프로세스에 대하여 생각해 보게 되었다.


실사 이미지 생성: 미드저니

프롬프트 참고 및 정리: ChatGPT

아이디어 참고: DallE3(ChatGPT) & Pinterest

후처리: 포토샵 & 라이트룸


폭넓은 레퍼런스를 제공받을 수 있는 핀터레스트(Pinterest)는 생성 AI의 시대에도 여전히 유효하다. 오히려 더 큰 역할을 한다고 자신 있게 말할 수 있다. 수많은 이미지 공유 플랫폼에 업로드된 작업물들을 한눈에 빠르게 살펴볼 수 있고 관련 이미지들이 빠르게 자동 추천되는 핀터레스트의 강력한 특징은 앞으로도 크나큰 강점으로 작용하게 될 것이다.


생성형 AI는 결국 인간이 요청한 프롬프트를 이해하고 이에 맞는 결과물을 만들어내는 컴퓨터 프로그램이다. 

많은 사람들이 AI가 만능이라고들 말하지만 중요한 것은 AI를 어떻게 활용해야 하는지에 대한 논의와 연구가 후행되어야 한다는 것이다. AI의 등장과 시대점유로 인하여 많은 직업들이 사라지겠지만, 자동차와 증기기관이 그랬듯 인공지능 분야에 관심을 가진 수많은 사람들에 의하여 수많은 새로운 일자리가 생겨날 것이고 상상하지 못했던 새로운 산업 분야가 탄생할 것이다.


우리가 해야 할 일은 그저, 조급히지 않게 내가 있는 그곳에서 이 새로운 기술과 분야를 배척하지 않고 어떻게 끌어안고 녹여낼 것인가에 대한 고민이다.






미드저니는 짧은 시간 동안에 몹시도 빠른 속도로 성장하고 있다. 사실, 이는 미드저니뿐만 아니라 다른 생성 AI에서 동일하게 나타나고 있는 현상이다. ChatGPT의 등장으로 일반 사용자에게  AI에 대한 접근성이 비약적으로 상승하게 된 시기를 기준으로 수많은 생성 AI가 대중들에게 그 모습을 보이고 있고 지금 이 순간에도 성장하고 있다.


AI를 구동하는 데 필요한 전력량을 공급하는 것이 곧 어려워질 것이라는 전망이 나올 정도로 AI는 급속 성장을 거듭하고 있는 중이다.


1년여 전, AI가 생성한 이미지라고 공개된 것을 보고 직접 사용해 본 미드저니와 달리의 결과물은 나의 기대 이하였다. 사용자가 원하는 의도를 입력하는 전달하는 프롬프트의 용이성이 상당히 떨어졌을 뿐만 아니라 생성된 이미지의 퀄리티도 보장할 수 없는 상태였다.


그러나, 현재 미드저니를 비롯하여 각 분야의 생성 AI는 상당한 퀄리티의 결과물을 만들어내고 있으며 실제 사용자의 의도대로 동작하는 모습을 보여주고 있다. 일부 산업 분야에서는 이미 생성 AI를 활용하여 유의미한 결과를 만들어내고 있다.


시간이 지남에 따라 수많은 기업과 자본가들은 생성 AI를 도입하는 것에 몹시 적극적일 것이다. 기업뿐만 아니라 디자이너, 사진가, 카피라이터, 프로젝트 매니저, 프로그래머, UX 라이터, HR 매니저 등 분야를 가리지 않고 생성 AI가 현대 산업 구조에 크나큰 영향을 미칠 것만은 분명하다.








https://brunch.co.kr/@parcyun/21


작가의 이전글 <Desing of the Week#2>
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari