brunch

You can make anything
by writing

C.S.Lewis

by parcyun Apr 09. 2024

미드저니, 상업적 가능성에 대하여

[V 6.0 이미지 생성 모델의 파급력]


언어생성모델


ChatGPT 4의 등장과 함께 기존에 OpenAI에서 제공하던 서비스들이 ChatGPT로 통합되었다. 현재 유료 가입자만 사용 가능하다. 무료 사용자는 ChatGPT 3.5를 사용할 수 있다.


ChatGPT 버전의 차이를 이해하기 위해서는 먼저 ChatGPT의 특징에 대한 간략한 이해가 필요하다.

(이하 GPT = Chat GPT)


입력된 프롬프트 다음에 올 확률이 가장 높은 단어 혹은 문장을 생성하는 프로그램


GPT는 언어생성모델이다. GPT의 서비스를 잠깐 접해본 일부 사용자들은 모든 능력을 갖춘 강력한 인공지능으로 생각하기도 하는데 이는 오해이다. 어떤 질문에도 척척 답변을 해내는 모습을 보면 정말 이 세상 모든 지식을 다 알고 있는 것 같은 느낌이 들 때가 있다. 그러나 이는 어떻게든 자연스러운 문장을 만들어내야 하는 프로그램의 작동방식으로 인해 만들어지는 '환각(Hallucination)'이다.


GPT 3.5까지는 그랬다.


업그레이드된 GPT 4부터는 기존에 GPT 외부의 플러그인으로 작동하던 다양한 기능이 자동으로 선택되고 작동하도록 통합되었다. 예컨대, 3.5에서는 수식을 입력하면 때때로 이를 수식으로 이해하지 못하거나 올바르지 못한 답을 출력했었다. 그러나 4에서는 GPT가 스스로 간단한 파이썬 코드를 작성하고 'Analyzing' 기능을 작동하여 정확한 답을 출력한다고 한다.


프롬프트 작성 내용에 따라서 스스로 필요한 내용을 검색해 오기도 하고 DallE를 작동하여 그림을 출력하기도 한다. 최근 다양한 분야에서 프롬프트 작성에 관한 연구가 활발한데 이 내용도 공부해 볼 만한 가치가 있다고 생각한다.


현재 DallE는 GPT를 기반으로 동작해서 그런지 여타 이미지 생성 인공지능에 비하여 자연어를 정말 잘 알아듣는 것을 볼 수 있다. 정말 디테일한 부분까지 이해하고 Variation을 만들어준다. 그러나 실사화 같은 이미지를 생성하고 상업적으로 이용할 수 있는 가능성에 대하여 궁금해하고 있던 나에게는 출력 결과물이 미묘하게 부족한 느낌이 들었다. 아직 프롬프트에 대한 연구가 많이 부족한 것도 사실이나 DallE가 출력하는 이미지는 일러스트나 판타지적 요소를 묘사하는 데 몹시 탁월한 듯하다.



DallE3


1년여 전 여러 이미지 생성 인공지능이 등장하여 큰 파장을 일으켰다. 그때 당시 눈에 띄었던 세 가지 프로그램이 있었다. DallE, Midjourney 그리고 Stable Diffusion. 대표적으로 알려진 작품들이 사회적으로 큰 충격을 주었지만, 그때까지는 아직 손가락을 잘 묘사하지 못한다던가 디테일한 자연어는 잘 이해하지 못하는 등 해결해야 할 문제들이 많았다. 그래도 궁금증이 많은 나였기에 당장 찾아가 사용해 보았다.


생각보다 상당한 성능을 보여서 놀랐지만, 사용하기가 조금 불편했고 접근성이 떨어진다고 생각했다. 특히 Stable Diffusion은 별도의 설치가 필요하며 사전 생성된 템플릿 개념의 파일들을 잘 찾아보고 생성해야 훨씬 더 좋은 결과물을 얻을 수 있었다. 이러한 낮은 접근성과 기대에 크게 미치지는 못하는 성능 등의 이유로 Playground AI나 Canva 등 외부 앱에서 제공하는 이미지 생성 모델만 간간히 사용해 왔다.


DallE3 (ChatGPT 4)를 통해 생성한 이미지, 자연스러운 이미지 묘사만으로 뛰어난 결과물을 출력해준다.

최근 Adobe의 강력한 이미지 생성 모델인 Firefly를 사용하며 인공지능의 놀랍도록 빠른 발전 속도를 체감하였다. GPT와 통합된 DallE 역시 향상된 자연어 이해 능력을 바탕으로 강력하게 업그레이드된 것을 알 수 있었다. 요청한 스타일에 따른 사물과 배경을 잘 이해하고 뛰어난 무작위성을 바탕으로 상당한 수준의 결과물을 출력해 준다. 특히 그림이나 일러스트 출력물을 표현하는 데는 몹시 탁월하다.


이에 대한 기대감을 바탕으로 실사와 같은 장면 연출을 요청해 보았다. 자연어 프롬프트를 이해하고 동작하는 GPT에서 DallE에게 <어떤 방식으로 요청을 해야 하는지에 대한 더 깊은 공부가 필요한 상태>라는 것을 먼저 말씀드리며, <수 차례 다양한 단어를 바꾸어가며 자연어 구조의 프롬프트로 요청하여 출력한 결과물임>을 알린다.


디테일한 상황 묘사를 이해하고 표현하는 능력은 탁월하나 실사와 같은 묘사는 상당히 어색해보인다


보는 바와 같이 그림이나 일러스트 생성에서는 단순한 프롬프트 작성으로 뛰어난 결과물을 보여줬던 것과는 달리 다소 약한 모습을 보이는 것을 알 수 있다. 위에서 일러스트와 그림 결과물을 요청했을 때는 별다른 연구 없이 자연어 그대로 입력하여 요청하였다. 자연어로 작성한 프롬프트 내용을 대부분 다 이해하고 디테일한 묘사를 해주었던 부분은 눈여겨 볼만하다. 다만, 두 번째 결과물에서 보듯이 실사 결과물을 출력하는 데는 한계를 보이고 있다.



미드저니


DallE의 실사 출력물의 한계를 해결하고자 하는 방안으로 미드저니를 시도해 보았다. 미드저니를 선택한 이유는 다음과 같았다.


상세한 매뉴얼 도큐먼트가 있음

파라미터를 이용해 상세한 설정을 제어할 수 있음

다양한 이용자들의 결과물을 실시간으로 공유받으며 프롬프트에 대한 이해와 연구가 용이함


1년 전 미드저니를 처음 사용해 보았을 때의 결과물은 썩 만족스럽지 못하였다. DallE 역시 그때는 마찬가지였으나 GPT4의 등장과 함께 발전한 DallE의 결과물 그리고 Adobe에서 선보인 Firefly의 결과물들을 보니 미드저니의 결과물이 궁금해졌다.


먼저 미드저니의 사용법을 간단히 익혀보기 위해 최근 미드저니 결과물을 활용한 작품들을 찾아보았다. 실사 인물 출력에는 Stable Diffusion을 활용한 작품들만 봐와서인지 미드저니는 어떠한 방식으로 출력해 낼지 궁금했다. 더구나 미드저니를 활용한 많은 작품들이 판타지적인 이미지를 담고 있었기 때문에 실사인물에 대한 묘사를 어떻게 할지 보고 싶었다.


DallE

DallE로 생성한 한국의 20대 여성의 이미지이다. 충분히 사실적인 묘사를 보여주고 있다. 특히 옷 표면 텍스쳐와 자연스러운 머리카락 질감 표현 그리고 다양한 광원들이 상호작용하는 표현에서 상당한 수준을 보여준다.


미드저니로 출력한다면 어떨까?

Cinematic 스타일로 네온 조명 아래의 한국의 20대 여성 모습을 요청했다. 머리스타일도 동일하게 긴 포니테일로 입력했으며 배경에 대한 상세한 묘사는 생략했다.



Midjourney

DallE와 비교하여 디테일한 배경묘사는 다소 부족한 모습을 보이는 것 같지만, 인물에 대한 사실적인 묘사는 몹시 탁월하다. 특히 인공지능이 어려워하는 머리카락 표현이 상당한 수준으로 실제와 유사하다. 삐져나온 잔머리 표현과 주변 광원에 영향을 받는 모습까지 디테일한 묘사하 더해져 더욱 사실적인 느낌을 준다. 특히 옆모습의 경우 눈코입의 비율이 조금만 틀어져도 굉장히 어색한 모습을 보이는데 위 결과물에서는 몹시 정확한 묘사를 하는 것을 알 수 있다.



Midjourney

첫 번째 결과물에 대한 업스케일링을 요청했다. 사진을 확대해서 보면 특히 표면 질감에 대한 묘사가 상세해진 것을 알 수 있다. 다소 뭉개져서 표현되었던 잔머리의 선명도도 올라갔다. V6에서 처음 생성한 이미지의 결과물을 보고서 궁금증이 생겨 몇 차례 더 요청을 하였다.



Midjouney

생성된 사진의 아랫부분을 생성하도록 요청하였다. 별다른 프롬프트는 입력하지 않았고 미드저니에서 제공하는 기본 확장 기능을 사용하였다. 실제와 비교하였을 때 전체적인 신체 비율에 비하여 오른손이 너무 크고 허리는 너무 작은 것이 느껴진다. 상의 뒷부분이 늘어진 것도 후드티를 표현한 느낌이 들지만 후드티로 보이지는 않는다. 그 외에 광원표현이나 텍스쳐 표현은 흠잡기 어려울 정도로 뛰어나다고 평가된다.


이 정도 결과물이면 포토샵을 통한 후처리 이후
상업적 모델 사진으로 활용할 수 있겠다는 생각이 들었다.


다양한 광원과 환경 내에서 각각의 인물을 어떻게 표현해 내는지에 대한 연구가 필요하겠다. 우선, 비슷한 네온 조명 환경의 실내에서의 결과물을 요청하였다. Cinematic 스타일로 네온 조명의 바에 앉아 있는 한국의 20대 여성이 관객을 쳐다보는 장면을 입력하였으며 50mm 렌즈의 아나몰픽 비율을 활용하여 영화관 스크린의 배우가 관객을 눈앞에서 바라보는 것과 같은 장면을 연출하였다.



Midjoureny 기본 결과물
Midjourney 업스케일링. 피부 표면 텍스쳐와 머리카락 묘사가 상세해지고 화면 전체 노이즈가 입혀졌다

이 정도면 실제와 구분하기 힘들다고 말할 수 있지 않을까? 눈에 띄는 이상한 점이라면 여성이 앉아있는 바 위에 놓인 지나치게 많은 각종 시럽 병들. 그리고 실내 한가운데 매달려 있는 거대한 네온사인 정도라고 할 수 있겠다. 굳이 신경 쓰지 않는다면 지나치고 말 디테일들이다.



Midjourney. 배경 확장. 업스케일링.

이전에서 시도했던 것과 마찬가지로 이번에도 배경 확장을 요청하였다. 이번에도 별다른 프롬프트의 입력 없이 단순 확장 기능만 사용하였다. 원본 사진에서는 어깨선에서 화면이 잘려 있고 상단부도 정수리에서 잘려있다. 좌우 폭 역시 아나몰픽 비율에 맞추어 상당 부분 생성된 것을 볼 수 있다. 원본 사진에서 문제점으로 제시되었던 지나치게 많은 시럽 병들과 어색한 네온사인은 확장 결과물에서도 여전히 문제점으로 드러난다. 다만, 이는 더 상세한 프롬프트 요청과 포토샵 Firefly 후처리를 통해 어느 정도 해결 가능하다.


문제는, 여러 번 다른 결과물을 요청하였을 때도 마찬가지로 드러나는 문자 표현이 어색하다는 점. 한국을 배경으로 한다는 프롬프트와 한국어를 사용하라는 프롬프트를 입력해도 일본어처럼 묘사를 한다던가 알 수 없는 중국어로 묘사를 한다. 이는 DallE에서 더 뚜렷하게 나타나는 현상이다. 사전 학습된 수많은 자료에서 일본의 펑크적인 감성이나 홍콩의 감성을 담은 사진의 양이 압도적으로 많았나 보다. 이 문제는 프롬프트의 연구와 Firefly 혹은 DallE의 영역수정 등을 활용한 후처리에 대한 연구가 더 필요해 보인다.



Midjourney. 역시나 배경의 디테일이 떨어지지만 사실적인 인물표현에서 몹시 뛰어나다.








어두운 조명 아래의 동양인 여성 표현에서 의미 있는 수준의 결과물을 보여준다는 것을 알 수 있었다. 이 결과물을 바탕으로 밝은 조명 아래의 중년 흑인 남성을 연출해 보았다. 위에서 연출한 상황과 완전히 정반대의 상황을 요청한 것이다.


Midjourney

Cinematic 스타일의 흰머리 중년 흑인 남성 성직자의 모습을 요청하였다. 카메라 렌즈를 바라보는 구도를 탈피하기 위해 옆모습 연출을 시도하였다. 주변 상황 연출은 Golden Hour의 Side light로 설정하였고 50mm 화각과 1:1 정방형 비율을 설정하여 게임 프로필의 느낌으로 설정하였다.


뛰어난 피부 표현과 심도에 따른 초점 표현이 몹시 상세하다. 주변 광원에 따른 표현 역시 굉장히 자연스럽다. 눈두덩 피부가 동심원 형태로 표현된 점과 머리카락의 심도가 얼굴 심도와 동일한데도 아웃포커싱 처리되는 등 상세하게 뜯어보면 눈에 띄는 한계점들은 여전히 존재한다. 그러나, 단순히 작성된 프롬프트로 생성한 이미지임을 생각해 보면 몹시 뛰어난 결과물을 만들어낸 것임을 알 수 있다.


사람처럼 옷을 입지 않고 피부가 털로 덮인 동물에 대한 표현은 어떨까?



DallE

먼저 달리가 생성한 고양이의 이미지다. 다시 말하지만, DallE 프롬프트에 대한 심도 있는 공부가 더 필요한 상태다. 위 이미지는 단순한 자연어 입력을 통해 만들어낸 결과물이다. 미드저니 역시 쉽게 찾아볼 수 있는 프롬프트를 참고하여 결과물을 요청한 것이므로 단순한 자연어 입력을 통해 만들어낸 DallE 결과물과 비교해 보려는 것이다.


DallE의 고양이 이미지를 보면 손으로 그린 그림이라고 하기에는 털의 표현이 상당히 상세하고 자연스럽다. 눈코입 등의 비율과 구성 역시 크게 어색한 부분은 보이지 않는다. 특히, 갈색 코리안 숏헤어 고양이가 눈을 감고 있는 모습에 대한 요청이나 웃으며 창밖을 바라보는 모습에 대한 요청 사항을 정확하게 이해하고 있는 그대로 표현한 점을 보면 DallE의 자연어 이해 능력과 표현 능력이 몹시 뛰어나다는 것을 알 수 있다.


그러나 여전히 사진보다는 그래픽에 더 가까워 보인다. 지나치게 매끄러운 표면 처리나 다소 과장된 표정 등 보다 애니메이션 캐릭터에 가깝게 표현되었다.


같은 내용의 프롬프트를 활용하여 미드저니에게 출력물을 요청하였다.


먼저 Photo realistic 스타일의 귀여운 갈색 코리안 숏헤어 고양이가 창밖을 바라보고 궁금해하는 표정을 side light 연출로 부드럽게 표현하도록 요청하였다. 50mm 렌즈로 클로즈업 앵글을 연출하여 고양이가 눈앞에 있는 듯 표현하였다.



Midjourney

다소 구체적이지 않은 단순한 프롬프트에 대한 표현은 DallE 못지않게 정확하다고 할 수 있는 수준이다. 오히려 DallE에 비하여 실사 표현에서 비교하기 어려운 수준의 뛰어난 결과물을 보여준다. 하나의 프롬프트에서 네 가지 결과물을 보여주는 점 역시 강점이다. 유사한 구도와 유사한 연출이지만 약간씩 다른 모습의 피사체와 다른 색감의 조명을 활용해 연출한 것이 특이한 점이다. 이 중 마음에 드는 결과물을 업스케일링 해보았다.



Midjourney
Midjourney


특히 놀라운 점은 정말로 실제 고양이를 사진으로 찍은 듯한 표현과 더불어 배경으로 표현된 창문의 모습이다. 창문에 자연스럽게 묻어있는 갖가지 흠집과 지저분한 먼지나 물때를 표현한 점 때문에 더더욱 실제 촬영한 사진인 것 같은 착각을 불러일으킨다. 여기에 더하여 창에 비친 고양이의 모습은 처음 결과물을 볼 때 눈에 띄지 않다가 사진을 하나씩 뜯어보면 갑자기 눈에 보이기 시작하는데, 그만큼 실제 촬영한 사진과의 유사도가 몹시 높다는 것을 의미한다. 이 모든 요소에 대한 자연스러운 광원 처리 역시 압권이다.


이토록 놀라운 결과물을 보여준 미드저니에게 이번에는 침대에 누워있는 귀여운 갈색 코리안 숏헤어를 요청하였다. 침구류의 색이나 방의 구조 등 상세한 설명은 하지 않고 단순하게 입력하였다. 역시 Photo realistic 스타일로 요청하였으며 soft light 조명 연출을 활용하였다.



Midjourney

심도에 대한 구체적인 요청사항이 없었음에도 눈앞에서 접사 촬영을 한 듯 깊은 심도 표현을 보여준다. 위에서 다른 창밖을 바라보는 고양이의 표현과 마찬가지로 유사한 구도에서 서로 다른 색감과 약간씩 다른 모습의 피사체를 표현하였다. 배경에 대한 구체적인 묘사가 없었음에도 실제 사람이 거주하는 방과 침구류의 모습을 놀라울 만큼 자연스럽게 표현하였다.


침구류의 주름이나 블라인드 그림자, 식물의 표현 등 실제 스튜디오 촬영본이라고 해도 손색이 없을 정도이다.


첫 번째 결과물을 업스케일링 해보았다.



Midjourney

이 사진을 고른 이유는 블라인드 그림자로 인한 극적인 조명 표현과 침구류 속에 파묻힌 피사체의 모습에 대한 연출 때문이다. 업스케일링 된 결과물을 보면 털의 표현이 몹시 실제와 같으며 광원 처리 역시 실제와 구분하기 힘든 수준이다. 실제로 결과물을 작업한 후 주변 지인들에게 사진을 뿌렸었는데, 전부 실제 고양이 사진이라고 생각하였다.




아직 알파 버전 --v 6.0



이번 작업에 사용한 미드저니 V6는 아직 알파버전이다. 정식 론칭 전에 실사용할 수 있도록 공개한 상태이다. 아직 알파 버전인 미드저니 V6가 만들어낸 위와 같은 결과물들을 보면 실로 충격적이다. 최근 V6와 함께 cref 파라미터가 추가되어 생성 AI를 연구하는 수많은 사람들을 흥분시키고 있다. '--cref'가 바로 많은 생성 AI를 상업적으로 활용하기 어려웠던 점인 '일관적인 이미지 생성'을 단숨에 해결할 수 있는 파라미터이기 때문이다.


여러 번의 프롬프트 작성 시도 끝에 원하는 모델의 이미지가 생성되었다면 이 이미지를 참조하여 추가적인 이미지를 생성할 수 있게 되었다. 기존에 활용되던 미드저니의 결합 이미지 생성 기능과 '--sref' 등의 참조 기능을 활용하여 이미지 생성에 대한 프롬프트 작성자의 통제권을 크게 향상시킬 수 있다. 심지어 잘 만든 실제 모델 사진을 참조하여 수 없이 많은 모델 결과물을 손쉽게 재창조할 수 있게 되었다.


미드저니가 등장하여 전에 없던 창의적인 작품들이 탄생하고 다양한 상업적 결과물로서 활용되기 시작한 지 불과 1~2년의 시간밖에 흐르지 않았다. ChatGPT 등 자연어 처리 기술의 전광석화 같은 발전 속도와 함께 생성 AI의 발전 속도 역시 예측할 수 없이 빨라지고 있다. 일각에서는 인공지능을 활용한 결과물에 대한 저작권과 관련한 논의도 활발하게 이루어지고 있다.


광학 카메라가 처음 등장한 르네상스 후기 유럽 사회에서 수많은 화가와 미술 학도들은 아마도 더 이상 실사와 같은 표현이 주목받기 힘들 거라는 생각을 했을 것이다. 그리고 실제 역사는 극사실주의 혹은 인사주의적 표현 기법이 각광받던 시대에서 추상적이거나 대중 매체를 활용한 철학적인 표현 기법이 각광받는 시대로 넘어갔다.


생성 AI의 발전은 멈출 수 없는 산업의 흐름이다. 현대사회의 광학 카메라가 되어버린 생성 AI가 주도하게 될 앞으로의 시대에서 디자인과 예술, 그리고 여타 많은 산업들에 아주 큰 변화가 찾아올 것은 분명한 사실이다. 인공지능을 잘 활용하고 자신의 속한 산업 분야에 적용할 수 있는 능력을 기른 사람들을 짧은 시간 내에 높은 수요를 충족시킬 수 있는 인재로 거듭날 것이다.


인공지능은 우리를 위협하는 존재가 아닌, 현대 산업 생태계를 매우 빠른 속도로 '업그레이드'할 수 있도록 도와주는 존재라는 생각이 드는 요즘이다.






https://brunch.co.kr/@parcyun/21


작가의 이전글 자동차 페달 속 UX
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari