[cref 인물 일관성 유지] 가상 인물 모델 개발하기
미드저니 v 6.0 모델의 업데이트로 이전보다 훨씬 실사와 같은 이미지를 생성할 수 있게 되었다. 실제 사용해 본 결과 '실사와 같은' 이미지보다는 '실사와 구별하기 어려운 수준의' 이미지가 생성되었다.
사람은 특히나 매일 보는 인물 혹은 동물의 이미지를 몹시 잘 구별해 낸다. 그 특징이나 묘사가 조금만 어색하거나 달라도 '다르다' 라고 느낀다. 매일 보는 사물들이기 때문에 더 세세한 특징에 관심을 가질 수 있기 때문일 것이다.
이번 v 6.0 모델이 생성한 이미지들은 업스케일링을 거친 후에도 전혀 어색함을 찾을 수 없는 수준이라고 판단하였다. 1년 전에 미드저니와 달리를 사용해 봤을 때의 경험에 비추어 보았을 때, 지금은 전혀 다른 툴이 되어있다고 말해도 과언이 아니다. cref 파라미터의 등장과 함께 더욱 강력해진 미드저니는 기존보다 한 단계 더 뛰어난 이미지 생성 AI가 되었다.
실제 산업 현장에서도 이미지 생성 AI를 활용한 상업적 시도가 활발히 이루어지고 있다. 인물 이미지를 활용해 광고 포스터를 제작하기도 하고, Stable Diffusion의 섬세한 컨트롤 기능을 활용해 가상의 인플루언서를 만들기도 한다. 말을 아주 잘 알아듣는 달리를 활용해 산업에 필요한 가상의 이미지들을 만들어내기도 한다.
생성 AI를 활용해 많은 연구를 진행 중인 분들의 작업물들을 살펴보고 그 작업과정의 이야기를 듣다 보면 아직은 한두 번의 프롬프트 작성으로 완벽한 결과물을 만들어내기는 어렵다. AI가 등장했다고 하더라도 그 작업물을 바탕으로 포토샵 등 기존에 디자이너들이 사용하던 디자인 툴을 활용하는 일은 필수이다.
생성 AI를 어떤 형태로 활용해야 하는지에 대한 연구가 중요하다.
많은 사진가들과 모델들을 활용해 직접 사진을 찍거나, 실제 제품의 목업을 제작하여 사진이나 영상을 찍거나 혹은 실제 현장을 방문하여 원하는 결과물이 나올 때까지 위치를 옮겨가며 사진을 찍고 기록을 하는 등 기존 산업 생태계에서 많은 인력과 비용이 들었던 기초 작업 과정을 AI가 완벽하게 대체해 나가고 있다. 생성 AI 무작위성을 바탕으로 인간의 마지막 보루로 여겨졌던 창의성의 영역도 대체되고 있다.
1인 기업/디자이너 혹은 소자본 기업도 생성 AI를 활용해 높은 접근성을 획득할 수 있게 되었다. 생성 AI를 어떻게 사용해야 할지 그 방법에 대한 연구가 몹시도 중요해진 시점이다.
미드저니의 강력한 v 6.0 이미지 생성 모델을 활용하여 직접 가상 인물 모델을 개발해보려고 한다. 간단한 프롬프트를 작성하여 다수의 모델을 먼저 생성해 본다. 이번에 생성할 모델에서 표현하고자 하는 특징은 다음과 같다.
히피펌 스타일의 긴 머리
볼과 코 주변에 주근깨
20대 아시아 여성
위 세 가지 특징에 대한 묘사만 입력한 뒤 프롬프트를 작성하였다. 나머지는 미드저니의 무작위성에 의존하여 이미지 생성을 요청하였다.
상당히 자연스러운 모습의 이미지들이 생성되었다. 조명은 soft light 외에 따로 설정한 것이 없었다. 대부분 따뜻한 색감의 이미지를 만들어주었지만 일부 차가운 색감의 이미지가 생성되었다.
원하는 이미지를 두 장 선택하여 프로필 사진을 만들기 위해 이미지 확장을 요청하였다. 추가적인 프롬프트의 입력 없이 미드저니가 기본 제공하는 확장 기능으로 만든 이미지들이다.
요청하지 않은 스타일의 옷을 입고 있으며 머리카락 등이 과도하게 아웃포커싱 되는 등 프로필 이미지로써는 다소 적합하지 않은 디테일들이 눈에 띈다. 그러나 자연스러운 모델 이미지 촬영이라는 측면에서 본다면 뛰어난 결과물을 보여주고 있다고 생각할 수 있다.
이 이미지들을 바탕으로 포즈를 취하거나, 옷을 바꿔 입거나, 장소를 바꾸는 등의 연출을 요청해 보았다.
원본 모델의 이미지를 유지하며 새로운 이미지를 생성할 수 있게 하는 파라미터인 cref를 활용하였다. 원본 캐릭터를 참조한다는 의미인 'Character Reference'의 줄임말인 듯하다. cref 파라미터와 함께 cw 파라미터도 업데이트되었다. 'Character Weight'의 줄임말인 듯한 이 파라미터는 말 그대로 원본 캐릭터의 비중을 얼마큼 중요하게 반영할지를 설정하는 파라미터이다. cw 값이 낮을수록 원본과 멀어진다.
먼저 cw 값을 따로 설정하지 않고 웃는 얼굴의 생성을 요청하였다.
원본 사진의 색감과 분위는 온데간데없고 쌍꺼풀의 모양 등 세밀한 묘사가 완전히 틀어지는 모습이다. 여러 번 다시 생성하여 비슷한 느낌의 외모를 찾는 방식의 작업이 필요하다. 색감, 의류, 배경 등의 요소는 하나씩 추가하여야 한다.
원본 사진을 바탕으로 한 간단한 운동복 홍보 이미지를 요청하였다. 카메라 앵글, 화각, 배경 등의 상세 요소를 전혀 입력하지 않고 미드저니의 무작위성에만 의존하여 생성하였다. 상당히 자연스러운 이미지가 생성되었다.
그러나, 원본 이미지를 참고하여 생성한 이미지라고 보기 힘들 만큼 외모의 특징이 많이 달라져있다. 주근깨가 사라졌으며 이미지마다 얼굴의 윤곽과 눈의 모양 등 많은 부분들이 달라져 같은 사람이라고 보기 힘들다.
프로필로 생성한 모델과의 상세 외모 특성이 몹시 유사해야 유의미한 결과를 얻을 수 있다. 원본과의 일관성을 유지하는 데 도움을 줄 수 있는 cw 파라미터를 추가로 활용하여 이미지를 생성해 보았다.
이미지를 생성할 때 원본의 중요도를 설정하는 --iw 라는 파라미터가 있다. 이미지를 링크하고 텍스트 프롬프트를 입력할 때 사용하는 데, 아마도 'image weight'의 줄임말일 듯하다. 이미지에 더 중점을 두느냐 혹은 텍스트에 더 중점을 두느냐 설정하는 파라미터인데 설정값에 따라 이미지의 표현이 완전히 바뀐다.
cw 파라미터 역시 비슷한 개념으로 생각하여 적용해 보았다. 먼저, 위에서 원본 이미지를 활용하여 웃는 얼굴을 생성한 이미지가 있다.
cw값을 입력하지 않고 생성한 이미지이다. 이 이미지는 프롬프트를 입력할 때 white tshirts를 작성하였음에도 불구하고 원본 이미지의 주름 있는 드레스가 그대로 유지되었다. 원본 이미지 없이 프롬프트만 입력하였을 때의 결과물과 링크된 원본 이미지를 blend 하는 듯한 느낌인데 가중치가 원본 이미지에 많이 쏠려있도록 설정된 것 같다.
만약 cw 값을 극단적으로 낮춰 이미지에 대한 중요도를 줄이면 어떻게 될까? 프롬프트의 내용이 잘 반영되도록 적정한 cw 값을 찾는 작업이 필요하다.
cw값을 0으로 입력하고 생성하였더니 white tshirts는 정확하게 반영이 되었지만 모델의 성별이 모호하게 묘사되었다. 여자 모델이라는 프롬프트가 없이 id card profile photo라고만 입력했다. 남자 모델이라고 보일 정도의 수준까지 이미지가 다르게 생성된 것은 상당히 당황스러웠다.
여자 모델이라는 내용을 추가하여 프롬프트를 약간 수정하여 다시 요청하였다. cw 값은 0.
프롬프트를 수정해서인지 이전의 결과물보다는 훨씬 개선되었다. 어느 정도 외모적인 유사성도 보인다. 그러나 여전히 네 인물을 동시에 바라보면 서로 다른 사람이라는 느낌이 강하다. 원본 이미지의 비중을 조금 더 올려줄 필요가 있어 보인다.
cw 값 30. 이전 이미지에 비하여 확실히 외모의 유사성이 더 높게 표현되었다. White tshirts와 blue jeans, 그리고 white sneakers까지 정확하게 표현되었다. cw 값이 없을 때 주름진 드레스를 계속해서 표현하던 것과는 다른 결과다. cw 는 0 부터 100까지 입력할 수 있다. 드레스의 주름과 노란 색감의 분위기가 너무 강하게 반영되는 것 같아서 30을 적용하였더니 적절한 결과물이 나온 것 같다.
cw 값 30. 이번에는 배경을 추가하여 생성해 보았다. 기대 이상의 훌륭한 결과물을 보여주고 있다. 그러나 원본 사진의 드레스 때문인지 white tshirts가 상당히 어색한 모습을 띄고 있다. 원본 프로필 모델을 가능한 기본적인 모습으로 생성해야 할 필요성이 있다. (편향성 제거)
cw 값 30. 배경을 지우고 최대한 깔끔하게 모델 이미지를 생성하도록 요청하였다. 표현해야 하는 개체가 명확해지고 배경이 삭제되어서인지 훨씬 더 사실적이고 자연스러운 묘사가 나타났다. 여전히 일부 드레스의 모습이 반영된 white tshirts가 눈에 띈다.
두 모델 이미지를 확장해 보았다. 초창기 생성 AI가 손가락 묘사를 할 때 나타났던 문제점이 신발을 표현할 때 똑같이 보이고 있다. 멀리서 보면 자연스러워 보이지만 확대해서 보면 신발 끈 부분이 굉장히 이상하게 묘사되어 있다. 일부 손가락도 여전히 여섯 개로 표현되기도 하며 다리가 세 개로 표현되는 등 부자연스러운 모습들이 남아있다.
배경 제거
가능한 다른 영향을 미치지 않는 묘사 (편향성 제거)
단순한 프롬프트에서부터 빌드업
인물의 외형을 다각도로 제작하여 반영
cref와 cw 파라미터를 사용해보면서 가상 인물 모델을 생성할 때 취해야할 전략에 대한 힌트를 얻을 수 있었다. 위와 같은 데이터를 바탕으로 원본 인물 이미지를 생성해보겠다.
<다음 글에서 계속>
https://brunch.co.kr/@parcyun/23