글로 하는 포토샵

더 이상 마스크 따는 고생을 할 필요가 없다는데요...?

by 폴짝

(*이미지 출처: 원본 이미지 by 폴짝, 나머지 Gemini 생성)


이미 조금 지난 일이고, 또 제 브런치가 주로 조울증과 관련된 이야기를 쓰는 공간이라서 뜬금없을 수는 있겠는데요... 지난번에 브런치북으로 인공지능 초보 입문기를 쓰기도 했고, 마침 AI와 관련하여 신박한 것을 발견하여 포스팅해 봅니다.


원래 '나노 바나나'라는 프로젝트 명으로 구글이 테스트하던 인공지능 이미지 처리 엔진(?)이, 최근 Gemini(구글에서 서비스하는 인공지능) 2.5 Flash 버전에 들어왔다는 소식을 들었습니다.


처음에는 그런가 보다, 하고 시큰둥했습니다. 그런데 제가 팔로우하는 페이스북 지인이 "나노 바나나 때문에 포토샵이 없어지지 않을 이유'라는 글을 올렸더군요. 그런데 글 내용을 읽어보니, 사실상 포토샵에서 할 수 있는 작업들 중 상당수를, 이제는 마우스 필요 없이 '글'로(채팅하는 방식으로) 할 수 있다는 뜻이나 마찬가지였습니다.


그래서 호기심이 생겼고, 제가 실험해 본 간단한 경우를 하나 올려 봅니다.




먼저 Gemini를 열고, 직접 찍은 사진을 올렸습니다:

원본 사진


제 책상이 배경이라 뭔가 너저분하지요? 그래서 다음과 같은 명령을 입력했습니다.

나:
이 사진에서 위스키 병과 술잔만 남겨두고 나머지 영역을 모두 지워 줘.

Gemini:
네, 알겠습니다. 이 사진에서 위스키 병과 술잔만 남겨두고 나머지 모든 영역을 지워서 깔끔한 결과물을 만들어 드리겠습니다.


그리고 다음과 같은 이미지가 나왔습니다:

마스크를 딴 이미지 (투명도도 적용되어 있음)


이제 준비가 되었으니 배경을 추가해 보았습니다.

나:
이제 배경으로 두 가지를 채워 줘:
1. 나뭇결이 보이는 근사한 Bar
2. 여러 병들이 아름답게 놓여 있는 벽면
(* 위 1, 2의 배경을 그릴 때, 위스키 병과 술잔의 투병한 유리 부분과 위스키 액체에도 배경이 굴절되어 보일 것)

Gemini:
알겠습니다! 위스키 병과 술잔은 그대로 유지한 채, 배경을 다음과 같이 채워드리겠습니다.
1. 나뭇결이 보이는 근사한 Bar 상판: 위스키 병과 술잔이 놓여 있는 바닥 부분을 고급스러운 나뭇결 바 카운터로 만듭니다.
2. 아름답게 놓인 여러 술병들이 있는 벽면: 뒤쪽 배경으로는 다양한 술병들이 보기 좋게 진열된 벽면을 배치합니다.
그리고 가장 중요한 부분! 위스키 병과 술잔의 투명한 유리 부분, 그리고 위스키 액체에 새로 추가되는 배경(바닥과 벽면의 술병들)이 자연스럽게 굴절되어 보이도록 정교하게 표현해 드리겠습니다.


결과물은 다음과 같습니다:

배경과 굴절 효과 추가


예상보다 이미지의 퀄리티가 무척 높았습니다(!). 특히 요청한 대로 유리병과 위스키 액체에 배경이 굴절된 것까지 자연스럽게 표현한 것을 보고 좀 어이가 없을 정도였습니다.


바 배경에 아무도 없으니 조금 심심해 보여서, 마지막으로 한 가지 요소만 더 추가했습니다.

나:
마지막 이미지에, 전문적인 복장을 갖춘 여성 바텐더를 바와 술장 사이에 추가로 배치해 줄 수 있어? 그리고 위스키 병은 여성 바텐더를 가리지 않도록 조금 왼쪽으로 배치해서 다시 그려줬으면 좋겠어.

Gemini:
말씀하신 대로, 여성 바텐더를 가리지 않도록 위스키 병을 조금 더 왼쪽으로 배치하여 이미지를 생성해 드리겠습니다. 술잔과 배경은 그대로 유지됩니다.


마지막 이미지입니다(비교를 위해 첫 이미지를 함께 배치했습니다.):

최종 이미지
원본 이미지

자세히 보면 아시겠지만, 술병과 술잔의 각도가 약간 달라져 있습니다. 그림자와 색조도 배경과 어울리게 조정되어 있고요. Gemini가 이미지를 편집하는 과정에서 단순히 마스크를 따고 합성만 하는 게 아니라, 필요한 경우 이미지를 조정하기도 한다는 사실을 알 수 있습니다.




총평


저는 기존에 ChatGPT로 이미지 생성만, 그것도 가끔 하는 정도였을 뿐이라, Midjourney 등과 같은 본격적인 인공지능 이미지 생성 툴에 관해서는 잘 모르긴 합니다. 그래도 구글의 Gemini에 새로 들어온 이 이미지 생성/편집 툴은 매우 강력하다는 인상을 몇 번 테스트해 보고 바로 느꼈습니다.



장점:


1. 사용자의 요청에 대해 상당히 정확한 결과물을 내놓습니다. 특히 원본이 있는 이미지를 편집해야 하는 경우 무척 정확한 결과를 보여줍니다(예를 들어, 다른 툴에서는 위와 같이 위스키 병을 편집하는 과정에서 글자 등이 뭉개지거나 병의 형태가 왜곡되는 경우가 많았는데, 나노 바나나는 그런 일이 거의 없었던 것 같습니다.).


2. 레퍼런스 이미지를 올리는 경우, 이미지 생성의 결과가 훨씬 좋아집니다.


3. 단순히 마스킹을 하고 간단한 편집을 하는 것에 그치지 않고, 인공지능만이 해 줄 수 있는(예: 위의 굴절효과, 병과 잔의 각도 수정 등) 기능도 함께 구현됩니다. 또한, 이 과정에서 원본 이미지가 왜곡되는 정도가 적습니다.


4. 위 1~3에 공통으로 해당하는 점인데, Gemini의 나노 바나나는 사용자가 통제하기가 훨씬 쉽다는 점입니다. 다른 인공지능이 상대적으로 '독창적'이지만 '제멋대로인' 결과물을 냈다면, 나노 바나나는 그런 결점을 상당히 보완한 것으로 보입니다.


5. 체감상 이미지를 생성, 편집하는 데 걸리는 시간이 ChatGPT보다 조금 짧은 것 같습니다.



단점:


1. 이미지 편집 기능은 강력하지만, 레퍼런스 없는 새로운 이미지 생성 시 엉뚱한 이미지를 만들어 내는 현상은 ChatGPT와 비슷합니다.


2. 글로 표현할 때(예를 들면, 위에서 제가 마스크를 따는 과정에서), 아주 구체적으로 표현해야만 원하는 결과를 내놓는 일이 종종 있었습니다(혹은 반대로, 알아서 하도록 아주 단순하게 요청해야 더 좋은 결과가 나오기도 함). 따라서 '어떤 식으로 요청해야 하는지'를 익히기까지 상당히 많은 시행착오가 필요해 보입니다.




...그렇다고 합니다.

그러니 여러분도 한 번 Gemini에 들어가서, 이런저런 실험을 해 보신다면 어떨까요?

keyword