학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 일부 문장은 삭제했습니다. 이번에는 Thomas Smith가 미디엄에 올린 글을 정리한 것입니다.
"Midjourney 6로 웹사이트는 AI 이미지에 의존할 수 있다"
대형 독립 온라인 퍼블리셔가 나에게 한 이 말은 사진 업계에 종사하는 모든 사람 마음을 두렵게 만들 것이다.
나도 이 퍼블리셔의 말에 동의한다. Midjourney 버전 6을 사용하는 것이 처음에는 혁신적으로 느껴지지 않지만 자세히 들여다보면 AI가 생성한 이미지에 있어 엄청난 진전이라는 것을 깨닫게 된다.
특정 종류 사진들의 경우, Midjourney가 만든 결과물은 실제로 인간 사진작가 필요성을 없애준다. 그 이유와 사진가들이 어떻게 적응해야 하는지 알아보자.
DALL-E와 Midjourney와 같은 이미지 생성 AI는 놀랍도록 짧은 시간에 놀라울 정도로 강력해졌다. 나는 2019년 업계 단체인 디지털 미디어 라이선싱 협회(DMLA) 컨퍼런스에 참석했던 기억이 아직도 생생하다. DMLA는 IBM과 Microsoft와 같은 AI에 중점을 둔 대기업 전문가들을 초청해 당시 가장 뜨거운 AI 주제인 이미지 속 객체에 대한 자동 태그 지정에 대해 얘기했다.
전문가들은 실제로 그 주제를 다뤘다. 하지만 마리나 델 레이의 매리어트 호텔 옥상 선데크에서 점심 식사를 하는 동안 AI 패널리스트 중 4명이 함께 앉기로 했고 나도 따라가서 이야기를 들었다. 이들 AI 연구자들과 실무자들은 자연스럽게 대화를 나누면서 이미지 태깅은 멋지지만 몇 년만 지나면 몇 문장의 텍스트를 기반으로 새로운 이미지를 생성할 것이란데 동의했다.
당시만 해도 이는 터무니없어 보였다. AI 이미지 생성은 이제 막 걸음마를 시작한 초기 단계였다. OpenAI가 DALL-E 첫 번째 버전을 출시하기까지는 아직 2년이 더 남았고 당시에도 생성AI 초기 결과물은 그렇게 인상적이지 않았다. 사진 작가로서 2021년에 나온 이와 같은 AI 이미지 예시를 보고 "아니, 당분간은 인간을 대체할 수 없을 거야"라고 생각하기 쉬웠다.
물론 전문가들의 예상은 완전히 옳았다. 불과 몇 년 만에 이미지 생성AI는 디테일, 사실성, 시각적 효과 면에서 실제 사진에 버금가는 이미지를 생성하며 급성장했다. 특정 유형 이미지의 경우 그 발전이 훨씬 더 놀랍다. 초기 이미지 생성 AI는 사실적인 얼굴 클로즈업 이미지를 만드는 데는 능숙했지만, 자연스럽고 설득력 있는 복잡한 사람 이미지를 만드는 데는 어려움을 겪었다.
2022년 출시된 Midjourney V1에서 2023년 말 최신 버전인 Midjourney V5.1까지 사람 중심 이미지 발전 과정을 간단히 살펴보면 이러한 이미지가 얼마나 빠르게, 그리고 얼마나 멀리 발전했는지 알 수 있다.
그렇게 사실적이지 않은
하지만 빠른 발전에도 불구하고 Midjourney V5.1 이미지는 완벽하지 않았고, 사용성도 매우 떨어졌다. 현실과 비슷해 보이지만 중요한 디테일이 누락된 경우들이 많았다. 예를 들어 5.1 버전은 손을 사실적으로 렌더링하지 못했다. AI가 생성한 이미지에는 손가락이 6개인 사람, 손가락이 4개인 사람 또는 손가락이 전혀 없는 사람들이 종종 표시됐다.
5.1 버전은 강력한 성능에도 불구하고 다소 만화 같은 이미지도 생성했다. 5.1 버전으로 만든 이 이미지에는사람들 손가락 수가 잘못 표시되어 있고, 주먹을 쥔 주먹 바로 아래에 이상한 보너스 손톱이 떠 있다. 손 자체도 너무 매끈해서 실제 사람 피부라기보다는 손을 그린 것처럼 보인다. 마찬가지로 법적 사건을 조사하는 변호사 사진은 피부가 벨벳처럼 부드럽고 애니메이션처럼 보이며 지나치게 드라마틱한 미학을 갖고 있다. 다시 말해, 이들 이미지는 잠시 동안은 진짜라고 생각할 수 있을 만큼 멋지게 보인다. 하지만 잠시만 지나면 뭔가 잘못되었다는 것을 알 수 있다. 오히려 단순한 일러스트레이션이나 클립아트 이미지보다 더 나쁘게 보이기도 한다.
언캐니 밸리에서 벗어나기
사실적인 표현에 가까워지지만 부족해 보이는 것은 추상적인 표현을 고수하는 것보다 더 소름 끼친다. 손가락이 부유하는 반실제적인 손은 손가락 숫자가 정확한 만화 같은 손보다 훨씬 더 나빠 보인다. 요컨대, 미드저니 5.1 이미지는 종종 악명 높은 "언캐니 밸리"(uncanny valley, 인간과 비슷해 보이는 로봇을 보면 생기는 불안감, 혐오감, 및 두려움)에 빠지곤 했다.
언캐니 밸리는 원래 1970년대에 인간과 유사한 로봇에 대한 인간의 반응을 설명하기 위해 만들어진 용어다.
개념은 간단하다. 인간은 인간처럼 보이는 물체에 점점 더 친밀감을 느낀다. 하지만 어느 순간, 그 대상이 거의 실제와 비슷해 보이지만 실제는 아닐 때, 그 대상에 대한 우리 애정은 갑자기 절벽 아래로 떨어진다.
과장되고 양식화된 특징을 가진 인간과 같은 물체는 친근하고 사랑스럽게 느껴진다. 위험할 정도로 사람에 가까워 지면 섬뜩한 느낌을 준다. 하지만 언캐니 밸리에서 가장 흥미로운 점은 탈출구가 명확하다는 점이다. 인간이 아닌 물체의 사실감이 조금만 더 높아지면 우리는 다시 그 물체를 좋아하게 된다. 오늘날 가장 사실적인 애니메이션 영화에 등장하는 소중하고 인간적인 캐릭터들을 생각해 보라.
미드저니 뜬다
미드저니 5.1이 언캐니 밸리 깊은 곳에 갇혀 있었다면, 미드저니 6는 그 계곡에서 극적으로 올라온다. 다시 말하지만, 5.1과 6 이미지 차이는 처음에는 미묘하게 느껴질 수 있으며, 특히 추상적이거나 예술적인 프롬프트의 경우 더욱 그렇다. 두 시스템에 수프 한 그릇 사진을 만들어 달라고 요청하면 두 시스템 모두 훌륭한 작업을 수행할 것이다.
하지만 두 시스템에 사람들이 실제로 구매하고 사용하는 이미지, 즉 사람들에게 동경의 대상이 되는 이미지를 생성하도록 요청하면 결과는 극적으로 달라진다. 변호사 이미지는 훨씬 더 드라마틱하다. 5.1 버전의 애니메이션 같은 화질은 완전히 사라졌다. 대신 99% 시청자가 진짜로 착각할 수 있는 이미지가 생겼다.
미드저니 V6의 이미지는 실제 이미지보다 조금 더 좋아 보인다. 잘생긴 변호사인 척하는 변호사는 정말 잘생겼다! 완벽하게 빗어 넘긴 머리와 매끄러운 피부는 숙련된 메이크업 부서 도움 없이는 실제 사진 촬영에서 구현하기 어려울 것이다.
V5.1 이미지 배경이 호그와트처럼 보였던 반면, V6 이미지 배경은 두툼해 보이는 법전을 세련되고 흐릿하게 처리했다. 이 이미지가 로스쿨 안내 책자에 있었다면 아마 로스쿨에 가고 싶은 충동을 느낄 것이다. 실제로 광고 캠페인에 Midjourney V6 이미지를 사용한 실험을 통해 내가 발견한 것은 바로 이 점이었다. Midjourney의 열망을 불러일으키는 사람 이미지가 실제 사람의 이미지보다 전환율이 더 높았다. 고객들은 이 이미지에 만족하고 있다.
준비하기
이는 인물 사진을 만드는 것으로 생계를 유지하는 사람들에게는 큰 문제다. 모델을 고용하고, 법률 도서관을 빌리거나 스튜디오에 가짜 도서관을 만들고, 의상을 구입하고, 적절한 조명을 설치하고, 프로 카메라 장비를 구입하는 데는 비용이 많이 들고 몇 주가 걸린다. AI로 가짜 변호사를 만드는 데는 비용이 전혀 들지 않고 15초 정도면 충분하다. 비용이 많이 들고 노동 집약적인 사진 촬영과 AI 중 하나를 선택해야 한다면, 스톡 이미지를 찾는 대부분의 고객은 후자를 선택할 것이다.
이전에는 Midjourney의 미묘한 오류로 인해 사람이 중심이 된 이미지를 사용할 수 없었다. 지금은 완벽하지는 않지만 충분하다. 그리고 상업적인 공간에서는 '충분하다'는 것이 항상 승리한다.
그렇다면 이는 사진작가들에게 어떤 의미일까? 배우와 세트를 사용한 무대 스톡 사진을 제작하거나 판매하는 것이 경력의 전부라면 비즈니스 모델을 재평가해야 할 때다. 현재로서는 게이머 중심 채팅 앱을 다운로드하고 이미지로 응답하는 봇에 커맨드라인 메시지를 보내야 하는 불안정한 인터페이스가 Midjourney의 발목을 잡고 있고 있다.
하지만 시스템의 기술적 장애물이 사라지고 DALL-E와 같은 사용자 친화적인 이미지 생성AI가 발전함에 따라 V6 이미지와 같은 이미지를 어디서나 볼 수 있게 될 것이다. 분명한 것은 이것이 상업 사진의 종말을 의미하는 것은 아니지만 변화를 의미한다. 내가 예상하는 변화는 다음과 같다.
기존 스톡 스타일 이미지의 가격은 0달러를 향한 긴 행진을 계속할 것이다.
전환율을 고려할 때, 광고주들은 AI 이미지 활용에 더욱 관심을 기울일 것이다.
신문, 잡지 및 많은 책들에서 사용되는 에디토리얼 이미지 가치가 급증할 것이다. 이러한 이미지는 나처럼 진실성과 정확성에 대한 엄격한 규칙을 따르는 사진작가들이 촬영한다. 가짜 AI 이미지가 넘쳐나는 세상에서 편집 사진의 진품성은 특정 유형의 고객에게 더욱 인기 있는 상품이 될 것이다.
일부 브랜드는 AI를 도입하지 않기 때문에 사람이 만든 상업용 스톡 이미지에 대한 틈새 시장은 계속 존재할 것이다. 하지만 그 틈새 시장은 규모가 작을 것이며, 유명 사진작가나 브랜드와 깊은 관계를 맺고 있는 사진작가들이 주도하게 될 것이다.
현실 세계에서 특정 이벤트를 촬영한 사진은 여전히 가치가 있을 것이며, 심지어 가치가 더 높아질 수도 있다. 인공지능으로 생성된 웨딩 사진을 원하는 사람은 아무도 없다. 이벤트 사진가들은 한숨을 돌릴 수 있다.
이미지 생성AI는 놀라울 정도로 짧은 시간 동안 비약적으로 발전했지만, 미묘한 실수로 인해 실제 영향력이 제한적이었다. 오늘날 이들시스템은 아보카도 의자나 멋진 변호사처럼 언캐니밸리에서 빠져나오고 있다. 사진은 예전과 같지 않을 것이다.