brunch

매거진 34th BITors

You can make anything
by writing

C.S.Lewis

파리에 가지 않아도 에펠 탑에서 사진을 찍을 수 있다?

연세대 경영혁신학회 33기 김민재

출처 : 구글 홈페이지

위의 사진은, 내가 키우는 강아지와 함께 파리에 가 에펠 탑 앞에서 사진을 찍은 것도, 여행중 잠시 선글라스를 벗어 에펠 탑 앞 카페 테이블에 놓고 사진 찍은 것도 아니다. 직접 찍은 사진이 아니라면, 합성으로 에펠 탑 배경을 편집한 사진인 것일까? 아니다. 우리집 강아지와 내 선글라스 사진을 가져와서 교묘하게 편집을 해 마치 에펠 탑에 놀러 온 듯한 것처럼 만든 사진도 아니라는 것이다. 놀랍게도, 위의 사진들은 <구글 Dream Booth>란 인공지능(AI)가 생성한 이미지이다. 



구글 Dream Booth란 무엇인가?


2022년 5월, 구글은 텍스트 입력을 기반으로 사실적인 이미지를 생성하는 텍스트-이미지 확산 모델, <IMAGEN>을 공개했다. 그리고 몇 달 뒤인 9월, 구글은 <IMAGEN>을 토대로 <Dream Booth>를 공개했는데, 이는 <IMAGEN>의 기존 텍스트 입력 방식에 더해 사용자가 특정 개체(이미지)를 입력하면, 그 입력된 개체를 자체적으로 AI가 이해하고, 텍스트와 개체 이미지 모두를 기반으로 보다 다양한 형태의 이미지를 도출하는 텍스트-이미지 생성 모델이다. 이처럼 기존에 학습된 모델에 추가적으로 새로운 데이터 셋(이미지)을 학습하도록 해 처음부터 모델을 학습시킬 필요 없이 빠르게 결과물을 도출하는 미세조정(fine-tuning) 방식을 택함으로써, <Dream Booth>는 기존 텍스트-이미지 확산 모델의 한계를 보완함과 동시에 생성 이미지의 품질을 효율적으로 관리했다.


기존 구글 자사의 <IMAGEN> 뿐만 아니라 <DALL-E2> 등 경쟁사 다수의 확산모델의 경우, 입력된 텍스트에 따라 고품질의 다양한 이미지를 생성하는 데에 있어서는 상향 평준화된 모습을 보였다. 하지만 기존 확산모델들은, 수용하는 데이터 셋의 종류에 따른 명확한 한계점이 존재했다. 예를 들어, ‘점박이 개’와 같은 개체의 유형만을 텍스트 입력 값으로 다루기 때문에 도출되는 이미지는 사용자가 원하는 특수한 개체(예. 눈 주위에 타원형 점박이가 있는 ‘우리집’ 강아지)를 일부 모방한 일반화된 형태(예. 달마시안 강아지)였을 뿐, 사용자 맞춤 이미지와는 괴리가 존재할 수 밖에 없었다. 


반면 <Dream Booth>는, 기존 <IMAGEN>이 다뤘던 ‘점박이 개’와 같이 텍스트화 된 개체유형 뿐 아니라, 사용자가 도출하기 원하는 고유한 개체(예. 눈 주위에 타원형 점박이가 있는 우리집 강아지)의 이미지 자체를 입력 값으로 받는다. 


출처 : 구글 홈페이지

구글 <Dream Booth>에는 사진을 입력하는 Input Images란과 텍스트를 입력하는 Class Name 란이 존재한다. 예를 들면, Input Images 란에는 내가 키우는 ‘눈 주위에 타원형 점박이가 있는 우리집 강아지’의 사진을 업로드하고, Class Name란에는 ‘우리집 강아지’의 상위 개념인 ‘점박이 개’를 기입하는 것이다. 기입된 Input Images와 Class Name의 값에 따라, <IMAGEN>을 미세조정한 <Dream Booth>의 AI는 Class Name, 즉 상위 개념인 ‘점박이 개’의 특성과 Input Images, ‘우리집 강아지’의 특성을 지속적으로 합치고 추론하는 과정을 거쳐 상위 개념인 ‘점박이 개’의 특징을 유지하되 ‘우리집 강아지’의 얼굴 및 특징이 그대로 반영된 사진을 여럿 재현해 낼 수 있는 것이다.



구글 Dream Booth의 핵심가치와 그 양면성


이처럼 구글 <Dream Booth>는, 3-5장의 한정된 수량 그리고 제한된 구도의 Input Images로 기존의 확산모델들과 달리 피사체의 사실적인 사진을 여러 각도에서 묘사할 수 있다는 차별점이 존재한다. 예시로 든 ‘강아지’ 뿐만 아니라, 본인의 얼굴, 심지어는 아트웍을 입력해도 여러 카메라 각도에서 해당 피사체를 묘사한 사진을 도출할 수 있다. 즉, 사실 혹은 사용자가 원하는 피사체에 입각한 이미지의 재 맥락화가 가능하다는 점이 구글 <Dream Booth>의 핵심가치이다. 


하지만, 그 핵심가치의 양면으로는 구글 <Dream Booth>만의 고유한 한계점 역시 존재한다. 아직 Input images에 대한 구글 <Dream Booth>의 학습 능력이 부족하기 때문이다. 현재 구글 <Dream Booth>는 최대 120 장의 사진 까지만 처리할 수 있으며, 비슷한 배경 혹은 비슷한 각도의 사진을 여러 장 입력할 시에는 특정 이미지에 의존하여 이미지를 렌더링하는 경향이 있어, 일부 이미지의 속성으로 편향(과적합)된 결과물이 도출될 가능성이 크다. 이를 오버 피팅(overfitting)이라 부르는데, 일반적으로 학습 데이터 셋의 샘플 개수가 충분하지 않은 경우, 일반화의 오류가 빈번하게 나타날 수밖에 없는 현상을 일컫는다. 즉, 이제야 출시 1년이 조금 지난 <Dream Booth>는 이미지에 대한 데이터 셋 수용의 한계에 따라, 사용자의 세밀한 Input이 선행되지 않으면 도출되는 output의 질이 굉장히 떨어질 수 있다는 점에서 아직까지 그 범용성이 다소 떨어진다는 문제가 존재한다.



구글 Dream Booth가 스톡 사진 플랫폼 그리고 동네 사진관을 없애 버린다?


따라서, 현재 시점으로는 그 기술적인 한계로 인하여 구글 <Dream Booth>가 활용될 수 있는 분야와 범위, 정도는 제한적일 것으로 여겨진다. 단기적으로는 간단한 개인화 이미지만을 구현할 수 있기 때문에, 이미지 활용에 있어 매우 높은 완성도를 필요로 하는 전문 산업 분야보다는, 상대적으로 결과물의 완성도에 대한 중요도가 떨어지더라도 <Dream Booth>만의 맞춤형/신속성/사실성의 가치가 충분히 소구될 수 있는 개인 사용자가 그 타겟 고객으로 적합하다. 


최근 <Shutterstock>, <Getty images>, <Adobe Stock>과 같은 스톡 사진 플랫폼이나 자신의 웹사이트를 매개로 자신이 평소에 비축하고 있던 사진 혹은 예술품을 판매하고 구입하는 시장이 매우 활성화되고 있다. 구매자는 프로의 작품이든, 아마추어의 작품이든 본인이 마음에 들기만 한다면 스톡 사진 플랫폼 혹은 타인의 웹사이트에 업로드 된 사진에 기꺼이 비용을 지불하고 구입한다. 실제로 스톡 사진 사이트는 현재 세계적으로 수백 개가 넘고, 2022년 기준 그 시장 규모 역시 10조 원에 달하는 것으로 추산된다. 이는, 소셜 미디어 마케팅, 웹사이트 디자인과 같은 시각적 컨텐츠에 대한 개인 소비자의 높은 수요 및 시장성을 시사하며, 구글 <Dream Booth> 역시 이미지 창출/거래 시장에 집중해야 함을 의미한다. 기존 스톡 사진 플랫폼에서는 남들이 찍고 만든, 일정량의 이미지 중에서만 소비할 수 있었다면, 구글 <Dream Booth>에서는 사용자 개인이 원하는 이미지를 직접 가공한다는 고객경험과 동시에 인공지능이 생성하는 n가지의 이미지를 소비 가능하다. 즉, 스톡 사진 플랫폼 그리고 기존의 이미지 생성 AI와는 다르게 굉장히 유니크한 이미지 생성소 및 거래소로 자리매김 한다면, 이미지에 대한 소비 욕구를 지닌 개인 사용자들은 구글 <Dream Booth>만의 고유한 시장으로 전환/진입할 수 있다. 


더 나아가, 사람들이 점차 <Dream Booth>의 생성 이미지 소비에 고착화된다면, 스톡 사진 시장 뿐만 아니라 기존의 사진촬영 시장에도 엄청난 변화를 야기할 것으로 예측된다. 내가 원하는 사진을 값싸고 빠르게 직접 만들 수 있다면, 개인 프로필 사진 촬영 등은 충분히 대체될 가능성이 농후하다. 몇 남지 않은 동네 사진관이 구글 <Dream Booth>의 대중화로 인해 아예 우리의 추억 속으로 사라지지 않을까. 



구글 Dream Booth가 광고계를 뒤흔든다?


장기적으로는, 기술의 발전에 따라 <Dream Booth>의 주요 소비자군이 확장될 것으로 예상된다. 개인 사용자를 토대로 맞춤형 이미지 생성 AI가 대중화되고, 학습 데이터가 풍부해짐에 따라 도출되는 결과물의 완성도가 향상될 것이다. 이는 멀지 않아 이미지 활용에 있어 높은 완성도를 요하는 특정 산업에 대한 수요를 충족시킬 기술의 변곡점이 도래함을 시사한다. 특히, 최근 이미지 생성 AI가 적극적으로 활용되고 있는 광고와 홍보, 마케팅 분야에 또다른 새로운 트렌드를 야기할 것으로 예상된다. 


실제로 최근 <DALL-E2>와 <드랩> 등 기존의 이미지 생성 AI 기업들이 각각 잡지사 코스모폴리탄, 미국 식품 제조기업 크래프트 하인즈 그리고 쿠팡 등과 서비스 공급 계약을 맺고 크리에이티브 산업에 적용되어 광고나 마케팅의 상업적인 도구로 활발히 활용되고 있다. 이는, 시간 단축 및 비용 절감의 이유로 점차 이미지 생성 AI를 광고와 홍보, 마케팅의 수단으로 적극 활용하려는 기업들의 추세를 반영하는 바이며, 구글 <Dream Booth> 역시 수요가 점진적으로 증가 중인 이 틈새 시장에 적극적으로 참가해야 함을 의미한다. <DALL-E2>와 <드랩>과 같은 기존 확산모델 기반 경쟁사들의 경우, 사용자가 원하는 피사체에 입각한 이미지의 재 맥락화는 불가능하다. 때문에, 그들이 기업에 제공하는 광고, 마케팅에 구현되는 피사체의 이미지를 보면, 대게 실제 모델의 이미지보다는 ‘여자’, ‘남자’와 같이 일반화된 개체의 유형임을 파악할 수 있다.


출처 : 드랩


반면 구글 <Dream Booth>는 기업이 요구하는 특정 모델의 피사체를 사실적으로 재 맥락 가능하다. 예를 들면, <DALL-E2>와 <드랩>과 같은 기존 경쟁사들은 ‘배달 음식을 주문하는 여성’의 이미지까지 구현 가능했다면, <Dream Booth>의 경우 ‘배달 음식을 주문하는 쿠팡 광고모델 한소희’의 이미지까지 제공 가능한 것이다. 즉, 광고 모델의 이미지를 직접적으로 사용해야 하는 기업 광고에 있어서는 구글 <Dream Booth>의 핵심가치가 기존 경쟁사 대비 우위를 차지하는 데 있어 유리하다. 구글 <Dream Booth>가 광고, 마케팅 영역에 활용된다면, 해당 크리에이티브 산업의 공급 요소가 굉장히 달라질 것이다. 기업과 광고 모델 간 거래 관습(모델 선정 방식, 모델료 책정 방식 등)이 전면적으로 변화할 것으로 예상되는데, 아마 연예계와 광고계 사이에서는 이미지 생성에 대한 초상권이 무형 IP로서 그 거래의 주체로 다뤄지지 않을까 싶다. 모델 ‘한소희’에 대한 거래와 계약이 아닌, 모델 ‘한소희의 이미지 생성 가능 건수 및 정도’에 대한 거래와 계약이 오갈 것으로 예측하는 바이다.


즉, 단기적으로는 B2C 타겟 비즈니스 모델을 구축함과 동시에 기술적인 한계를 보완하고, 장기적으로는 B2C, 특히 광고 및 마케팅 산업의 수요를 타겟한 비즈니스 모델로의 이행이 이상적일 것이다.  출시된 지 약 1년이 지난 구글 <Dream Booth>는 현재 월간/연간 결제 시스템의 틀을 기반으로 데이터 셋 이미지 수용 용량, API, 속도의 기능 차이에 따라 베이직/스탠다드/프리미엄의 차등 구독서비스를 운영 중이다. <Dream Booth>만의 고유한 차별적 가치, 즉 사용자가 원하는 개인화된 피사체 이미지를 사실적으로 구현할 수 있다는 점을 개인 사용자에게 적절히 소구한다면, 해당 서비스로의 유입이 증대될 것이며, 기존의 구독제를 기반으로 규모가 확장될 수 있다. 장기적으로는, 광고와 마케팅 측면에서 특정 모델에 대한 사실적 이미지를 요하는 기업을 대상으로 새로운 비즈니스 모델(BM)이 창출될 수 있다는 점에서 그 기대 효과가 분명하다. 


연세대 아시아학과, 경제학과 김민재

mkjmillo09@yonsei.ac.kr


참고자료

 박찬, “구글, 맞춤형 이미지 생성 AI 모델 드림부스 공개”, AI 타임즈 2022.09.12

 Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, Kfir Aberman,「DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generataion」, Google Research, 2022.08.25

김민주, “배운 문제만 푼다? 오버피팅된 모델 어떻게 다룰 것인가 [AI 이야기]”, 매거진 한경 2020.11.11

류영상, “사진 찍고 올리니, 내 통장에 월 100만원… N잡러 연금사이트 스톡사진”, 매일경제 2022.07.07

 박하나, 「이미지 생성 인공지능(AI) 달리(DALL-E)의 활용 사례 연구」, 단국대학교 문화예술대학원, 2023.02

매거진의 이전글 멀티버스? 거울세계? 디지털 트윈!
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari