텍스트-이미지 생성을 넘어서는 AI의 미래
#Text-to-Image_Generation #AI #Creativity Support Tools #Prompting #Large Language Models #Multimodal
위 주제에 관심이 있다면 꼭 읽어보세요!
Chat-GPT를 필두로 최근 AI 서비스들이 굉장한 화제가 되고 있습니다. 이제 수많은 서비스가 AI를 활용하고 있으며 AI는 우리의 삶과 굉장히 밀접해 있습니다. 특히, 이미지 생성과 같은 예술 분야에서 AI 서비스들이 큰 이슈를 불러일으키고 발전을 이루어 내면서 현재 많은 사람이 이미지 생성을 위해 Midjourney(미드저니), DALL-E(달리), Stable Diffusion(스테이블 디퓨전)과 같은 텍스트-이미지 생성(Text-to-Image) AI 서비스를 사용하고 있습니다. 최근 틱톡과 인스타그램을 시작으로 많은 뷰를 기록한 해리포터 발렌시아가 영상 또한, 텍스트-이미지 생성 프로그램을 활용하여 만들어졌습니다. 하지만 이런 텍스트-이미지 생성 시스템에도 한계가 존재합니다. 본 연구에서는 아래의 한계점들을 제시하며, 좀 더 사용자의 목적에 알맞고 사용자 친화적으로 새로운 형태의 AI 시스템인 Opal과 3DALL-E를 제안합니다.
기존 텍스트-이미지 생성 AI 서비스의 한계점:
현재 텍스트 기반의 이미지 생성 시스템들은 기존의 예술가들이 익숙하던(온전한 통제권을 갖고 작품의 모든 부분을 자신이 구성하는) 방식과는 전혀 다른 방식입니다. 따라서, 사용자들의 의도 파악을 보조할 수 있는 UX적인 장치가 필요합니다.
현재 텍스트 기반의 이미지 생성 시스템들은 수많은 이미지를 생성하는 데에는 뛰어나지만 결과가 랜덤으로 제공되며, 수준이 보장되지 않고, 무엇을 어디까지 생성할 수 있는지 한계가 모호합니다.
본 연구에서 개발한 Opal과 3DALL-E를 소개하기 전에, 프롬프트(prompt)에 대해서 잠깐 소개하겠습니다. 프롬프트란 사용자들이 AI 시스템을 인간의 언어로 조작할 수 있게 해주는 어구입니다. 동사로 프롬팅(prompting)이라고 쓰이기도 하며, 인간의 언어로 AI시스템을 통해 원하는 것을 생성할 수 있게 하는 상호작용 행위입니다. 또한, 프롬프트는 서비스의 목적에 맞게 해석됩니다. 예를 들어, Midjourney나 DALL-E2에서 쓰이는 프롬프트는 “abstract art, Malevich, futuristic, tone on tone, waves on the rock”과 같으며 단어들이 갖고 있는 이미지를 포착하여 인지하고 이미지를 생성해 냅니다. 예시로 주어진 프롬프트를 똑같이 사용하였을 때, 미드저니와 DALL-E2에서 각각 그림 1과 그림 2와 같은 결과물을 생성하였습니다. 반면에, Chat-GPT와 같은 텍스트 생성 AI 시스템에서는 프롬프트가 의미, 문맥, 그리고 언어의 스타일을 포착하여 답변을 생성합니다.
방송/신문업계의 일러스트레이터들은 발 빠른 보도 속도에 맞추어 빠르게 이미지를 생성해 내야만 합니다. Opal을 디자인하는 과정에서 연구자는 VQGAN+CLIP을 사용하여 일러스트레이터들과의 디자인을 협업하여 진행하였습니다. 그 결과, 일러스트레이터들이 뉴스 기사를 위한 이미지를 생성할 때, 기사의 주제, 어조, 그리고 현실적으로 묘사가 가능한 일러스트 스타일을 추구한다는 것을 확인할 수 있었습니다. 따라서, Opal에서는 뉴스 기사의 제목을 프롬프트로 넣은 후, 기사에 대한 키워드와 어조를 선택해야 합니다 (그림 3).
그 결과, 참여자들이 일러스트를 생성하는 데에 있어서 두 배나 더 효율적임을 확인하였고, 두 배나 더 자주 일러스트로 사용할 만한 이미지를 찾았다고 합니다. 또한, 인터뷰에서 사용자들은 Opal이 생각하지 못한 스타일의 이미지를 경험하게 해 주었다고 첨언하였으며 모호한 아이디어를 가지고도 Opal을 이용하면 키워드나 어조 선택을 통해 모호한 것을 구체화할 수 있었다고 말했습니다.
본 연구에서는 하드웨어 프로덕트 디자이너들을 위한 AI는 없을까?라는 물음을 바탕으로 이들을 위한 3D모델 이미지 생성 AI 시스템을 구현하였습니다. 3DALL-E는 DALL-E, GPT-3, CLIP을 융합하여 Fushion 360라는 CAD(Computer-Aided Design, 컴퓨터를 이용한 디자인) 툴 내에 플러그인으로 개발되었으며, 다중 언어 모델(LLM)*과 텍스트-이미지 생성 모델의 결합을 통하여 최적의 프롬프트를 생성합니다. 또한, 멀티모달(multimodal) 방식을 통해 텍스트뿐만이 아닌 이미지를 인풋으로 활용한 생성이 가능합니다. 예를 들어, 쓰레기차를 새롭게 디자인해야 한다면 3DALL-E에서 “garbage truck”을 타이핑한 후에 플러그인에서 관련된 부품, 스타일, 그리고 디자인을 프롬프트를 구성하는 텍스트로 제안받는 형태입니다 (그림 4).
3DALL-E를 평가하기 위해 유저스터디를 수행한 결과, 로보틱스부터 산업디자인까지 넓은 범위의 분야에서 본 플러그인이 쓰일 수 있다는 것을 확인할 수 있었습니다. 또한 사용자들은 주로 디자인 고착화를 피하거나, 3D 스케치를 위한 레퍼런스로서, 그리고 생성된 3D 모델의 외형을 수정하는 용도로 3DALL-E를 사용하였습니다.
Opal과 3DALL-E의 사례에서 살펴볼 수 있듯 Midjourney, DALL-E, Stable Diffusion과 같은 텍스트-이미지 생성 시스템들을 좀 더 사용자의 의도에 맞게 구체화하며 제공한다면 사용자 경험(UX)을 증진할 수 있을 것입니다. 두 예시 모두, 특정 분야(해당 분야가 쓰이는 상위 분야는 포괄적이지만 - 예시: 로보틱스, 기계공학, 산업디자인은 모두 3D 모델링이라는 특정 분야를 필요로 한다)의 사람들이 사용하기 좋은 형태인 만큼 AI의 미래는 구체화 및 세분화가 크게 작용할 것입니다. 따라서 목적에 맞는 AI들로 AI시장이 세분화되겠습니다.
또한, 최근 화제가 되었던 발렌시아가 해리포터의 사례와 본 연구의 3DALL-E 사례에서 볼 수 있듯, AI의 미래는 여러 AI들의 복합적인 사용(mix n’ match)을 통한 새로운 창조가 아닐까 합니다. 발렌시아가 해리포터를 제작한 demonflyingfox는 영상이나 CG에 대한 전문적 지식이 없었으며 4가지 AI서비스를(ChatGPT, Midjourney, Eleven Labs, D-ID) 종합하여 영상을 만들었다고 밝혀진 바 있습니다. 이렇듯 미래에는 여러 특화된 AI 기술을 활용하여 전문적 기술 없이도 AI의 도움을 통해 손쉽게 목적을 달성할 수 있을 것입니다. 현재 화제가 되고 있는 텍스트-이미지 생성 시스템들의 사례에서도, 예술가가 아니라면 그리지 못할 작품들을 이미 많은 사람들이 생산해내고 있는 상황입니다. 이런 텍스트-이미지 AI를 예시로 들자면 앞으로는 이미지 생산에 그치지 않고, 해당 이미지를 활용하여 다른 AI 프로그램들을 통해 발렌시아가 해리포터처럼 영상을 만들거나, 3DALL-E처럼 프로덕트 모델링 참조 이미지로 사용하는 등 사용자의 다양한 목적에 맞게 AI의 사용이 가능할 것입니다.
본 연구의 사례를 바탕으로, AI 시스템을 활용한 서비스의 UX을 증진할 방법을 고찰해 본다면 크게 두 가지가 있습니다. 첫째, 기존 전문가들의 전통적인 프로세스를 바탕으로 이들이 어떠한 요소들을 중요시하는지 파악하고 이를 서비스에 투영하는 방식입니다. UX 리서치를 통해 전문가들이 목적을 달성할 때 어떤 요소를 중요시하는지 잘 파악한다면 더 사용자 친화적이고, 의도 파악이나 목적 달성에 유리한 AI 서비스를 구현할 수 있기 때문입니다. 예를 들면, Opal의 사례에서 연구자들은 뉴스 기사 일러스트레이터들이 기사의 주제, 어조, 그리고 묘사 가능성을 본다는 것을 확인하였습니다. 또한, 3DALL-E는 최적화된 프롬프트를 제공하기 위해 멀티모달(텍스트 외에 이미지나 다른 형태의 인풋을 받는 것) 형식을 지원하며, 디자인, 스타일, 그리고 부품 이름 선택지를 다수 제공합니다. 따라서, UX 전문가로서 우리는 전통적으로 사용자들이 해당 목적 달성을 위한 과정에서 어떤 요소들을 중요시하고 활용하는지 살펴볼 필요가 있습니다.
둘째, 최적화된 사용자 경험을 위해 여러 AI 서비스들을 잘 파악하여 목적에 맞는 AI 서비스를 매칭해 줄 수 있습니다. 앞서 서술하였듯 앞으로의 AI 경험은 하나의 AI 서비스가 아닌 여러 AI 서비스들의 복합적인 사용(mix n’ match)이 핵심입니다. 그렇다면, 사용자의 니즈를 잘 파악하여 최적의 AI 서비스들을 제공하는 것이 사용자 경험을 증진할 또 하나의 방법이 될 것입니다. 예를 들면, Midjourney의 UX를 개선하기 위해 사용자가 이미지를 다운받으면 해당 이미지의 사용 목적을 묻고 다음 목적에 맞는 AI 프로그램을 추천해 주는 방향이 있겠습니다. 따라서, 여러 AI 서비스를 잘 파악하고 목적에 맞게 AI 서비스를 잘 매칭하여 제공한다면 앞서 나가는 사용자 경험을 제공할 수 있을 것입니다.
UX George는 아래 논문을 대신 읽어드렸어요. 여러분이 프로덕트 만드는 시간은 소중하니깐요!
Liu, V. (2023, April). Beyond Text-to-Image: Multimodal Prompts to Explore Generative AI. In Extended Abstracts of the 2023 CHI Conference on Human Factors in Computing Systems (pp. 1-6).