(!) ChatGPT Plus 버전을 기준으로 합니다.
우리는 때때로 실무에서 자료인 이미지나 사운드처럼 정형화되지 않은 자료를 다루어야 할 때가 있습니다. 예를 들어 A/S를 위해 고객이 찍은 제품 사진, 세금 처리를 하기 위한 영수증과 같이 말이죠. 과거에는 이러한 일을 하기 위해서 분석을 위한 별도의 소프트웨어를 구비해 둘 필요가 있었고, 연구를 위해서는 상당한 비용이 지출되기도 했습니다.
하지만 ChatGPT와 같은 생성형 AI 서비스가 도입된 현시점에는 이미지와 같은 비정형 자료를 그저 업로드하면, AI가 알아서 텍스트를 추출하는 등으로 분석하고, 분석한 데이터를 바탕으로 새로운 데이터를 생성하는 등의 일을 수행할 수 있게 되었습니다. 이러한 일이 가능한 AI 모델을 멀티모달 모델(Multimodal Model)이라고 합니다. 여기서, 멀티모달 기능을 활용하기 위해 이미지, 사운드 등의 업로드된 파일은 응답에 활용하기 위한 추가 컨텍스트(Context)로 취급됩니다.
모달리티(Modality)
멀티모달 모델은 다양한 모달리티(Modalit)를 처리할 수 있는데요, 모달리티는 사전적으로는 '양식', '양상'이라는 뜻으로, 보통 어떤 형태로 나타나는 현상이나 그것을 받아들이는 방식을 말합니다. 생성형 AI에서는 AI가 처리할 수 있는 다양한 데이터를 의미한다고 볼 수 있습니다.
저는 때때로 IT스타트업을 준비하고 계시는 예비창업자 분들을 대상으로 강의하기도 합니다. 이들은 자신의 서비스에 어떤 식으로 AI를 접목하면 좋을지 고민하고 있죠. 저는 이때 ChatGPT와 같은 서비스가 다양한 데이터를 받아서 처리할 수 있다는 것에 착안하여 가능성있는 아이디어를 고민해 보라고 이야기합니다. 멀티모달 기능은 생성형 AI 산업에서 정말 많은 가능성을 이끌어낼 수 있기 때문입니다.
가장 대표적으로 활용 가능한 사례는 고객 상담 AI 서비스입니다. AI에 사내 매뉴얼과 제품 매뉴얼을 지식을 추가하고, 고객이 보낸 제품 사진과 영수증과 같은 내용을 바탕으로 고객 문의 사항에 대응할 수 있는 것입니다. 또 다른 사례로는 학습 튜터가 있는데요, 예를 들면 문제집에서 손으로 푼 풀이 사진과 같은 데이터를 처리하여 풀이 방법이나 개념을 지도하는 등의 학습 튜터의 역할도 해줄 수 있게 됩니다.
ChatGPT에서 사용해 볼 수 있는 멀티모달 기능은 가장 먼저 이미지 생성과 분석이 있습니다. ChatGPT에서 이미지를 생성하는 것은 한때 지브리풍 사진이 유행일 때 ChatGPT를 사용해보셨던 분들이라면 많이 사용해 보셨을 기능일 것입니다.
이미지 생성의 경우에는 같은 서비스라 할지라도 프롬프트의 품질에 따라 출력물이 확연하게 달라지기 때문에 만약 사진, 미술과 같은 분야에 대한 깊은 이해가 있는 경우, 렌즈, 조리개, 화각, 노출 정도, 필터, 구도와 같은 전문지식을 사용하여 생성하면 더 나은 품질을 기대할 수 있습니다. 마케터나 그래픽 디자이너라면 이러한 이미지 생성은 실무에서 유용할 수 있으므로 다양한 이미지 생성 프롬프트를 살펴보고 별도로 케이스 스터디를 해보는 것도 좋습니다.
멀티모달 실습으로써 간단하게 지브리풍 고양이 사진을 생성해 보는 실습 해보도록 하겠습니다. 크게 이미지 생성과 분석이 있습니다.
ChatGPT에서 이미지를 생성하려면 두 가지 방법이 있는데, 사이드바에서 "라이브러리"로 진입하거나, 채팅에서 이미지 생성 모드를 활성화할 수 있습니다. 둘 중에 아무거나 해도 상관없는데요, 여기서는 "이미지 만들기"로 만들어보도록 하겠습니다.
이제 고양이 그림을 생성하기 위한 간단한 프롬프트로 이미지를 생성해 보도록 하겠습니다. 이미지를 생성하기 위한 프롬프트로는 다음과 같습니다.
grayscale, rainy day, kitten, sitting by the window, front view, head turned out of window, full shot, ghibli style
이미지가 생성되면 다음과 같이 "라이브러리"에 생성된 이미지가 보관될 것입니다.
ChatGPT를 비롯한 대부분의 범용 AI 서비스에서는 이미지를 생성할 수 있을 뿐만 아니라 분석도 할 수 있습니다. 일반적으로 ChatGPT를 비롯한 범용 AI 서비스는 이미지, 동영상, 사운드와 같은 콘텐츠를 '생성'하는 것보다는 '분석'에 사용하는 것이 적합합니다. 이미지를 분석할 수 있다는 것은 이미 한 번 언급드린 것처럼 고객 상담이나 학습 튜터 등의 다양한 가능성을 만들어낼 수 있다는 것을 의미합니다.
실무에서 활용해 볼 수 있는 간단한 사례로는 이미지 프롬프트 생성이 있습니다. 예를 들어 마케팅 콘텐츠에 사용하기 위해 포스터와 같은 이미지를 생성하고 싶은데, 문제는 이를 생성하기 위한 프롬프트는 모르겠고, 대신 이미 참고할만한 이미지가 있다고 가정해 보겠습니다. 이럴 때는 이미지 분석 기능을 사용하여 기존의 이미지를 바탕으로 해당 이미지를 생성하기 위한 프롬프트를 생성하도록 요청할 수 있습니다.
우리는 방금 이 고양이 그림을 하나 만들었는데, 이 그림을 생성하기 위한 프롬프트를 작성해 달라고 다음과 같이 요청해 보도록 하겠습니다. 고양이 그림을 업로드한 뒤, 다음과 같이 요청해 보면 프롬프트를 작성해 줄 것입니다.
이 고양이 그림을 ChatGPT에서 그리기 위한 이미지 생성 프롬프트를 작성해 줘
작성된 프롬프트는 다음과 같습니다. 이 이미지를 생성할 때 사용했던 프롬프트와는 달리, 다소 길게 작성되어 있지만, 더 자세하게 묘사해 준 것을 볼 수 있습니다. 이처럼 기존의 이미지를 바탕으로 생성 프롬프트를 역추출하고, 수정하여 새로운 콘텐츠를 재생성하는 등으로 응용해보시기 바랍니다.
"빗방울이 흐르는 창문가에 앉아 바깥을 바라보는 작은 고양이를 흑백 연필 드로잉 스타일로 현실감 있게 그려주세요. 고양이는 부드러운 털 질감과 큰 둥근 눈을 가지고 있으며, 창밖에는 세로로 흘러내리는 빗줄기가 선명하게 표현되어 있습니다. 따뜻한 실내 분위기 속에서 창틀과 커튼은 부드러운 음영으로 묘사되고, 전체적으로 차분하고 감성적인 분위기의 정교한 흑연 스케치 느낌으로 표현해 주세요."
이미지를 분석해서 프롬프트를 추출하는 것은 이미지 생성을 전문으로 하는 전문가가 아니더라도 약간만 수정하여 유사한 이미지를 생성할 수 있도록 해주는 방법이라고 볼 수 있습니다. 이미지 생성 프롬프팅은 사진이나 미술 등의 전문지식이 있으면 더 잘 만들 수 있기 때문에 필요하다면 전문적인 이미지 프롬프트를 판매하는 서비스를 찾아볼 수도 있지만, Midjourney와 같은 이미지 생성 서비스에서는 다른 사용자가 사용한 프롬프트를 살펴볼 수도 있습니다. 예를 들어 아래와 같은 동영상이나 사진을 만들 때 작성된 프롬프트도 살펴볼 수 있습니다.
멀티모달의 사례로써 ChatGPT에서 이미지를 생성하는 예시를 살펴보았는데, 사실 ChatGPT는 '범용' 서비스이기 때문에 특정 영역에 특화된 서비스가 아닌 만큼, 한계도 명확하다는 것을 이해할 필요가 있습니다. ChatGPT의 이미지 및 영상 생성 능력은 점점 발전하고 있지만, 그렇다고 하더라도 특화된 서비스 대비 ‘일관된 스타일 유지’나 ‘극도로 정교한 표현’에서는 여전히 전문 서비스가 더 우수합니다.
실무에서 실제로 활용할 때는 이미지, 동영상, 사운드와 같이 특화영역의 경우, ChatGPT를 넘어, 보다 전문화된 서비스를 사용하는 것이 좋습니다. 마케팅 콘텐츠와 같은 전문적인 이미지 생성은 Midjourney와 같은 이미지 전문 AI 서비스를 쓰는 것이 훨씬 좋습니다. 또는 Canva처럼 프레젠테이션, 포스터와 같은 디지털 콘텐츠 생성에 특화된 서비스를 써보세요. 최근에는 이미지 생성 서비스에서도 동영상을 생성할 수 있도록 확장하고 있는 추세이며 대표적인 서비스로는 Sora가 있습니다. 특히 유튜브나 인스타의 숏폼들이 Sora와 같은 동영상 생성 AI 서비스를 사용하여 제작된 사례가 정말 많습니다.
사운드의 경우에는 음악을 생성하거나 목소리를 복제하는 등으로 사용되고 있습니다. 음악 생성에 있어서 대표적인 서비스로는 Suno AI가 있고, 목소리 생성하거나 합성, 복제하는 서비스와 관련해서는 Elevenlabs가 대표적이라고 볼 수 있습니다. 국내 유튜브에서 가장 많이 사용되는 목소리 관련 서비스는 Typecast가 있습니다. 주로 양산형 쇼츠에서 많이 들을 수 있는 목소리를 들을 수 있으며 TTS(Text to Speech)로 많이 사용됩니다.
정리하자면, ChatGPT와 같은 범용 AI 서비스는 멀티모달이라는 기능을 가지고 있어서 텍스트 이외에도 이미지, 동영상, 사운드와 같은 다양한 데이터를 받아서 처리할 수 있습니다. ChatGPT에서는 이미지를 생성하고 분석할 수 있습니다. 하지만 이러한 모달리티를 '생성'하는 것은 ChatGPT 같은 범용 AI 서비스보다는 Midjourney와 같은 특정 분야에 특화된 전문 AI 서비스를 사용하는 것이 좋으며 ChatGPT에서는 모달리티를 '분석'하는 용도로 사용하는 것이 더 나은 방향이라고 볼 수 있습니다. 이에 대한 대표적인 사례로는 이미지를 분석하여 이미지를 생성하는 프롬프트를 작성하는 것이었습니다.
'비전공자를 위한 챗GPT 101'은 단순하게 챗GPT 사용법을 이야기하는 것이 아니라, 생성형 AI를 활용하기 위해 알아야 하는 기초를 대표적인 생성형 AI 서비스인 챗GPT를 사용하여 풀어냅니다. 물고기를 잡아주기보다는 물고기를 잡는 법을 알려줍니다.
챗GPT를 사용하는 활용법은 간단한 글쓰기부터 시작해서 기획, 마케팅 등 너무나도 많고, 직무마다 다른데, 이 글들은 '이메일 쓰기', '통계 분석하기 같은' 단순한 '사례'만을 이야기하지 않습니다. 생성형 AI의 '기본'을 이야기함으로써 챗GPT를 자유롭게 구사하며 실무에서 활용할 수 있도록 뼈대를 쌓습니다.