(!) ChatGPT Plus 버전을 기준으로 합니다.
우리는 때때로 실무에서 자료인 이미지나 사운드처럼 정형화되지 않은 자료를 다루어야 할 때가 있습니다. 예를 들어 A/S를 위해 고객이 찍은 제품 사진, 세금 처리를 하기 위한 영수증과 같이 말이죠. 과거에는 이러한 일을 하기 위해서 분석을 위한 별도의 소프트웨어를 구비해 둘 필요가 있었고, 연구를 위해서는 상당한 비용이 지출되기도 했습니다.
하지만 ChatGPT와 같은 생성형 AI 서비스가 도입된 현시점에는 음성, 이미지와 같은 비정형 자료를 그저 업로드하면, AI가 알아서 텍스트를 추출하는 등으로 분석하고, 분석한 데이터를 바탕으로 새로운 데이터를 생성하는 등의 일을 수행할 수 있게 되었습니다. 이러한 일이 가능한 AI 모델을 멀티모달 모델(Multimodal Model)이라고 합니다. 여기서, 멀티모달 기능을 활용하기 위해 이미지, 사운드 등의 업로드된 파일은 응답에 활용하기 위한 추가 컨텍스트(Context)로 취급됩니다.
모달리티(Modality)
멀티모달 모델은 다양한 모달리티(Modalit)를 처리할 수 있는데요, 모달리티는 사전적으로는 '양식', '양상'이라는 뜻으로, 보통 어떤 형태로 나타나는 현상이나 그것을 받아들이는 방식을 말합니다. 생성형 AI에서는 AI가 처리할 수 있는 다양한 데이터를 의미한다고 볼 수 있습니다.
저는 때때로 IT스타트업을 준비하고 계시는 예비창업자 분들을 대상으로 강의하기도 합니다. 이들은 자신의 서비스에 어떤 식으로 AI를 접목하면 좋을지 고민하고 있죠. 저는 이때 ChatGPT와 같은 서비스가 다양한 데이터를 받아서 처리할 수 있다는 것에 착안하여 가능성 있는 아이디어를 고민해 보라고 이야기합니다. 멀티모달 기능은 생성형 AI 산업에서 정말 많은 가능성을 이끌어낼 수 있기 때문입니다.
가장 대표적으로 활용 가능한 사례는 고객 상담 AI 서비스입니다. AI에 사내 매뉴얼과 제품 매뉴얼을 지식을 추가하고, 고객이 보낸 제품 사진과 영수증과 같은 내용을 바탕으로 고객 문의 사항에 대응할 수 있는 것입니다. 또 다른 사례로는 학습 튜터가 있는데요, 예를 들면 문제집에서 손으로 푼 풀이 사진과 같은 데이터를 처리하여 풀이 방법이나 개념을 지도하는 등의 학습 튜터의 역할도 해줄 수 있게 됩니다.
ChatGPT에서 사용해 볼 수 있는 멀티모달 기능은 가장 먼저 이미지 생성과 분석이 있습니다. ChatGPT에서 이미지를 생성하는 것은 한때 지브리풍 사진이 유행일 때 ChatGPT를 사용해 보셨던 분들이라면 많이 사용해 보셨을 기능일 것입니다.
이미지 생성
이미지 생성의 경우에는 같은 서비스라 할지라도 프롬프트의 품질에 따라 출력물이 확연하게 달라지기 때문에 만약 사진, 미술과 같은 분야에 대한 깊은 이해가 있는 경우, 렌즈, 조리개, 화각, 노출 정도, 필터, 구도와 같은 전문지식을 사용하여 생성하면 더 나은 품질을 기대할 수 있습니다. 마케터나 그래픽 디자이너라면 이러한 이미지 생성은 실무에서 유용할 수 있으므로 다양한 이미지 생성 프롬프트를 살펴보고 별도로 케이스 스터디를 해보는 것도 좋습니다.
멀티모달 실습으로써 간단하게 지브리풍 고양이 사진을 생성해 보는 실습 해보도록 하겠습니다. ChatGPT에서 이미지를 생성하려면 두 가지 방법이 있는데, 사이드바에서 "라이브러리"로 진입하거나, 채팅에서 이미지 생성 모드를 활성화할 수 있습니다. 둘 중에 아무거나 해도 상관없는데요, 여기서는 "이미지 만들기"로 만들어보도록 하겠습니다.
이제 고양이 그림을 생성하기 위한 간단한 프롬프트로 이미지를 생성해 보도록 하겠습니다. 이미지를 생성하기 위한 프롬프트로는 다음과 같습니다.
grayscale, rainy day, kitten, sitting by the window, front view, head turned out of window, full shot, ghibli style
이미지가 생성되면 다음과 같이 "라이브러리"에 생성된 이미지가 보관될 것입니다.
ChatGPT를 비롯한 대부분의 범용 AI 서비스에서는 이미지를 생성할 수 있을 뿐만 아니라 분석도 할 수 있습니다. 일반적으로 ChatGPT를 비롯한 범용 AI 서비스는 이미지, 동영상, 사운드와 같은 콘텐츠를 '생성'하는 것보다는 '분석'에 사용하는 것이 적합합니다. 이미지를 분석할 수 있다는 것은 고객 상담이나 학습 튜터, 그래프 분석을 통한 주식 트레이딩 등의 다양한 가능성을 만들어낼 수 있다는 것을 의미합니다.
실무에서 활용해 볼 수 있는 간단한 사례로는 이미지 프롬프트 생성이 있습니다. 예를 들어 마케팅 콘텐츠에 사용하기 위해 포스터와 같은 이미지를 생성하고 싶은데, 문제는 이를 생성하기 위한 프롬프트는 모르겠고, 대신 이미 참고할만한 이미지가 있다고 가정해 보겠습니다. 이럴 때는 이미지 분석 기능을 사용하여 기존의 이미지를 바탕으로 해당 이미지를 생성하기 위한 프롬프트를 생성하도록 요청할 수 있습니다.
우리는 방금 이 고양이 그림을 하나 만들었는데, 이 그림을 생성하기 위한 프롬프트를 작성해 달라고 다음과 같이 요청해 보도록 하겠습니다. 고양이 그림을 업로드한 뒤, 다음과 같이 요청해 보면 프롬프트를 작성해 줄 것입니다.
이 고양이 그림을 ChatGPT에서 그리기 위한 이미지 생성 프롬프트를 작성해 줘
작성된 프롬프트는 다음과 같습니다. 이 이미지를 생성할 때 사용했던 프롬프트와는 달리, 다소 길게 작성되어 있지만, 더 자세하게 묘사해 준 것을 볼 수 있습니다. 이처럼 기존의 이미지를 바탕으로 생성 프롬프트를 역추출하고, 수정하여 새로운 콘텐츠를 재생성하는 등으로 응용해 보시기 바랍니다.
"빗방울이 흐르는 창문가에 앉아 바깥을 바라보는 작은 고양이를 흑백 연필 드로잉 스타일로 현실감 있게 그려주세요. 고양이는 부드러운 털 질감과 큰 둥근 눈을 가지고 있으며, 창밖에는 세로로 흘러내리는 빗줄기가 선명하게 표현되어 있습니다. 따뜻한 실내 분위기 속에서 창틀과 커튼은 부드러운 음영으로 묘사되고, 전체적으로 차분하고 감성적인 분위기의 정교한 흑연 스케치 느낌으로 표현해 주세요."
이미지를 분석해서 프롬프트를 추출하는 것은 이미지 생성을 전문으로 하는 전문가가 아니더라도 약간만 수정하여 유사한 이미지를 생성할 수 있도록 해주는 방법이라고 볼 수 있습니다. 이미지 생성 프롬프팅은 사진이나 미술 등의 전문지식이 있으면 더 잘 만들 수 있기 때문에 필요하다면 전문적인 이미지 프롬프트를 판매하는 서비스를 찾아볼 수도 있지만, Midjourney와 같은 이미지 생성 서비스에서는 다른 사용자가 사용한 프롬프트를 살펴볼 수도 있습니다. 예를 들어 아래와 같은 동영상이나 사진을 만들 때 작성된 프롬프트도 살펴볼 수 있습니다.
ChatGPT에서는 사용자의 음성 입력을 받아서 텍스트로 변환하는 STT(speech To Text)와 실시간 대화를 할 수 있습니다. 채팅창으로 "음성 입력"을 받으면 STT를 할 수 있고, "음성 모드"를 활성화하면 실시간으로 대화를 할 수도 있습니다.
STT 기능은 말 그대로 받아쓰기라고 볼 수 있습니다. 마이크 모양으로 생긴 아이콘을 누르면 음성 입력 모드로 전환됩니다. 이때 사용자가 마이크를 통해 말하는 내용을 텍스트로 바꿔줍니다. 이에 대한 또 다른 접근법으로는, 멀티모달 기능을 활용하여 이미 녹음된 음성 파일을 업로드해서 텍스트로 바꿔주는 일도 가능합니다.
활용 Tip.
STT를 사용하면 발표 내용, 회의록 등을 텍스트로 변환하여 별도의 파일로 저장하는 등으로 활용할 수 있습니다.
음성 모드는 ChatGPT에 있는 보이스 모델과 실시간으로 음성 대화를 할 수 있습니다. AI가 대답하기 위한 음성은 프로필 → 일반 → 음성에서 설정할 수 있으며 "발화 언어"도 미리 설정해 두는 것이 좋습니다. 그 밖에도, ChatGPT 앱에서는 AI가 실시간으로 카메라를 통해 화면을 보면서 이에 대한 의견을 나누는 것도 가능합니다.
활용 Tip.
음성 모드는 실시간으로 소통이 이루어지기 때문에 공부, 발표, 강연, 면접, 외국어 회화, 토론, 아이디어 브레인스토밍 등을 할 때 유용하게 사용하고, 즉각적으로 피드백을 받을 수 있습니다. 예를 들면 발표, 강연에서 특정 개념에 대한 설명을 "말로" 해야 할 때 이 설명이 적절한지 검토받거나, 면접에서 특정 질문에 대한 응답이 적절한지 등을 피드백받을 수 있습니다. 더 나아가 브레인스토밍 단계에서 정리를 위해 지금까지 대화한 내용을 글로 작성해 달라는 식으로도 할 수 있겠죠.
정리하자면, ChatGPT와 같은 범용 AI 서비스는 멀티모달이라는 기능을 가지고 있어서 텍스트 이외에도 이미지, 동영상, 사운드와 같은 다양한 데이터를 받아서 처리할 수 있습니다. ChatGPT에서는 이미지를 생성하고 분석할 수 있습니다.
'비전공자를 위한 챗GPT 101'은 단순하게 챗GPT 사용법을 이야기하는 것이 아니라, 생성형 AI를 활용하기 위해 알아야 하는 기초를 대표적인 생성형 AI 서비스인 챗GPT를 사용하여 풀어냅니다. 물고기를 잡아주기보다는 물고기를 잡는 법을 알려줍니다.
챗GPT를 사용하는 활용법은 간단한 글쓰기부터 시작해서 기획, 마케팅 등 너무나도 많고, 직무마다 다른데, 이 글들은 '이메일 쓰기', '통계 분석하기 같은' 단순한 '사례'만을 이야기하지 않습니다. 생성형 AI의 '기본'을 이야기함으로써 챗GPT를 자유롭게 구사하며 실무에서 활용할 수 있도록 뼈대를 쌓습니다.