brunch

You can make anything
by writing

C.S.Lewis

by 호몽 이용호 Dec 06. 2023

챗gpt, 멀티 모달 기술로 거듭나다

이용호가 말하는 ‘생활 속의 인공지능’

[챗gpt로 그린 '멀티 모달 세상']

지난 칼럼에서 예고했듯이 이번에는 챗gpt에서 얼마 전부터 도입하기 시작한 ‘멀티 모달(Multi modal)’ 기술에 대해 하나씩 살펴보고자 한다. 물론 이 기능들은 월간 정기 결제를 하는 유료 사용자에게만 우선 제공하고 있다. '멀티 모달'이라는 용어는 이미 생활 속에서 종종 접할 수 있을 만한 기술 관련 용어다. 그렇다면 멀티 모달은 무엇일까?


멀티 모달은 두 개 이상의 다른 모드 또는 채널을 사용하여 정보를 전달하거나 받는 방식을 말한다. 스마트폰에서 음성과 텍스트, 이미지를 동시에 인식하고 처리하는 것이 그 예다. 또한, 이 기술은 사용자와 기계간의 상호 작용을 더 풍부하고 다양하게 만들어준다. 지금까지 우리는 주로 텍스트 기반의 검색이나 명령을 사용해왔다. 그러나 멀티 모달 기술의 발전으로 인공 지능 분야에서도 텍스트, 음성, 이미지 등 다양한 형태의 데이터를 동시에 처리하는 방식으로 사용되고 있다. 챗gpt는 이러한 멀티 모달 기술을 다양한 방법으로 활용하고 있게 지원하고 있다.


멀티 모달의 주요 특징들을 차례로 살펴보기로 한다. 첫 번째, 이미지와 텍스트를 동시 처리 기능이다. 사용자가 제공하는 이미지와 텍스트를 동시에 분석하여, 이미지에 대한 설명이나 텍스트와 관련된 이미지 내용을 파악한다. 아래의 그림을 업로드한 후 "이 그림을 설명하라" 라고 프롬프팅하면 챗gpt는 이미지를 분석하여 다음과 같이 상세하게 설명을 해준다. 

[챗gpt로 그린 앙팡(테리어) 일러스트]

“제공된 이미지는 주로 회색과 흰색 털로 된 아름답게 그려진 테리어 종 강아지를 나타냅니다. 친근한 인사나 놀고 싶은 것처럼 앞발 중 하나를 들고 있는 것 같습니다. 강아지는 얼굴에 사랑스러운 표정을 짓고 있으며 밝은 눈과 호기심 많은 기질을 보이고 있습니다. 배경은 부드러운 분홍색이며, 강아지를 강조하고 부드러운 분위기를 줍니다. 이는 아이들을 위한 도서, 축하 카드, 포스터 또는 기타 장식용도로 설계된 예술 작품일 수 있습니다. 예술 스타일은 세부적이며 강아지의 장난기 넘치고 순진한 성격을 잘 나타내고 있습니다.” 간단한 그림 한 장으로도 이렇게 친절하게 설명을 해주는 것을 보면 세삼 감탄을 금할 길 없다. 이외에도 사용자가 음식 사진과 "이 음식의 재료는 무엇인가?"라는 질문을 함께 제공할 경우, 사진을 분석하여 음식의 종류를 파악하고, 텍스트를 통해 질문의 의도를 이해하여 적절한 답변을 제공해 주기도 한다.


두 번째는 감정 분석이다. 이미지에 포함된 인물의 표정을 분석하여 그 감정 상태를 파악한다. 사용자가 어떤 인물의 사진을 제공하면, 해당 인물의 표정과 관련된 감정 상태를 텍스트로 설명해준다. 이번에는 강원도 여행을 하면서 찍은 내 사진을 직접 업로드 해봤다.

[호몽의 강원도 고성 바닷가 여행]

“이 사진은 해변에서 찍힌 것으로 보입니다. 인물은 해변의 모래 위에 서 있으며, 배경에는 바다와 부드러운 파도가 보입니다. 하늘은 약간 흐린 날씨를 보여주고 있습니다. 인물은 회색 폴로셔츠와 짙은색 바지를 입고 있습니다. 그는 머리에 하얀색의 모자를 쓰고 있으며, 모자의 앞면에는 어떤 문구나 로고가 있어 보입니다. 그는 손목에 시계를 착용하고 있으며, 왼손으로 모자를 살짝 잡고 있습니다. 인물의 표정은 행복하고 기쁘게 보이며, 눈에는 활기가 넘치는 모습을 보여줍니다. 전반적으로 이 사진은 여유로운 휴가를 즐기는 모습을 연상시키며, 인물의 기쁜 표정과 바다의 아름다운 풍경이 조화롭게 어우러져 있습니다.” 마지막 문장에서 보여 주듯이 사진 속 내 표정을 정확히 파악하고 설명해주는 것을 볼 수 있다.


세 번째 아트 작품 해석이다. 사용자가 아트 작품의 이미지를 제공하면, 챗gpt는 그 작품의 스타일, 연대, 재료 등에 대한 정보와 함께 작품에 대한 설명을 제공한다. 이번에는 고흐의 작품을 업로드 해보고 작가와 제목 그림 스타일을 설명해 달라고 프롬프팅했다.

[아를의 붉은 포도밭 : 빈센트 반 고흐]

“이 그림은 빈센트 반 고흐(Vincent van Gogh)의 '아를의 붉은 포도밭(The Red Vineyard at Arles)'으로 추정됩니다. 제작연대는 1888년이고, 스타일은 후기 인상파입니다. 반 고흐는 후기 인상파의 대표적인 화가 중 하나로 꼽힙니다. 그의 작품은 개별적이고 감정적인 색상의 사용과 독특한 붓질로 알려져 있습니다. 그는 그림에서 물체의 형태보다는 색과 질감에 더 많은 중점을 둡니다. 이 작품은 반 고흐가 프랑스 아를에서 그린 것으로, 빨간색 포도밭이 특징적인 그림입니다. 여러 농부들이 포도밭에서 일하는 모습이 그려져 있으며, 이는 그림의 주요 테마 중 하나입니다. 그는 자신의 감정과 느낌을 색상과 붓질로 표현하려고 노력했으며, 이 작품에서도 그의 독특한 스타일이 잘 드러나 있습니다.” 실로 멀티 모달의 특징을 그대로 보여주는 설명이라 할 수 있다.


네 번째는 이미지를 통한 프로그램이다. 사용자가 제공하는 플로우차트를 바탕으로 프로그램을 생성한다. 아래 그림처럼 플로우차트 그림을 제공하고 프로그램을 명령하는 원하는 언어로 코딩을 해준다.

[프로그램 플로우차트와 파이썬 코드]

위 그림의 코드는 플로우차트를 보고 파이썬 언어로 코딩을 해달라고 했을 때 제공된 결과이다, 플로우차트를 분석하고 이것이 회원가입용 프로그램이라 것도 설명해준다. 챗gpt의 멀티 모달 기능을 소개하는 자료에 따르면 위 그림처럼 정확한 도형이 아닌 사용자가 손으로 스케치한 플로우차트를 보고도 프로그램을 해준다고 한다.


다섯 번째. 논리적 계산이다. 우리가 논리적 계산이 필요한 이미지를 제공하면, 챗gpt는 그 이미지와 관련된 문제 풀이를 해준다. 이번에는 수학 퍼즐 그림을 제공하고 문제 풀이를 요청해봤다

[챗gpt로 그린 소재로 만든 수학 퍼즐]

“이 수학 퍼즐을 다시 풀어보겠습니다.

첫 번째 줄:

햄버거 + 햄버거 + 햄버거 = 30

=> 햄버거 = 10

두 번째 줄:

햄버거 + 감자튀김 + 감자튀김 = 20

=> 10 + 2(감자튀김) = 20

=> 감자튀김 = 5

세 번째 줄:

감자튀김 + 콜라 + 콜라 = 9

=> 5 + 2(콜라) = 9

=> 콜라 = 2

네 번째 줄을 사용하여 답을 찾습니다.

햄버거 + 감자튀김 + 콜라 = ?

10 + 5 + 2 = 17

따라서 답은 17입니다.

매번 이런 저런 시도를 해보지만 어떻게 이렇게 그림을 정확히 이해하고 논리적인 답을 도출해 내는지 신기할 따름이다.


이 외에도 스마트폰 앱에서는 마이크를 이용한 음성 채팅방식으로도 원하는 결과를 매우 쉽게 얻을 수 있어 운전을 할 때처럼 타이핑이 용이하지 않은 환경이거나 타이핑이 미숙한 사용자도 쉽게 챗gpt를 사용할 수 있다.


이처럼 챗gpt는 멀티  달 기술을 활용하여 다양한 형태의 데이터를 동시에 처리하고, 사용자에게 더욱 다양하고 풍부한 정보를 제공함으로써, 인공 지능의 활용 범위가 더욱 넓어지고 있음을 직접 눈으로 확인해 볼 수 있다. 이 발전의 끝이 어디인지 무척 궁금해 하면서 하루하루 챗gpt와 친해지기 위해 노력하고 있다.


| 작가 프로필


호몽 이용호는 스마트 공장에서 주로 사용되는 ‘머신비전’ 전문회사인 ‘호연지재’를 경영하고 있으면서 다양한 분야에 관심이 많아 메타버스와 유튜브 인플루언서로 활동하고 있다. 특히 ‘머신비전’에서 인공지능 딥러닝에 의한 영상처리기술을 자주 적용하다보니 AI 분야에 대해서도 해박한 지식을 가지고 있다. 또한 SKT 메타버스 플랫폼인 이프랜드(ifland)에서 매주 월요일 오후 9시에 정기적으로 ‘호몽캠프’를 진행하고 있으며 86회 이상 진행된 밋업에는 작가, 강사, 가수, 연주가, 아티스트, 사업가 등 여러 분야의 전문가들이 초대되었고 최근에는 게스트를 초대하는 토크쇼 외에도 각 지역, 박물관, 유적지 답사 여행 등과 같은 다양한 컨텐츠로 호몽캠프를 이어가고 있다.

 

주요 강의 분야는 “챗gpt 시대 생활 속의 인공지능 발견하기”, “시니어와 MZ세대 간의 원활한 커뮤니케이션”, “시니어 세대 인플루언서 활동으로 인생 이모작”, “워라밸 시대 워크닉으로 행복한 인생 만들기” 등이 있으며, 저서로는 『나는 시니어 인플루언서다』가 있다. 

작가의 이전글 같은 기술 다른 결과, 챗gpt와 Bing의 달리3
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari