brunch

You can make anything
by writing

C.S.Lewis

by 김홍진 Nov 07. 2024

AI 멀티모달 기능을 활용한 혁신적 지식 검색 서비스

: ChatGPT 비전 기능을 중심으로

몇일전 필자는 한국의 한 사찰을 다녀왔다.

불교에는 관심이 있었지만 세부적인 지식은 부족한 상태라 그저 사찰의 건축물을 보면서 지나갔다.

건축물을 보던 중, 여기저기 건출물의 기둥에 그려져 있는 문양이 눈에 들어왔고 이것이 무엇을 의미하는지 궁금해 졌다.

그러나 이에 대한 대답을 해 줄 사람은 내 주위에는 없었다. 


그러던 중, 갑자기 Chatgpt가 떠올라고 핸드폰을 열어 ChatGPT의 앱으로 사진을 찍어 올렸다.

그러자 사진을 분석한 chatgpt는 상세한 설명을 제시하기 시작했다.



이제 검색엔진의 시대는 AI검색의 시대로 변화해 가는 중이다.

이러한 관점에서 본 글에서는 ChatGPT의 멀티모달 기능 적용 사례에 대하여 작성하고자 한다. 



AI 멀티모달 기능을 활용한 혁신적 지식 검색 서비스 사례 

: ChatGPT 비전 기능을 중심으로


1. AI 검색 기술의 진화와 멀티모달 기능의 도입 배경

AI 검색 기술은 텍스트 검색에서 시각, 음성 등의 멀티모달 입력을 통해 더욱 고도화되고 있다. 특히, ChatGPT와 같은 모델은 사용자의 텍스트와 이미지 입력을 분석하여 새로운 형태의 정보를 제공할 수 있어, 기존의 검색 방식에서 벗어난 혁신적 솔루션을 제시하고 있다. 이 기능은 텍스트 기반의 검색에서 발생하는 한계를 극복하고 사용자 경험을 확장하는 데 큰 역할을 하고 있다.

(* 멀티모달(multimodal) 이란, 여러 가지 형태와 의미로 컴퓨터와 대화하는 환경을 말한다. 멀티모달에서 '모달'이란 모달리티(modality)를 의미하는데 모달리티란 상호작용 과정에서 사용되는 의사소통 채널을 말한다. 전통적인 텍스트뿐만 아니라 생체신호, 음성, 시선과 제스처 등을 이용하여 인간과 컴퓨터 사이에 자연스러운 사용자 친화적인 기술이다.)


■ 기존 검색 방식의 한계와 멀티모달의 필요성

기존 검색 엔진은 텍스트 기반 검색어를 입력해야 하기 때문에 사용자가 필요한 정보를 얻기 위해 적절한 키워드를 선택하는 것이 중요했다. 하지만 이미지를 통한 정보 검색이 필요한 경우, 텍스트로 표현하기 어려운 시각적 정보의 검색은 제한적일 수밖에 없다. 멀티모달 기능은 이러한 한계를 극복하여 사용자가 시각적 정보를 통해 더욱 풍부한 데이터를 얻을 수 있도록 돕고 있다.


 ChatGPT 멀티모달 기능의 의미와 특징

ChatGPT의 멀티모달 기능은 텍스트와 이미지 입력을 동시에 활용하여 정보를 제공하는 기술로, 특히 비전 모델을 통해 이미지 내 시각적 요소를 분석할 수 있다. 이를 통해 사용자는 텍스트로 설명하기 어려운 이미지나 도형을 입력하여 의미를 파악할 수 있으며, 이는 학습, 관광, 연구 등 다양한 분야에서 유용하게 사용될 수 있다.


2. 멀티모달 기능의 작동 원리


 텍스트와 비전 모델의 융합 방식

ChatGPT의 멀티모달 기능은 텍스트와 이미지를 결합하여 사용자에게 더 심층적인 정보를 제공하는 방식으로 설계되었다. 비전 모델은 입력된 이미지를 분석하여 시각적 요소를 파악한 뒤, 이를 텍스트로 변환하여 사용자가 쉽게 이해할 수 있도록 정보를 제공한다.


■ 이미지 분석 프로세스: 이미지 인식에서 정보 생성까지의 단계

ChatGPT의 이미지 분석 프로세스는 크게 이미지 인식, 정보 추출, 텍스트 생성의 세 단계로 나뉜다. 

먼저 이미지 인식 단계에서 입력된 이미지의 시각적 특징을 파악하고, 이 정보를 바탕으로 데이터베이스에서 관련 지식을 검색한 후, 텍스트로 생성하여 사용자에게 제공하는 과정을 거친다.



예를 들어, 한국의 사찰에서 촬영한 문양 이미지를 입력하면, 비전 모델이 해당 문양의 특징을 분석하여 역사적 의미와 관련 정보를 텍스트로 변환하여 제공할 수 있다. 이러한 방식은 문화유산의 이해를 높이고, 깊이 있는 탐색을 돕는다.
 

3. ChatGPT 비전 기능의 실제 활용 사례


ChatGPT 비전 기능은 문화유산을 방문할 때 특히 유용하다. 한국 사찰이나 궁궐 등에서 건축물의 문양을 사진으로 찍어 업로드하면, 해당 문양의 역사적 의미와 상징성을 이해하는 데 도움을 받을 수 있다.

이러한 기능은 일반 검색(구글, 네이버 등)에서도 이제는 제공하는 기본 기능인데 차이점은 일반 검색엔진에서는 내가 올린 사진과 유사한 사진이 있는 사이트를 검색해 주고 내가 다시 사이트를 방문하여 해당 내용을 파악해야 하지만 chatGPT는 그 이미지에 대한 정보를 바로 알려주는 것이 차이점이라 할 수 있다.


■ 사찰, 궁궐 등 건축물의 문양 분석

예를 들어 사찰의 대웅전 문양이나 용 조각을 촬영하면, ChatGPT는 이를 분석해 불교에서 용이 상징하는 바를 설명하고, 관련된 문화적 배경을 제공하여 깊이 있는 이해를 돕는다.


■ 문양의 상징적 의미와 역사적 배경 해석

비전 기능을 통해 얻은 정보는 사찰의 건축물에 담긴 역사적 의미를 이해하는 데 매우 유용하며, 이를 통해 문화유산에 대한 깊이 있는 경험을 제공한다



 


■ 예술 작품 감상에서의 활용

미술관이나 박물관에서 그림 또는 조각 작품을 감상할 때에도 ChatGPT의 비전 기능을 통해 해당 작품에 대한 깊이 있는 정보를 얻을 수 있다. 이는 작품에 담긴 의미를 이해하고 감상의 폭을 넓히는 데 유용하다.



■ 학습 및 연구에서의 활용

과학, 생물학, 화학 등의 학문 분야에서도 이미지 해석을 통해 연구에 필요한 정보를 빠르게 얻을 수 있으며, 학생과 연구자들에게도 강력한 도구가 될 수 있다.
 

4. 기존 검색 엔진과 AI 기반 검색 서비스의 차이점


기존 검색 엔진은 키워드를 중심으로 정보를 검색하기 때문에 사용자가 정확한 키워드를 입력해야 원하는 정보를 얻을 수 있다. 반면, AI 기반 멀티모달 검색은 이미지와 같은 시각적 정보를 활용하여 직관적이고 효율적인 검색을 가능하게 한다.


■ 구글과 같은 기존 검색 엔진의 한계 및 AI가 이를 어떻게 개선하는지

구글과 같은 기존 검색 엔진은 텍스트 중심의 검색 방식을 취하지만, AI 멀티모달 검색은 다양한 입력 형식을 지원하여 더 많은 정보를 전달할 수 있다.
 


5. 멀티모달 검색 시대에 대비해야 할 자세


멀티모달 검색 기술은 일상에서의 정보 탐색 방식을 바꿔 놓을 것이다. 특히 학습과 연구, 관광, 쇼핑 등에서 이미지 인식을 통한 검색이 확산될 것이다.

따라서 교육, 관광, 마케팅 등 다양한 분야에서 AI 기반 검색 도구를 활용할 수 있는 역량을 키워야 하며, 이를 통해 효율적인 정보를 탐색할 수 있다. 다양한 분야에서 멀티모달 검색을 활용하기 위한 준비가 필요하다.


6. 결론: AI 멀티모달 기능과 새로운 지식 탐색의 시대


AI 검색의 발전이 가져올 지식의 확장성은 더욱 확대 될 것이다. 따라서 AI 기반 검색 기술은 지식의 범위와 깊이를 넓히는 데 중요한 역할을 할 것다.

ChatGPT와 같은 AI 도구를 활용하여 보다 풍부한 지식을 얻고, 이를 통해 우리의 삶과 일상의 경계를 넓혀 나가는 자세가 필요하다.


매거진의 이전글 RAG 기법을 적용한 인터뷰 내용 정리
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari