brunch
매거진 SIDE PROJECT

3. 오감을 확장하는 AI

멀티 모달 능력에 대하여

by Cozy canvas

이제는 왠만한 AI도구들 모두 텍스트를 넘어 이미지와 소통하는 '멀티 모달 능력' 기능이 탑재 되어 있다. 이미지를 단순히 첨부하는 것을 넘어 제미나이는 이미지를 어떻게 '이해'하고 '분석'할까? 그 원리에 대해 알아보자.


학습목표 :

이미지 업로드 및 분석: Gemini에 이미지를 업로드하고, 이미지에 대한 정보를 요청한다.

이미지 분석의 기본 원리 이해: Gemini가 이미지를 '읽는' 방식의 개념을 익힌다.

텍스트와 이미지 결합: 이미지와 관련된 질문을 텍스트로 추가하여 복합적인 답변을 얻는 방법을 연구한다.


STEP1. 멀티모달(Multimodal) 이해하기


1.멀티모달(Multimodal)의 기본 정의


멀티모달은 '다양한(Multi)'과 양식(Modal)'이 결합된 단어로 컴퓨터시스템이나 인공지능이 두 가지 이사의 다른 종류의 데이터를 동시에 처리하고 이해하는 능력을 의미한다.


모달(Modal) = 양식(데이터 형식): 여기서 '양식'은 우리가 세상을 인지하는 다양한 방법들을 뜻한다. 예를 들어 시각(이미지, 영상), 청각(소리, 음성), 촉각, 후각, 미각, 그리고 텍스트(글) 등이 모두 각각의 '모달'이 되는 것이다.


따라서 '멀티모달 AI'는 단순히 텍스트만 처리하거나 이미지만 분석하는 것을 넘어 텍스트, 이미지, 오디오, 비디오 등 여러 양식의 정보를 동시에 입력받아 복합적으로 추론하고 답변을 생성할 수 있는 AI를 말한다.


2. 멀티모달의 중요성과 시사점

인간의 인지 방식 모방
인간은 세상을 이해할 대 글, 그림, 소리 등 다양한 감각 정보를 종합적으로 활용한다. 멀티모달AI는 이와 같은 인간의 인지 방식을 모방하여 더욱 자연스럽고 포괄적인 이해 능력을 갖추게 된다.


복합적 문제 해결
멀티모달 능력 덕분에 AI는 단순히 '고양이'를 인식하는 것을 넘어 '고양이가 피아노 치는 영상'을 보고 '피아노 연주에 대한 정보'와 '고양이에 대한 정보'를 결합하여 추론할 수 있다. 이는 더 복잡하고 창의적인 문제 해결을 가능하게 한다.


제미나이와의 연결성
제미나이는 구글의 다양한 서비스와 연동될 대 멀티 모달의 진정한 가치를 드러낸다. 예를 들어 구글 문서에 있는 그래프 이미지를 제미나이에게 보여주고 그 그래프에 대한 설명을 텍스트로 요청하는 등 여러 모달을 섞어 업무를 자동화 할 수 있다.


3. 멀티 모달 AI는 왜 더 똑똑할까?

멀티 모달 AI가 똑똑하다고 평가받는 이유는 인간의 사고방식을 더 가깝게 모방하기 때문이다.

우리가 세상을 이해할 때를 생각해보자. 단순히 글자만 읽거나 그림만 보지 않는다. 우리는 '강아지 사진' 을 보고 '털이 복슬복슬하고 귀여운'이미지 정보와 '오늘 아침에 산책하는 강아지를 봤다'는 텍스트정보를 종합해 머릿속에서 귀여운 강아지라는 하나의 개념을 만든다.

1.png


기존의 AI가 텍스트 따로, 이미지 따로 정보를 처리하였는데 멀티 모달AI는 이 여러 정보를 한번에 결합해서 분석한다. 이러한 능력 덕분에 멀티모달AI는 아래와 같은 장점을 가진다.


더 깊은 이해
단순히 '이미지에 고양이가 있다'라고 인식하는 것을 넘어 '이 고양이가 지금 무언가를 쳐다보며 놀고 있다'는 상황과 맥락까지 파악한다.


더 정확한 답변
텍스트 질문에 이미지 정보를 더해 훨씬 정확하고 구체적인 답변을 제공한다. 예를 들어 '이 사진 속 가구는 어떤 스타일인가요?' 라는 질문에 단순히 텍스트로 대답하는 대신 시각적 정보까지 고려해 '이 가구는 빈티지 가구로 보이며 1960년대 북 유럽 스타일의 특징을 가지고 있습니다'와 같이 훨씬 풍부한 답변을 줄 수 있다.


창의적인 결과물
이미지와 텍스트를 결합해 새로운 콘텐츠를 만들어 내는 등 기존 AI보다 더 창의적인 작업을 수행 할 수 있다.


4. 멀티모달 능력의 확장

멀티모달 능력이 구글 workspace와 만났을 때 단순한 이미지 분석을 넘어 업무와 일상생활 자동화라는 혁신적인 시너지를 낼 수 있다. 이는 마치 제미나이가 나의 개인 비서가 되어 여러 앱에 흩어져 있는 자료를 한번에 정리해 주는 것과 같다.


2.png


** 예시 시나리오 진행 **

3.png 예시 시나리오 중 일정 관리 자동화 부분
4.png 구글 캘린더에 실제로 일정이 잡힌 모습



오늘의 과제

멀티모달 활용 과제: 주변 사물이나 풍경 사진을 찍어서 Gemini에 업로드해 보자.
단순히 "이게 뭐야?"라고 묻기보다, "이 사진에서 가장 중요한 요소는 뭐야?" 또는 "이 사진을 긍정적인 분위기의 문장으로 묘사해줘"처럼 이미지 내용과 관련된 추가적인 질문을 텍스트로 함께 던져보자.




Gemini가 이미지와 텍스트 질문을 어떻게 결합하여 답변하는지 확인하고, 가장 인상 깊었던 부분은 무엇이었는지 기록하자.




✓ 체크리스트

□ 멀티모달의 정확한 정의를 이해했는가?

□ Gemini에 이미지를 직접 업로드하고 관련 질문을 해보았는가?

□ 이미지와 텍스트를 함께 활용하여 복합적인 답변을 얻는 실습을 해보았는가?



keyword
매거진의 이전글2. 현재를 읽는 AI: 실시간 정보 검색의 힘