brunch

9. Gemini-멀티모달

by Master Seo


<0> Gemini Pro Vision의 멀티모달리티

<1> Vertex AI > Workbench

<2> Gemini Pro Vision 모델




<0> Gemini Pro Vision의 멀티모달리티



1

텍스트와 이미지를 입력으로 하는 사용 사례 예시:

사진에서 객체 감지

화면 및 인터페이스 이해

그림 및 추상화 이해

차트 및 다이어그램 이해

사용자 선호도를 바탕으로 이미지 추천

여러 이미지의 유사성, 이상치, 차이점 비교



2

텍스트와 동영상을 입력으로 하는 사용 사례 예시:

동영상 설명 생성

동영상 전반에서 객체의 태그 추출

동영상의 하이라이트/메시지 추출



3

Vertex AI

모든 권장 API 사용 설정





<1> Vertex AI > Workbench



사용자 관리 노트북 > 피터 랩 오픈




<2> Gemini Pro Vision 모델



1

여러 이미지를 통한 이미지 이해

과일 이미지와 가격표를 사용해 Gemini로 식료품의 전체 가격을 계산해 봅니다.



30 FOOD.png


2

화면 및 인터페이스 이해

내 진행 상황 확인하기



3

기술 다이어그램에서 항목 관계 이해



4

여러 이미지를 기반으로 추천

40 비교.png


5

유사성/차이점


이미지 비교도 해줌


50 IMAGE 비교.png



6

비디오

60 VIDEO.png



다음

https://brunch.co.kr/@topasvga/3795


keyword
매거진의 이전글8. 생성형 AI 스튜디오 소개