brunch

You can make anything
by writing

C.S.Lewis

by Master Seo May 03. 2024

9. Gemini-멀티모달


<0> Gemini Pro Vision의 멀티모달리티

<1> Vertex AI > Workbench

<2> Gemini Pro Vision 모델 




<0> Gemini Pro Vision의 멀티모달리티



1

텍스트와 이미지를 입력으로 하는 사용 사례 예시:  

사진에서 객체 감지

화면 및 인터페이스 이해

그림 및 추상화 이해

차트 및 다이어그램 이해

사용자 선호도를 바탕으로 이미지 추천

여러 이미지의 유사성, 이상치, 차이점 비교



2

텍스트와 동영상을 입력으로 하는 사용 사례 예시:  

동영상 설명 생성

동영상 전반에서 객체의 태그 추출

동영상의 하이라이트/메시지 추출



3

 Vertex AI

모든 권장 API 사용 설정





<1> Vertex AI > Workbench



사용자 관리 노트북  >  피터 랩 오픈




<2> Gemini Pro Vision 모델 



1

여러 이미지를 통한 이미지 이해

과일 이미지와 가격표를 사용해 Gemini로 식료품의 전체 가격을 계산해 봅니다.




2

화면 및 인터페이스 이해

내 진행 상황 확인하기



3

기술 다이어그램에서 항목 관계 이해



4

여러 이미지를 기반으로 추천


5

유사성/차이점


이미지 비교도 해줌




6

비디오



다음

https://brunch.co.kr/@topasvga/3795


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari