brunch

이미지 분석의 새로운 지평

인공지능과 이미지 인식

by 최재철

llama 3.2 Vision: 이미지 분석의 새로운 지평


인공지능(AI)은 최근 몇 년 동안 급격히 발전하며 다양한 산업과 일상생활에 큰 영향을 미쳤습니다. 특히 이미지 인식과 관련된 분야는 AI의 발전 덕분에 많은 혁신이 이루어졌습니다. 우리가 스마트폰으로 촬영한 사진이나 비디오를 통해 사물을 인식하고, 자율주행차가 도로 위의 사물을 감지하는 것 모두 이미지 인식 기술의 성과입니다.

이미지 인식 AI는 대규모 데이터셋으로 학습된 모델을 사용해 이미지 속 객체나 장면을 분석하고 설명하는 역할을 합니다. 이 기술은 의료, 교통, 보안, 엔터테인먼트 등 다양한 분야에서 활용되고 있으며, 이제는 텍스트 기반의 대화형 AI와 결합되어 더욱 강력한 도구로 거듭나고 있습니다.


llama 3.2 Vision: 텍스트와 이미지를 이해하는 AI


라마는 Meta에서 개발한 AI 모델 시리즈로, 주로 텍스트 처리에 탁월한 성능을 보이는 언어 모델입니다. 특히 llama 3.2 Vision은 기존의 라마모델에 이미지 인식 기능을 더한 버전으로, 이미지와 텍스트를 모두 이해하고 분석할 수 있는 능력을 갖추고 있습니다. 이를 통해 이미지를 단순히 인식하는 것뿐만 아니라, 해당 이미지에 대한 설명을 생성하거나, 이미지 속 정보에 기반한 질의응답(Q&A) 기능을 수행할 수 있습니다.

llama 3.2 Vision의 핵심은 멀티모달(multimodal) AI 기술입니다. 멀티모달 AI는 텍스트, 이미지, 음성 등 다양한 형태의 데이터를 동시에 처리하고, 이를 상호 연관시켜 이해하는 기술을 의미합니다. llama 3.2 Vision은 이러한 기술을 바탕으로 이미지 속의 시각적 정보를 분석하고, 그에 맞는 텍스트 응답을 생성하는 기능을 제공합니다.


실습하기


이제 Ollama에서 llama 3.2 Vision 11B / 90B 사이즈로 실행할 수 있습니다.


* Ollama 를 다운로드 (https://ollama.com/download) 한 다음 실행하세요.


ollama run llama3.2-vision

더 큰 90B 모델을 실행하려면,

ollama run llama3.2-vision:90b
참고: Llama 3.2 Vision 11B에는 최소 8GB의 VRAM이 필요하고, 90B 모델에는 최소 64GB의 VRAM이 필요합니다.


이미지 Q&A

llama3.2-vision-imageqa.png


파이썬 프로그래밍 작성

화면 캡처 2024-12-27 002455.png

(주의) 로컬이미지파일 업로드시 403 에러발생합니다. 이때 실행방법은
$ streamlit run app.py --server.enableXsrfProtection false


결과화면

화면 캡처 2024-12-27 002129.png

[영어 원문]

This image shows a bluebird perched on top of what looks like the corner of a wooden fence or railing. It appears to be sitting on top of the corner post, facing toward the right side of the frame. The bird has its head turned slightly so that it can look at the viewer.


[한국어번역]

이 이미지는 푸른 새가 나무 울타리나 난간 모서리 위에 앉아 있는 모습을 보여줍니다. 새는 모서리 기둥 위에 앉아 오른쪽을 향하고 있으며, 머리를 약간 돌려서 보는 사람을 바라보고 있는 것처럼 보입니다.


좋은 결과가 나왔네요. ^^

sticker sticker

일반적으로 이미지 Q&A 시스템은 다음과 같은 방식으로 작동합니다.

이미지 입력: 사용자가 AI 시스템에 이미지를 업로드합니다.

이미지 분석: AI 모델은 이미지를 분석하여 이미지 속의 객체, 장면, 텍스트 등을 인식합니다.

질문 입력: 사용자가 이미지에 대해 궁금한 질문을 텍스트로 입력합니다. 예를 들어, "이 사진에 무슨 동물이 있나요?"라는 질문을 할 수 있습니다.

답변 생성: AI 모델은 이미지 분석 결과를 바탕으로 사용자의 질문에 대한 답변을 생성합니다. 예를 들어, "이 사진에는 고양이와 강아지가 있습니다."라는 답변을 제공할 수 있습니다.



실생활에서의 응용

이미지 Q&A 기술은 다음과 같은 실생활의 다양한 응용 사례를 제공합니다.

소셜 미디어: 사용자가 이미지를 업로드하면 자동으로 이미지 설명이나 태그를 생성

교육 도우미: 학생들이 특정 사진이나 그림에 대해 질문을 던지면, AI가 이미지에 대해 자세히 설명

헬스케어 어플리케이션: 의료 이미지를 분석하여 의사나 환자에게 상세한 설명을 제공

고객 서비스: 고객이 제품 이미지를 업로드하면, AI가 해당 제품에 대해서 정보를 제공하고 질문에 답변


마치며

라마 3.2 Vision 및 이미지 Q&A 기술은 AI의 가능성을 한 단계 더 확장하는 도구입니다. 텍스트와 이미지를 동시에 처리하고 분석하는 멀티모달 AI는 다양한 산업에서 혁신적인 애플리케이션을 개발할 수 있는 기회를 제공합니다. Ollama와 같은 플랫폼을 통해 이러한 AI 모델을 쉽게 활용할 수 있습니다.

keyword
작가의 이전글AI 기반 비디오 생성 서비스 소개