brunch

You can make anything
by writing

C.S.Lewis

by AI러 이채문 Oct 02. 2024

결국, 그림 생성이 강세를 보인다.

9월 29일자 오픈소스 모델 트렌드

안녕하세요, 여러분. 오늘은 최근 인공지능 분야에서 주목받고 있는 몇 가지 흥미로운 모델들을 소개해드리려고 합니다. 이 모델들은 텍스트 인식부터 이미지 생성, 다국어 대화까지 다양한 기능을 제공하고 있어요. 함께 살펴볼까요?




먼저, stepfun-ai에서 개발한 'GOT-OCR2_0' 모델을 소개해드릴게요. 이 모델은 이미지 속 텍스트를 인식해 텍스트로 변환해주는 OCR(광학 문자 인식) 기술을 사용합니다. 특히 여러 언어를 지원하고 있어 글로벌 사용자들에게 유용할 것 같아요.

GOT-OCR2_0의 특징은 다음과 같습니다:  

    다국어 지원  

    특징 추출 기능  

    비전 언어 처리  

    사용자 지정 코드 제공  

이 모델은 NVIDIA GPU를 이용해 빠른 추론이 가능하며, Hugging Face의 transformers 라이브러리를 통해 쉽게 사용할 수 있어요. 일반 텍스트뿐만 아니라 형식이 있는 텍스트, 세밀한 OCR, 여러 영역을 동시에 인식하는 multi-crop OCR 등 다양한 OCR 유형을 지원한다고 하네요. 자세한 사용법은 GitHub에서 확인할 수 있답니다.




다음으로 소개할 모델은 meta-llama에서 개발한 'Llama-3.2-11B-Vision-Instruct'입니다. 이 모델은 텍스트뿐만 아니라 이미지도 입력으로 받아들일 수 있어요. 주요 기능으로는 이미지 인식, 이미지 추론, 이미지 설명 생성, 그리고 이미지를 포함한 대화형 챗봇 등이 있습니다.

Llama-3.2-Vision-Instruct의 특징:  

    시각적 질문 답변(VQA)  

    시각적 추론  

    문서 시각적 질문 답변(DocVQA)  

    이미지 캡션 생성  

    이미지-텍스트 검색  

    시각적 근거 제시  

이 모델은 11B(110억 개의 매개변수)와 90B(900억 개의 매개변수) 두 가지 버전으로 제공되며, 두 버전 모두 128k의 긴 컨텍스트를 처리할 수 있어요. 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어를 지원하지만, 영어만 이미지와 텍스트를 함께 처리할 수 있다고 해요. 개발자들은 Llama 3.2 커뮤니티 라이선스와 사용 정책을 준수한다면 다른 언어에 대해서도 모델을 미세 조정할 수 있답니다.



이어서 소개할 모델은 black-forest-labs에서 개발한 'FLUX.1-dev'입니다. 이 모델은 텍스트 설명을 바탕으로 이미지를 생성하는 기능을 가지고 있어요. 120억 개의 매개변수를 가진 정류된 흐름 변환기(rectified flow transformer)라고 하네요.

FLUX.1-dev의 특징:  

    최첨단 출력 품질 (FLUX.1 [pro] 다음으로 우수)  

    경쟁력 있는 프롬프트 처리 능력

    지도 증류 방식으로 훈련되어 효율적인 성능  

개발팀은 이 모델의 가중치를 공개하여 새로운 과학적 연구를 촉진하고, 예술가들이 혁신적인 워크플로우를 개발할 수 있도록 장려하고 있습니다. 이는 AI 기술의 발전과 창의적 활용을 위한 훌륭한 시도라고 볼 수 있겠죠.




다음으로 소개할 모델들은 모두 meta-llama에서 개발한 Llama 3.2 시리즈입니다. 이 시리즈는 다양한 크기와 특성을 가진 모델들로 구성되어 있어요.


먼저 'Llama-3.2-1B-Instruct'와 'Llama-3.2-3B-Instruct'입니다. 이 모델들은 각각 10억(1B)과 30억(3B) 개의 매개변수를 가진 다국어 대규모 언어 모델이에요. 주로 다국어 대화, 에이전트 검색, 요약 작업 등에 최적화되어 있습니다.

Llama 3.2 Instruct 모델의 특징:  

    다국어 지원 (영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어)  

    지도식 미세 조정(SFT)과 인간 피드백을 통한 강화 학습(RLHF) 적용  

    128k의 긴 컨텍스트 처리 가능  

이 모델들은 일반적인 산업 벤치마크에서 많은 오픈 소스 및 폐쇄형 채팅 모델들보다 우수한 성능을 보인다고 합니다.

'Llama-3.2-1B'와 'Llama-3.2-3B'는 위의 Instruct 버전과 비슷하지만, 사전 훈련된 기본 모델이에요. 이 모델들은 개발자들이 자신의 목적에 맞게 미세 조정하여 사용할 수 있도록 제공됩니다.



마지막으로 소개할 모델은 allenai에서 개발한 'Molmo-7B-D-0924'입니다. 이 모델은 오픈 비전 언어 모델의 일종으로, 이미지와 텍스트를 함께 처리할 수 있어요.

Molmo-7B-D의 특징:  

    PixMo 데이터셋(100만 개의 고품질 이미지-텍스트 쌍)으로 학습

    Qwen2-7B를 기반으로 하며 OpenAI CLIP을 비전 백본으로 사용

    GPT-4V와 GPT-4o 사이의 성능을 보임  

이 모델은 학술적 벤치마크와 인간 평가 모두에서 우수한 성능을 보이고 있으며, molmo.allenai.org에서 데모를 직접 체험해볼 수 있답니다.





이렇게 다양한 AI 모델들이 계속해서 개발되고 있다는 것은 정말 흥미롭지 않나요? 이러한 모델들은 우리의 일상생활과 업무에 큰 변화를 가져올 수 있을 것 같아요. 예를 들어, GOT-OCR2_0를 사용하면 외국어로 된 문서나 간판을 쉽게 번역할 수 있고, Llama-3.2-Vision 모델을 이용하면 시각 장애인들을 위한 이미지 설명 서비스를 개발할 수 있겠죠. FLUX.1-dev는 디자이너나 아티스트들에게 새로운 영감의 원천이 될 수 있을 것 같아요.


물론 이러한 기술들이 발전함에 따라 우리가 주의해야 할 점들도 있습니다. 개인정보 보호, 저작권 문제, 그리고 AI 기술의 윤리적 사용 등에 대해 계속해서 논의하고 규제를 만들어가야 할 거예요. 하지만 동시에 이러한 기술들이 우리 사회에 가져올 수 있는 긍정적인 변화에 대해서도 기대해볼 만하다고 생각합니다.

여러분은 이런 AI 모델들을 어떻게 활용하고 싶으신가요? 아마 지금 이 순간에도 전 세계의 연구자들과 개발자들이 더 나은 AI 모델을 만들기 위해 노력하고 있을 거예요. 우리가 상상하지 못했던 새로운 가능성들이 계속해서 열리고 있는 것 같아 정말 기대됩니다.


앞으로도 AI 기술의 발전 상황을 주목해보시면 좋을 것 같아요. 어쩌면 여러분 중에서 이런 혁신적인 AI 모델을 만들어내는 주인공이 나올지도 모르겠네요. 항상 호기심을 가지고 새로운 기술을 탐구하는 자세가 중요할 것 같습니다.


마지막으로, 이런 첨단 기술들이 우리의 삶을 더 풍요롭고 편리하게 만들어줄 수 있기를 희망합니다. 동시에 기술의 발전이 우리 사회의 모든 구성원들에게 평등하게 혜택을 줄 수 있도록 노력해야 할 것 같아요. 함께 더 나은 미래를 만들어가는 여정에 여러분도 동참해주시길 바랍니다. 오늘 소개해드린 AI 모델들에 대해 어떻게 생각하시나요? 여러분의 의견도 들어보고 싶네요.

매거진의 이전글 프라이버시 침해부터 딥페이크까지
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari