brunch

You can make anything
by writing

C.S.Lewis

by AI러 이채문 Oct 15. 2024

그림만드는 것을 시작한 이유

10월 13일자 오픈소스 모델 트렌드

여전히 컨텐츠 생성에 관련된 모델들이 강세를 보입니다.


최근 공개된 AI 모델들은 영상 및 음성 처리 분야에서 괄목할 만한 발전을 보여주고 있습니다. Pyramid Flow는 고해상도의 장편 비디오를 생성할 수 있는 능력을 선보였으며, OpenAI의 Whisper-large-v3-turbo는 음성 인식과 번역 분야에서 뛰어난 성능을 자랑합니다.


Pyramid Flow는 768p 해상도에서 24FPS로 10초 길이의 고품질 비디오를 생성할 수 있어, 영화나 광고 제작에 혁명을 일으킬 잠재력을 지니고 있습니다. 한편 Whisper-large-v3-turbo는 500만 시간 이상의 데이터로 훈련되어 다양한 환경에서 정확한 음성 인식 능력을 보여주며, 기존 모델보다 속도가 크게 개선되었습니다.


특이한 점이 있다면, 다중 모달 AI의 진화하고 있다는 점입니다.


Aria와 NVLM-D-72B는 다중 모달 AI 분야에서 획기적인 진전을 이루었습니다. 이 모델들은 텍스트, 이미지, 비디오 등 다양한 형태의 데이터를 동시에 처리하고 이해할 수 있는 능력을 갖추고 있습니다.


Aria는 64K 토큰의 긴 입력을 처리할 수 있으며, 256 프레임의 비디오를 10초 만에 캡션으로 변환할 수 있는 놀라운 속도를 자랑합니다. NVLM-D-72B는 GPT-4V와 같은 독점 모델들과 견줄 만한 성능을 보이며, 특히 텍스트 처리 능력이 향상되어 다중 모달 학습 이후에도 텍스트 전용 작업에서 우수한 성능을 유지한다는 점이 주목할 만합니다.


결국정리해보자면, 오픈소스 AI의 부상하고 있다는 점입니다.


FLUX.1-dev와 NVLM-D-72B의 공개는 AI 연구 커뮤니티에 큰 힘이 될 것으로 보입니다. 이러한 고성능 모델들의 오픈소스화는 AI 기술의 민주화와 혁신 가속화에 기여할 것입니다.

FLUX.1-dev는 120억 개의 매개변수를 가진 대규모 모델로, 폐쇄형 소스 대안들과 견줄만한 성능을 제공합니다. 특히 이 모델은 효율적인 지도 학습 방식으로 훈련되어, 연구자들에게 새로운 학습 방법론에 대한 통찰을 제공할 것으로 기대됩니다. NVLM-D-72B 역시 최고 수준의 성능을 자랑하는 모델을 공개함으로써, AI 연구의 발전과 새로운 응용 프로그램 개발을 촉진할 것으로 보입니다.

이러한 최신 AI 모델들의 발전은 영상 제작, 음성 인식, 다국어 처리, 그리고 복합적인 데이터 분석 분야에 큰 변화를 가져올 것으로 예상됩니다. 특히 오픈소스 모델들의 등장으로 AI 기술의 접근성이 높아져, 더 많은 혁신과 응용이 가능해질 전망입니다.





각 모델별로 정보를 

한눈에 볼 수 있게 정리해드리겠습니다.


Pyramid Flow (pyramid-flow-sd3)

Pyramid Flow는 효율적인 자동 회귀 비디오 생성 방법을 제시합니다. 이 모델의 주요 특징은 다음과 같습니다:  

    Flow Matching 기반의 비디오 생성 기술 사용  

    오픈 소스 데이터셋만으로 학습  

    768p 해상도, 24FPS의 고품질 10초 비디오 생성 가능  

    이미지에서 비디오 생성 기능 지원  

    Hugging Face에서 직접 다운로드 가능  

    768p 및 384p 비디오 생성을 위한 모델 체크포인트 제공  

Pyramid Flow의 독자성은 고품질 비디오 생성 능력과 오픈 소스 학습 데이터 사용에 있습니다. 이는 AI 비디오 생성 기술의 접근성을 높이고 있습니다.



Whisper-large-v3-turbo

OpenAI에서 개발한 이 모델은 자동 음성 인식(ASR) 및 음성 번역 분야의 최신 기술을 대표합니다:  

    500만 시간 이상의 레이블이 지정된 데이터로 훈련  

    다양한 데이터 세트와 도메인에서 뛰어난 일반화 능력  

    Whisper large-v3의 미세 조정 버전으로, 디코딩 계층 수를 32에서 4로 축소  

    기존 모델 대비 속도 향상, 약간의 품질 저하 발생  

이 모델의 독자성은 대규모 데이터셋 학습과 모델 최적화를 통한 속도 향상에 있습니다.



Aria

Aria는 다양한 멀티모달, 언어 및 코딩 작업에 특화된 혼합 전문가 모델입니다:  

    토큰당 3.9B 활성화 매개변수를 가진 경량 모델  

    최대 64K 토큰의 멀티모달 입력 지원  

    256 프레임 비디오를 10초 만에 캡션 생성 가능  

    이미지, 문서, 비디오 이해 작업에서 우수한 성능  

    다양한 벤치마크에서 최첨단 성능 달성  

Aria의 독자성은 경량 모델임에도 불구하고 다양한 멀티모달 작업에서 뛰어난 성능을 보이는 점입니다.



FLUX.1-dev

FLUX.1-dev는 텍스트 설명으로 이미지를 생성하는 대규모 모델입니다:  

    120억 개 매개변수의 정류된 흐름 변환기  

    FLUX.1 [pro] 다음으로 뛰어난 출력 품질 제공  

    폐쇄형 소스 대안과 동등한 프롬프트 따르기 능력  

    지도 학습을 통한 효율적인 훈련  

    가중치 공개로 과학 연구 및 예술가 워크플로우 혁신 지원  

FLUX.1-dev의 독자성은 고품질 이미지 생성 능력을 오픈 소스로 제공하여 연구와 창작 활동을 지원하는 데 있습니다.


NVLM-D-72B

NVIDIA에서 개발한 NVLM-D-72B는 최첨단 다중 모달 대규모 언어 모델입니다:  

    시각 언어 작업에서 최고 수준의 성능 달성  

    GPT-4V, GPT-4o와 경쟁력 있는 성능  

    Llama 3-V 405B 및 InternVL2-Llama3-76B보다 우수한 성능  

    텍스트 전용 벤치마크에서도 뛰어난 성능 보유  

    디코더 전용 아키텍처 사용  

NVLM-D-72B의 독자성은 다중 모달 학습 후에도 텍스트 전용 성능이 향상되는 점과 최고 수준의 성능을 오픈 소스로 제공하는 데 있습니다.

매거진의 이전글 결국, 그림 생성이 강세를 보인다.
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari