Llama 4 기반 13B 이하 멀티모달 오픈소스 모델 현황
현재 13B 이하의 Llama 4 기반 멀티모달 모델은 존재하지 않습니다.
모든 Llama 4 모델이 17B 활성 파라미터 이상
13B 이하 모델은 출시되지 않음
활성 파라미터: 17B (총 109B, 16 experts)
멀티모달: ✅ 텍스트 + 이미지 입력
컨텍스트: 10M 토큰
양자화: Int4로 단일 H100 GPU에서 실행 가능
라이선스: Llama 4 Community License
활성 파라미터: 17B (총 400B, 128 experts)
멀티모달: ✅ 텍스트 + 이미지 입력 (최대 5개 이미지)
컨텍스트: 1M 토큰
양자화: BF16, FP8 지원
라이선스: Llama 4 Community License
Meta 공식: meta-llama/Llama-4-Scout-17B-16E, meta-llama/Llama-4-Maverick-17B-128E
Unsloth 최적화: unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF
컬렉션: Meta, Unsloth에서 공식 컬렉션 제공
Transformers v4.51.0+ 완전 지원
TRL (Transformers Reinforcement Learning) 호환
Unsloth 고속 파인튜닝 지원
GGUF, Ollama, llama.cpp, vLLM 내보내기 지원
Scout: On-the-fly Int4/Int8 양자화로 단일 GPU 실행
Maverick: FP8 사전 양자화 버전 제공
GGUF: 다양한 양자화 레벨 지원
현재는 출시 초기 단계로 다음과 같은 모델들이 곧 등장할 것으로 예상:
Llama 4 Scout/Maverick → 더 작은 모델로 지식 전이
예상 크기: 3B, 7B, 13B 범위
코딩 특화: CodeLlama 4 계열
대화 특화: Chat-optimized 버전들
다국어 특화: 특정 언어 강화 모델
도메인 특화: 의료, 법률, 금융 등
모바일 최적화: 경량화 버전
엣지 디바이스: IoT, 임베디드 시스템용
실시간 추론: 지연시간 최적화 버전
MoE 구조: Mixture-of-Experts는 일정 규모 이상에서 효율적
멀티모달 융합: Early fusion 기법은 모델 크기 증가 요인
활성 파라미터: 17B가 현재 최소 효율적 크기
품질과 효율성의 균형점이 17B 활성 파라미터
13B 이하로는 멀티모달 성능 확보 어려움
양자화를 통한 접근성 향상에 집중
Llama 3.2 11B Vision: 멀티모달 지원
하지만 Llama 4 대비 성능 차이 존재
Int4 양자화로 메모리 사용량 대폭 감소
실질적으로 13B급 리소스로 실행 가능
성능 손실 최소화
향후 2-3개월 내 출시 예상
Llama 4 지식을 더 작은 모델로 전이
즉시 사용: Llama 4 Scout + Int4 양자화
파인튜닝: Unsloth를 활용한 고속 학습
배포: GGUF 형태로 경량화 배포
모니터링: 커뮤니티 증류 모델 출시 추적
커뮤니티 증류 모델 다수 출시
특화 파인튜닝 모델 생태계 형성
모바일/엣지 최적화 버전 등장
Llama 4.1/4.2 등 개선 버전에서 소형 모델 출시 가능
MoE 기술 발전으로 더 효율적인 소형 모델 가능
하드웨어 발전으로 현재 17B 모델의 접근성 향상
현재 시점에서 Llama 4 기반의 13B 이하 멀티모달 모델은 존재하지 않습니다.
가장 현실적인 선택은:
Llama 4 Scout (17B)를 Int4 양자화하여 13B급 리소스로 실행
커뮤니티 증류 모델 출시 대기 (2-3개월 예상)
기존 Llama 3.2 11B Vision 활용 (임시 대안)
Llama 4의 혁신적인 MoE 아키텍처와 멀티모달 성능을 고려할 때, 양자화된 Scout 모델이 현재 최선의 선택으로 보입니다.