소형 LLM의 월드컵이 시작되었다

이제는 크기보다 실력이다. 소형 LLM의 성능을 입체적으로 비교한다

by SeaWolf

스마트폰 AI가 노트북 AI를 이겼다 — 18개 모델을 직접 시험 봤더니...


요즘 AI 모델이 쏟아져 나옵니다. 매주 새로운 모델이 나오고, 모두 "우리가 제일 좋다"고 합니다.

그런데 정작 중요한 질문에는 아무도 답하지 않습니다.


"이 AI, 내 폰에서 돌아가?"


시험을 만들었습니다

기존 AI 시험(벤치마크)은 이상한 구조입니다. 5천억 파라미터짜리 거대 AI와 10억 파라미터짜리 작은 AI에게 같은 시험을 줍니다. 큰 놈이 이기면 "역시 크면 좋구나" 하고 끝납니다.

그런데 현실에서 AI를 쓰는 사람 입장은 다릅니다.

스마트폰에 올릴 건데, 2GB에서 돌아가야 합니다

라즈베리파이에 넣을 건데, 1.5GB가 한계입니다

노트북이 8GB인데, 다른 프로그램도 써야 합니다


"얼마나 똑똑한가"만으로는 부족합니다. 얼마나 작은가, 얼마나 빠른가, 얼마나 정직한가 — 이 모든 걸 동시에 봐야 합니다.

그래서 시험을 새로 만들었습니다. 이름은 Smol AI WorldCup.

125개 문제, 7개 언어(한국어 포함), 18개 모델, 12개 제조사.


1.png


2.png


다섯 가지를 동시에 봅니다

보통 AI 시험은 "지능"만 봅니다. 우리는 다섯 가지를 봅니다.

S — 크기. 이 모델이 메모리를 얼마나 차지하나요?

H — 정직함. 모르는 걸 아는 척하지 않나요? 가짜 정보를 만들어내지 않나요?

I — 지능. 수학, 코딩, 논리, 7개 언어 — 진짜 똑똑한가요?

F — 속도. 초당 몇 글자를 만들어내나요?

T — 절약. RAM을 얼마나 아껴 쓰나요?

앞글자를 따면 SHIFT입니다.


가장 놀라운 결과 다섯 가지

18개 모델을 전부 시험 보게 했습니다. 결과가 상식을 뒤집었습니다.


1. 4B가 8B를 이겼습니다

구글의 Gemma-3n-E4B는 40억 파라미터 모델입니다. 메모리 2GB면 돌아갑니다. 스마트폰 급이죠.

Qwen3-8B는 80억 파라미터 모델입니다. 메모리 5.5GB가 필요합니다. 노트북 급입니다.

시험 결과요?

Gemma-3n-E4B: 77.3점

Qwen3-8B: 76.9점


스마트폰 AI가 노트북 AI를 이겼습니다. 차이는 0.4점. RAM은 2.75배 차이.

파라미터를 두 배로 늘려도 점수는 거의 같습니다. 대신 메모리는 두 배 이상 먹습니다.


2. 라즈베리파이에서 챔피언스리그 성능

GPT-OSS-20B라는 모델이 있습니다. 총 파라미터는 210억이지만, 한 번에 36억만 켜는 방식(MoE)으로 작동합니다. 실제 메모리는 1.5GB만 씁니다.

1.5GB면 라즈베리파이에 올라갑니다.

그런데 시험 점수는 8.5GB 메모리가 필요한 대형 모델과 같은 수준입니다.

같은 성적, 메모리 5.7배 절약. 마법 같지만 기술입니다.


3. "생각하는 AI"의 함정

요즘 인기 있는 "생각하는 AI"(Thinking 모델)가 있습니다. 답변 전에 내부적으로 추론을 합니다. 더 똑똑할 것 같죠?

실제로 테스트해봤더니 오히려 점수가 낮습니다.

같은 80억 급 비교:

일반 모델 (Qwen3-8B): 76.9점, 초당 187 글자

생각하는 모델 (DeepSeek-R1-7B): 68.2점, 초당 69 글자


점수도 낮고, 속도도 2.7배 느립니다.

왜 그럴까요? 이 시험은 정해진 형식(JSON)으로 답을 내야 합니다. 생각하는 AI는 내부 추론 과정이 형식을 방해해서 점수가 깎입니다.

생각하는 것이 항상 좋은 건 아닙니다. 특히 정해진 형식이 중요한 실전에서는요.


4. 작은 AI는 거짓말쟁이

이번 시험에서 가장 무서운 결과입니다.

존재하지 않는 사람, 존재하지 않는 논문, 존재하지 않는 제품에 대해 물어봤습니다. 정직한 AI라면 "모릅니다"라고 답해야 합니다.

13억 파라미터 모델(Llama-3.2-1B)의 결과: 80%의 확률로 가짜 내용을 자신있게 생성합니다.

"김철수 서울대 교수의 2024년 논문에 대해 알려줘"라고 물으면, 존재하지 않는 김철수 교수의 존재하지 않는 논문 내용을 자신있게 지어냅니다.

반면 Qwen3 시리즈는 17억부터 350억까지 전 사이즈에서 거짓말 탐지율이 높았습니다. 학습 방법이 모델 크기보다 중요하다는 뜻입니다.


5. 1.7B가 14B를 이겼습니다

Qwen3-1.7B는 17억 파라미터입니다. 메모리 1.2GB면 됩니다.

이 모델이 다음 세 모델을 전부 이겼습니다:

Mistral-7B (72억, 5GB) — 6.2점 차이로 이김

Llama-3.1-8B (80억, 5.5GB) — 5.8점 차이로 이김

DeepSeek-R1-14B (148억, 9.5GB) — 7.0점 차이로 이김


17억이 148억을 이겼습니다. 8.7배 작은데 7점 더 높습니다.

비결은 간단합니다. 모델 아키텍처의 세대 차이입니다. 2025년에 나온 소형 모델이 2024년에 나온 대형 모델보다 낫습니다.


3.png
4.png
5.png


순위는 어떻게 매기나요?

"제일 똑똑한 모델"이 1등이면 간단하겠지만, 그러면 큰 모델이 항상 이깁니다. 소형 모델 시험의 의미가 없어집니다.

"제일 효율적인 모델"이 1등이면? 그러면 점수가 낮아도 작기만 하면 1등입니다. 그것도 이상합니다.

우리의 해결책: 둘 다 높아야 높은 점수를 받는 공식.

WCS = √(품질 × 효율)

똑똑하지만 거대하면? 낮은 점수. 작지만 멍청하면? 역시 낮은 점수. 똑똑하면서 작아야 높은 점수입니다.

이 기준으로 매긴 1등은 GPT-OSS-20B입니다. 품질 2등, 효율 2등 — 양쪽 다 상위권이라 종합 1위가 됩니다.


그래서 뭘 쓰면 되나요?

용도별로 정리했습니다.

스마트폰에 올릴 AI가 필요하면 → Gemma-3n-E4B (2GB, 품질 1위)

가장 가성비 좋은 AI가 필요하면 → GPT-OSS-20B (1.5GB로 챔피언스급)

가장 빠른 AI가 필요하면 → Llama-4-Scout (초당 240글자)

거짓말 안 하는 AI가 필요하면 → Qwen3-8B (정직성 최고)

가장 작은 AI가 필요하면 → Qwen3-1.7B (1.2GB로 14B급 성능)


소형 AI의 시대

"AI는 클수록 좋다"는 말, 더 이상 사실이 아닙니다.

4B가 8B를 이기고, 1.5GB로 챔피언스급 성능이 나오고, 1.7B가 14B를 넘는 세상이 이미 와 있습니다.

중요한 건 크기가 아니라 어떻게 만들었는가입니다.

이 시험의 모든 데이터는 공개되어 있습니다. 125개 문제, 7개 언어, Apache 2.0 라이선스. 누구나 자기 모델을 시험 볼 수 있습니다.


6.png
7.png


→ 리더보드: huggingface.co/spaces/ginigen-ai/smol-worldcup

→ 데이터셋: huggingface.co/datasets/ginigen-ai/smol-worldcup


Ginigen.ai — 작지만 강한 AI의 세상을 열다

작가의 이전글AI가 "모르겠습니다"라고 말할 수 있게 된 날