작은 모델부터 큰 모델까지 — LLM 세계 지도
모델들의 크기 — LLM 세계 지도
'7B면 작은 거야?'
DeepSeek-R1 671B. Llama 4 Maverick 400B. GPT-5.
세 모델 다 'B'(Billion, 10억)를 단위로 쓴다. 그런데 의미가 다르다.
R1은 671B 파라미터를 갖고 MATH-500에서 97.3%를 기록했다. Maverick은 400B이지만 한 번에 쓰는 파라미터는 17B뿐이다. GPT-5는 파라미터 수를 공개하지 않았다. 대신 문제의 복잡도에 따라 서브모델을 골라 답한다.
같은 'B'인데 셋 다 다르다. 이 글은 그 숫자가 무엇을 말해주고, 무엇을 말해주지 않는지 정리해 보겠다.
사람의 뇌에는 약 100조 개의 시냅스가 있다. 시냅스는 뉴런 사이의 연결점이다. '불은 뜨겁다', '비가 오면 우산을 쓴다' 같은 지식이 이 연결들의 강도 패턴으로 저장된다.
파라미터(parameter)는 AI 버전의 시냅스다. 모델이 학습하면서 스스로 조정하는 숫자들이다.
두 종류가 있다.
가중치(weight): "이 정보가 얼마나 중요한가?"를 결정하는 숫자. 뇌의 시냅스 강도에 해당한다. '사과' 다음에 '맛있다'가 올 확률이 높다면, 그 연결의 가중치가 크다.
편향(bias): "기본값을 어디에 놓을 것인가?"를 정하는 숫자. 어떤 뉴런이 얼마나 쉽게 활성화될지를 조정한다.
파라미터의 99% 이상이 가중치다. 모델 이름 뒤의 '7B'나 '70B'는 곧 가중치의 개수다.
가중치는 시행착오로 만들어진다.
모델이 "오늘 날씨가 ___"의 빈칸을 예측한다. 처음에는 엉뚱한 답을 내놓는다. 정답과 비교해서 틀린 만큼 가중치를 살짝 조정한다. 이걸 수조 번 반복하면 문법, 사실 지식, 추론 방법이 가중치 패턴 안에 새겨진다.
파라미터는 모델의 잠재 용량이다. 지식을 담을 수 있는 공간의 상한선. 용량이 크면 더 많은 지식을 저장할 수 있지만, 그 공간을 실제로 채우는 건 학습 데이터와 훈련 기법이다.
물리적 크기도 있다. FP16(반정밀도) 기준으로 1B 파라미터는 약 2GB의 GPU 메모리(VRAM)를 차지한다. 70B 모델을 돌리려면 약 140GB — NVIDIA A100 80GB 두 장이 필요하다. 파라미터가 많을수록 더 많은 하드웨어가 필요하다.
주요 LLM의 파라미터 수를 정리했다.
숫자의 범위가 1B에서 ~3T(추정)까지 벌어졌다. 한쪽에서는 Grok 3가 Elo 1위를 찍고, 다른 쪽에서는 GPT-4.5가 실용성이 떨어져 폐기됐다. 각 모델의 설계 의도가 다르다.
GPT-4의 파라미터는 약 1.8T(1조 8,000억)로 추정된다. Grok 3는 약 3T. 하지만 이 숫자가 곧 추론 비용은 아니다.
GPT-4가 한 토큰을 생성할 때 실제로 쓰는 파라미터는 약 280B뿐이다. 나머지 1.5T는 대기 상태다.
이게 MoE(Mixture of Experts) 아키텍처다. 원리는 조건부 연산. 입력에 따라 모델의 일부 파라미터만 활성화한다.
세 가지 구성 요소가 있다.
전문가(Expert): 특정 유형의 입력에 특화된 서브 네트워크.
라우터(Router): 각 토큰을 어떤 전문가에게 보낼지 결정하는 선택기.
희소 활성화(Sparse Activation): 입력당 소수의 전문가만 활성화. 대부분 Top-2 — 가장 적합한 전문가 2명만 고른다.
MoE에서 총 파라미터는 모델이 알 수 있는 것의 상한선이다. 671B 전체에 지식이 분산 저장되어 있다. 입력에 따라 37B 분량의 전문가가 골라서 답한다. 동시에 총 파라미터는 메모리 요구량도 결정한다. 모든 전문가가 GPU 메모리에 올라가 있어야 하기 때문이다.
활성 파라미터는 연산 비용을 결정한다. Llama 4 Scout이 "109B인데 단일 H100에 올라간다"는 말은 총 용량이 109B이지만 추론 연산량이 17B Dense 모델과 비슷하다는 뜻이다.
두 숫자를 구별하면 모델 스펙을 더 정확히 읽을 수 있다.
파라미터 수와 성능이 항상 비례하지는 않는다. 하지만 큰 잠재 용량이 있어야 도달할 수 있는 영역이 있다.
프론티어 추론. 가장 어려운 수학·과학·코딩 문제에서 최고 성적은 대형 모델이 보유한다.
DeepSeek-R1(671B)은 MATH-500에서 97.3%를 기록했다. DeepSeek-V3.2(671B)는 IMO와 IOI에서 금메달을 땄다. GPT-5는 AIME 94.6%, SWE-bench 74.9%를 달성했다. Grok 3는 LMArena Elo 1,402로 1위에 올랐다.
창발적 능력. Wei et al.(2022)은 작은 모델에 없던 능력이 큰 모델에서 갑자기 나타나는 현상을 발견했다. Schaeffer et al.(2023)은 이것이 평가 지표의 착시일 수 있다고 반론했고, NeurIPS 2024 연구는 핵심 변수가 모델 크기가 아니라 사전학습 손실이라는 관점을 제시했다. 창발이 진짜인지 착시인지는 열린 문제다. 다만 현재 시점에서 AIME, IMO, SWE-bench 같은 최난이도 벤치마크의 최고 점수는 대형 모델이 기록하고 있다.
지식의 폭. Qwen 2.5는 72B 파라미터에 18T 토큰을 학습해 29개 언어를 지원한다. 저자원 언어, 장문 컨텍스트, 넓은 도메인 지식은 잠재 용량이 충분한 대형 모델에 유리하다.
교사 모델. 큰 모델이 있어야 작은 모델이 태어난다. Llama 4 Behemoth(~2T)가 Scout과 Maverick의 교사 역할을 했고, DeepSeek-R1(671B)에서 6개의 증류 모델이 파생됐다. Phi-4(14B)는 GPT-4o가 생성한 합성 데이터로 학습했다.
대형 모델은 소형 모델 생태계의 원천이다. 그렇다면 그 소형 모델들은 어디까지 올라왔을까.
큰 모델이 앞서는 영역이 있지만, 같은 잠재 용량에서 더 많은 성능을 꺼내는 기술이 빠르게 발전하고 있다.
벤치마크 역전. Gemma 3(27B)는 LMArena에서 DeepSeek-V3(671B)와 Llama 3.1 405B를 사용자 블라인드 투표로 이겼다. Phi-4(14B)는 MMLU 84.8%로 70B급 모델을 넘었다. 파라미터 수만으로는 설명이 안 되는 결과들이다.
이걸 가능하게 하는 기법이 세 가지 있다.
증류(Distillation). 큰 교사 모델의 지식을 작은 학생 모델로 옮긴다. Llama 4 Scout/Maverick은 Behemoth(~2T)에서, Gemma 3의 소형 모델은 Gemini에서, DeepSeek-R1의 증류 모델 6종은 671B에서 각각 증류됐다.
양자화(Quantization). 파라미터의 정밀도를 FP16(16비트)에서 INT4(4비트)로 낮추면 메모리가 75% 줄어들면서 품질의 약 95%를 유지한다. Gemma 3는 양자화 인식 학습(QAT) 버전을 공식 제공한다.
합성 데이터와 초과학습. 스케일링 법칙의 진화가 배경에 있다.
2020년 Kaplan et al.은 모델을 크게 만드는 게 가장 효과적이라고 했다. 2022년 Chinchilla 논문은 모델과 데이터를 동등하게 키워야 한다고 수정했다.
현재는 한 걸음 더 나아가, 작은 모델에 데이터를 몰아넣는 초과학습이 추세다. Phi-4는 GPT-4o로 생성한 합성 데이터를 포함해 9.8T 토큰을 학습했다. Llama 4 Scout(활성 17B)은 40T 토큰을 학습했는데, 활성 파라미터 기준 파라미터당 약 2,350토큰이다. Chinchilla 최적(파라미터당 15~25토큰)의 100배에 가까운 수준이다.
증류와 합성 데이터가 학습 단계의 밀도를 높이고, 양자화가 추론 단계의 효율을 높인다. 이 흐름을 정량화한 법칙이 있다. 칭화대 연구팀이 Nature Machine Intelligence에 발표한 치밀화 법칙(Densing Law): 능력 밀도 — 파라미터당 성능 — 가 약 3.3개월마다 2배로 증가한다. 주된 동력은 학습 데이터의 규모 확대와 품질 향상이다.
작은 모델의 실전 강점은 명확하다. 요약, 분류, 지시 따르기 같은 단일 과제에서 충분한 성능을 내면서, on-device 배포가 가능하고, 추론 비용이 낮다.
DeepSeek-R1은 671B 전체가 MATH-500 97.3%의 토대다.
37B 활성 파라미터가 추론하지만, 나머지 634B에 저장된 지식이 그 추론을 뒷받침한다. 대형 모델의 역할이다.
Llama 4 Maverick은 400B 파라미터 중 128개 전문가에서 소수만 활성화해 17B 수준의 연산으로 GPT-4o를 넘는다. MoE의 효율이다.
GPT-5는 어려운 문제에는 큰 서브모델을, 쉬운 문제에는 작은 서브모델을 골라 답한다. 크기가 다른 모델들이 공존하는 생태계다.
모델을 고를 때의 실전 기준. 용도가 먼저다. 요약이나 분류라면 3B~8B면 된다. 다단계 추론이 필요하면 프런티어 모델이 안정적이다. 비용도 따진다. 클라우드 API라면 토큰당 단가, 온프레미스라면 GPU 메모리를 계산한다. 배포 환경도 본다. 엣지 디바이스에는 양자화된 소형 모델, 서버 클러스터에는 MoE 대형 모델이 맞다.
파라미터 수는 출발점이다. 그 뒤에 아키텍처, 학습 데이터, 효율화 기법이라는 맥락이 붙는다. 숫자와 맥락을 함께 읽으면 용도에 맞는 모델을 고를 수 있다.
[1] IBM Think, "What Are LLM Parameters?", 2025. https://www.ibm.com/think/topics/llm-parameters
[2] MIT Technology Review, "LLMs contain a LOT of parameters. But what's a parameter?", 2026. https://www.technologyreview.com/2026/01/07/1130795/what-even-is-a-parameter/
[4] Modal Blog, "How much VRAM do I need for LLM inference?", 2025. https://modal.com/blog/how-much-vram-need-inference
[5] Brown, T. B. et al., "Language Models are Few-Shot Learners", NeurIPS 2020. https://arxiv.org/abs/2005.14165
[6] AI Exp Journey, "The Number of Parameters of GPT-4o and Claude 3.5 Sonnet", 2024. https://aiexpjourney.substack.com/p/the-number-of-parameters-of-gpt-4o
[7] SemiAnalysis, "GPT-4 Details Revealed", 2023. https://patmcguinness.substack.com/p/gpt-4-details-revealed
[8] Wikipedia, "GPT-4", 2024. https://en.wikipedia.org/wiki/GPT-4
[16] Fireworks AI, "DeepSeek-R1 Overview", 2025. https://fireworks.ai/blog/deepseek-r1-deepdive
[17] Qwen Team, "Qwen2.5 Technical Report", 2025. https://arxiv.org/pdf/2412.15115
[18] Microsoft, "Introducing Phi-4", 2024. https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-phi-4-microsoft%E2%80%99s-newest-small-language-model-specializing-in-comple/4357090
[21] Hugging Face Blog, "Mixture of Experts Explained", 2024. https://huggingface.co/blog/moe
[22] Maarten Grootendorst, "A Visual Guide to Mixture of Experts (MoE)", 2024. https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts
[23] Wei, J. et al., "Emergent Abilities of Large Language Models", 2022. https://arxiv.org/abs/2206.07682
[24] Schaeffer et al., "Are Emergent Abilities of Large Language Models a Mirage?", 2023. https://arxiv.org/abs/2304.15004
[25] NeurIPS 2024, "Understanding Emergent Abilities of Language Models from the Loss Perspective". https://openreview.net/forum?id=35DAviqMFo
[27] Kaplan, J. et al., "Scaling Laws for Neural Language Models", OpenAI, 2020. https://arxiv.org/abs/2001.08361
[28] Hoffmann, J. et al., "Training Compute-Optimal Large Language Models", DeepMind, 2022. https://arxiv.org/abs/2203.15556
[30] Vikarna, "Understanding LLM Memory Requirements: From Parameters to VRAM", 2025. https://vikarna.substack.com/p/understanding-llm-memory-requirements
[31] Tsinghua University, "Densing Law of LLMs", Nature Machine Intelligence, 2025. https://www.nature.com/articles/s42256-025-01137-0
[32] OpenAI, "Introducing GPT-4.5", 2025. https://openai.com/index/introducing-gpt-4-5/
[33] OpenAI, "Introducing GPT-5", 2025. https://openai.com/index/introducing-gpt-5/
[34] Anthropic, "Claude 4 Release", 2025. https://www.anthropic.com/news/claude-4
[36] Google, "Gemini 2.5: Our newest Gemini model with thinking", 2025. https://blog.google/innovation-and-ai/models-and-research/google-deepmind/gemini-model-thinking-updates-march-2025/
[38] Meta AI, "The Llama 4 herd", 2025. https://ai.meta.com/blog/llama-4-multimodal-intelligence/
[39] DeepSeek, "DeepSeek-V3.2 Release", 2025. https://api-docs.deepseek.com/news/news251201
[40] Mistral AI, "Introducing Mistral 3", 2025. https://mistral.ai/news/mistral-3
[41] Google, "Gemma 3 Technical Report", 2025. https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
[42] xAI, "Grok 3 Beta — The Age of Reasoning Agents", 2025. https://x.ai/news/grok-3
[43] Mistral AI, "Ministral 3 Series", 2025. https://mistral.ai/news/mistral-3