Sebastian Raschka의 언어모델 아키텍처 분석
이미지 출처: Sebastian Raschka (X 링크)
최근 발표된 다양한 언어모델들은 단순히 파라미터 수나 성능뿐만 아니라 아키텍처 구조 자체의 혁신을 통해 고속화, 효율성, 확장성을 추구하고 있습니다. 본 글에서는 대표적인 6개의 LLM(대형 언어모델)을 아키텍처 관점에서 비교 분석하고자 합니다. 이 인포그래픽은 Sebastian Raschka가 시각화한 것으로, 각 모델의 구조적 특성과 기술 선택들을 명확하게 보여줍니다.
⸻
LLaMA 3.2 1B – 단순하지만 정제된 구조
LLaMA 시리즈는 Meta AI에서 오픈소스로 공개한 모델로, 이번 3.2 버전은 가장 작은 크기인 1B 파라미터 모델임에도 불구하고 매우 정교한 구조를 자랑합니다.
•“Wider” 아키텍처: 1B 모델임에도 불구하고 hidden layer dimension이 무려 8,192로 상당히 넓습니다. 일반적으로 작은 모델은 얕고 좁은 구조를 가지는데, LLaMA는 “넓은” 구조를 채택하여 성능을 보강합니다.
•컨텍스트 길이: 131k tokens 지원으로, 비교적 작은 모델임에도 긴 문맥을 처리할 수 있는 능력을 갖췄습니다.
•Attention 구조: 32개의 multi-head attention 구조와 RoPE(Rotary Positional Embedding)를 사용합니다. 이는 포지셔널 인코딩의 효율성과 확장성을 동시에 노린 설계입니다.
•활용성: 모바일 및 경량 AI 디바이스에 최적화된 성능을 보여주는 소형 모델입니다.
⸻
Qwen3 4B – 경량 + 효율성의 균형
Qwen 시리즈는 Alibaba의 Tongyi 팀이 공개한 모델로, 대규모 언어모델의 구조적 효율화를 강조합니다.
•Masked Grouped Query Attention: 효율적인 attention 계산을 위해 grouped attention 방식을 채택했습니다. 이는 다수의 query 간 중복 계산을 줄여 속도와 메모리 효율을 확보합니다.
•NoPE + RoPE: 포지셔널 인코딩에 있어서는 다양한 실험이 적용되며, NoPE는 Normalized Position Embedding으로서 RoPE보다 더 정규화된 정보를 제공합니다.
•컨텍스트 길이: 41k tokens로 제한적이지만 중간 규모에서 빠른 추론을 가능하게 합니다.
•특징적 선택: 작은 embedding dimension(2,560)과 hidden size(9,728)를 통해 추론 속도와 성능의 균형을 맞춥니다.
⸻
SmoLM3 3B – 초경량 최적화형
SmoLM3는 가장 압축된 모델 중 하나로, 저비용 환경에서도 효율적인 언어처리를 가능케 하기 위해 설계되었습니다.
•특이점: 매 4번째 layer마다 NoPE 적용. 이는 정적인 포지셔널 정보에 동적인 적응성을 부여합니다.
•Attention 구조: 16 heads로 구성되어 있으며, RoPE와 NoPE를 혼합 적용합니다. 특히 이 조합은 추론을 매우 빠르게 하면서도 의미의 정확성을 보장합니다.
•임베딩 및 FFN: 임베딩 차원은 2,048로 작고, feedforward 구조도 단순화되어 있습니다.
•목적: 초저비용 환경에서의 적용을 목적으로, inference 속도에 최적화된 설계입니다.
⸻
DeepSeek V3 (671B) – 대규모 MoE의 정수
DeepSeek는 중국 기반 AI 연구팀에서 개발한 초대형 모델로, 본 모델은 대규모 Mixture of Experts 구조를 바탕으로 성능을 극대화합니다.
•MoE(Mixture of Experts): 총 16개의 expert 중 매 step마다 8개만 활성화됩니다. 이를 통해 추론 시 사용하는 파라미터 수는 줄이고, 전체 네트워크는 매우 크지만 효율적으로 작동합니다.
•SwiGLU FeedForward: 일반적인 ReLU나 GELU보다 더 효율적인 활성화 함수 조합으로 알려진 SwiGLU를 사용합니다.
•컨텍스트 길이: 무려 128k tokens를 지원, 문서 단위의 초장문도 무리 없이 처리합니다.
•특이점: 첫 3개 블록은 dense FFN을 사용하고 이후 블록부터 MoE가 적용되어 안정성과 확장성을 함께 고려한 설계입니다.
⸻
Qwen3 235B-A22B – Dense + MoE 하이브리드
앞서 언급한 Qwen3의 초대형 버전으로, 235B 파라미터 모델이지만 실제 추론 시에는 단 22B만을 사용합니다.
•하이브리드 아키텍처: Dense layer와 MoE layer가 교차 구성됩니다. 64개의 expert 중 inference 시 8개만 활성화됩니다.
•SwiGLU와 MoE 결합: 매우 높은 표현력을 갖추면서도 파라미터 효율성을 극대화합니다.
•리소스 친화형 모델: 대규모 pretrain은 이루어졌지만, inference 단계에서는 필요한 expert만을 활성화하므로 RAM과 GPU 메모리 소모를 줄입니다.
•임베딩 차원: 4,096, Hidden dimension은 10,240으로 강력한 표현력 확보
⸻
Kimi K2 (1 Trillion) – 초거대 AI의 실현
Kimi K2는 1조 개의 파라미터를 가진 초거대 모델로, Qwen3-235B의 확장 모델로 추정됩니다.
•MoE 구조 확장: 64개의 expert 중 8개만 활성화되는 구조는 Qwen3-235B와 동일하지만, 각 expert의 규모와 내부 depth는 대폭 강화되었습니다.
•컨텍스트 길이: 128k tokens로 긴 문맥을 커버할 수 있으며, 대규모 문서 분석에 최적화되어 있습니다.
•임베딩 차원 및 Hidden size: 각각 7,168과 고차원의 intermediate layer를 통해 풍부한 의미 표현이 가능합니다.
•활용 분야: 멀티모달 처리, 고차원 지식 통합, 수백억 개 이상의 엔티티와 개체 간 연관 분석에 적합
⸻
마무리 정리
이처럼 모델들은 각기 다른 전략으로 효율성, 표현력, 추론 성능, 확장성을 달성하고자 설계되고 있습니다. 단순히 파라미터 크기만으로 모델을 평가하기보다는, 이처럼 아키텍처의 내재적 설계 철학을 이해하는 것이 무엇보다 중요합니다.