6대 최신 언어모델 아키텍처 비교 분석

Sebastian Raschka의 언어모델 아키텍처 분석

by 두드림
IMG_0860.jpeg


이미지 출처: Sebastian Raschka (X 링크)


최근 발표된 다양한 언어모델들은 단순히 파라미터 수나 성능뿐만 아니라 아키텍처 구조 자체의 혁신을 통해 고속화, 효율성, 확장성을 추구하고 있습니다. 본 글에서는 대표적인 6개의 LLM(대형 언어모델)을 아키텍처 관점에서 비교 분석하고자 합니다. 이 인포그래픽은 Sebastian Raschka가 시각화한 것으로, 각 모델의 구조적 특성과 기술 선택들을 명확하게 보여줍니다.



LLaMA 3.2 1B – 단순하지만 정제된 구조


LLaMA 시리즈는 Meta AI에서 오픈소스로 공개한 모델로, 이번 3.2 버전은 가장 작은 크기인 1B 파라미터 모델임에도 불구하고 매우 정교한 구조를 자랑합니다.

•“Wider” 아키텍처: 1B 모델임에도 불구하고 hidden layer dimension이 무려 8,192로 상당히 넓습니다. 일반적으로 작은 모델은 얕고 좁은 구조를 가지는데, LLaMA는 “넓은” 구조를 채택하여 성능을 보강합니다.

•컨텍스트 길이: 131k tokens 지원으로, 비교적 작은 모델임에도 긴 문맥을 처리할 수 있는 능력을 갖췄습니다.

•Attention 구조: 32개의 multi-head attention 구조와 RoPE(Rotary Positional Embedding)를 사용합니다. 이는 포지셔널 인코딩의 효율성과 확장성을 동시에 노린 설계입니다.

•활용성: 모바일 및 경량 AI 디바이스에 최적화된 성능을 보여주는 소형 모델입니다.



Qwen3 4B – 경량 + 효율성의 균형


Qwen 시리즈는 Alibaba의 Tongyi 팀이 공개한 모델로, 대규모 언어모델의 구조적 효율화를 강조합니다.

•Masked Grouped Query Attention: 효율적인 attention 계산을 위해 grouped attention 방식을 채택했습니다. 이는 다수의 query 간 중복 계산을 줄여 속도와 메모리 효율을 확보합니다.

•NoPE + RoPE: 포지셔널 인코딩에 있어서는 다양한 실험이 적용되며, NoPE는 Normalized Position Embedding으로서 RoPE보다 더 정규화된 정보를 제공합니다.

•컨텍스트 길이: 41k tokens로 제한적이지만 중간 규모에서 빠른 추론을 가능하게 합니다.

•특징적 선택: 작은 embedding dimension(2,560)과 hidden size(9,728)를 통해 추론 속도와 성능의 균형을 맞춥니다.



SmoLM3 3B – 초경량 최적화형


SmoLM3는 가장 압축된 모델 중 하나로, 저비용 환경에서도 효율적인 언어처리를 가능케 하기 위해 설계되었습니다.

•특이점: 매 4번째 layer마다 NoPE 적용. 이는 정적인 포지셔널 정보에 동적인 적응성을 부여합니다.

•Attention 구조: 16 heads로 구성되어 있으며, RoPE와 NoPE를 혼합 적용합니다. 특히 이 조합은 추론을 매우 빠르게 하면서도 의미의 정확성을 보장합니다.

•임베딩 및 FFN: 임베딩 차원은 2,048로 작고, feedforward 구조도 단순화되어 있습니다.

•목적: 초저비용 환경에서의 적용을 목적으로, inference 속도에 최적화된 설계입니다.



DeepSeek V3 (671B) – 대규모 MoE의 정수


DeepSeek는 중국 기반 AI 연구팀에서 개발한 초대형 모델로, 본 모델은 대규모 Mixture of Experts 구조를 바탕으로 성능을 극대화합니다.

•MoE(Mixture of Experts): 총 16개의 expert 중 매 step마다 8개만 활성화됩니다. 이를 통해 추론 시 사용하는 파라미터 수는 줄이고, 전체 네트워크는 매우 크지만 효율적으로 작동합니다.

•SwiGLU FeedForward: 일반적인 ReLU나 GELU보다 더 효율적인 활성화 함수 조합으로 알려진 SwiGLU를 사용합니다.

•컨텍스트 길이: 무려 128k tokens를 지원, 문서 단위의 초장문도 무리 없이 처리합니다.

•특이점: 첫 3개 블록은 dense FFN을 사용하고 이후 블록부터 MoE가 적용되어 안정성과 확장성을 함께 고려한 설계입니다.



Qwen3 235B-A22B – Dense + MoE 하이브리드


앞서 언급한 Qwen3의 초대형 버전으로, 235B 파라미터 모델이지만 실제 추론 시에는 단 22B만을 사용합니다.

•하이브리드 아키텍처: Dense layer와 MoE layer가 교차 구성됩니다. 64개의 expert 중 inference 시 8개만 활성화됩니다.

•SwiGLU와 MoE 결합: 매우 높은 표현력을 갖추면서도 파라미터 효율성을 극대화합니다.

•리소스 친화형 모델: 대규모 pretrain은 이루어졌지만, inference 단계에서는 필요한 expert만을 활성화하므로 RAM과 GPU 메모리 소모를 줄입니다.

•임베딩 차원: 4,096, Hidden dimension은 10,240으로 강력한 표현력 확보



Kimi K2 (1 Trillion) – 초거대 AI의 실현


Kimi K2는 1조 개의 파라미터를 가진 초거대 모델로, Qwen3-235B의 확장 모델로 추정됩니다.

•MoE 구조 확장: 64개의 expert 중 8개만 활성화되는 구조는 Qwen3-235B와 동일하지만, 각 expert의 규모와 내부 depth는 대폭 강화되었습니다.

•컨텍스트 길이: 128k tokens로 긴 문맥을 커버할 수 있으며, 대규모 문서 분석에 최적화되어 있습니다.

•임베딩 차원 및 Hidden size: 각각 7,168과 고차원의 intermediate layer를 통해 풍부한 의미 표현이 가능합니다.

•활용 분야: 멀티모달 처리, 고차원 지식 통합, 수백억 개 이상의 엔티티와 개체 간 연관 분석에 적합



마무리 정리


IMG_0866.jpeg


이처럼 모델들은 각기 다른 전략으로 효율성, 표현력, 추론 성능, 확장성을 달성하고자 설계되고 있습니다. 단순히 파라미터 크기만으로 모델을 평가하기보다는, 이처럼 아키텍처의 내재적 설계 철학을 이해하는 것이 무엇보다 중요합니다.


keyword
매거진의 이전글LLM vs SLM