[業 DIVE] LLM을 도려내어 농밀하게

최적화의 시대 도래

by 혀니

1. One Model의 삼일천하


지난 몇 년간 AI 시장은 더 크고, 더 많은 파라미터를 가진 LLM 경쟁의 장이었다. 하나의 모델이 인간의 모든 작업을 대체할 것이라는 범용 인공지능(AGI)에 대한 기대감은 기업들로 하여금 천문학적인 비용을 투입해 모델의 규모를 키우는 데 집중하게 만들었다. 그러나 2025년에 이르러, 이러한 거대함에 대한 맹목적 추종에 비효율 문제가 드리우며 패러다임의 전환을 맞이하고 있다. 이는 마치 엑셀 작업을 위해 슈퍼컴퓨터를 부팅하는 것과 같다.


지능의 범용화(Commoditization of Intelligence)


LLM 경쟁의 역설은 지능 자체의 희소성을 하락시켰다는 점이다. OpenAI의 GPT, Anthropic의 Claude와 같은 폐쇄형(Closed-source) 모델이 시장을 주도하던 시기에는 최첨단 성능 자체가 강력한 경쟁력이었다. 그러나 Meta의 Llama를 필두로 한 오픈소스 모델의 등장은 이러한 구도를 근본적으로 바꾸었다. 2024년 7월에 공개된 Meta의 Llama 3.1 405B 모델은 여러 벤치마크에서 GPT-4와 대등한 성능을 보이며, 오픈소스 진영이 폐쇄형 모델의 성능을 거의 따라잡았음을 증명했다.[1][2]


스크린샷 2025-12-09 154758.png 2025년 주요 폐쇄형 및 오픈소스 LLM 성능 비교(출처: Hakia)


※ 주요 성능 지표 의미

MMLU: 종합 지식 테스트 성능 (다양한 학문 분야)

HumanEval: 코드 작성 및 문제 해결 능력

GSM8K: 초·중등 수학 문제 해결 능력

Parameters: 모델 크기(클수록 더 많은 학습량·연산 필요)


이는 더 이상 특정 기업의 API에 종속되지 아니하고도 높은 수준의 AI 역량을 확보할 수 있게 되었음을 시사한다. 이러한 지능의 범용화는 시장의 경쟁 구도를 누가 더 똑똑한 모델을 가졌는가에서 누가 모델을 가장 효율적으로, 특정 목적에 맞게 활용하는가로 전환시켰다.


실제로 특정 벤치마크에서는, 범용 모델보다 도메인에 맞춰 튜닝된 모델이 더 높은 정답률을 보이며 압도적인 가성비를 증명하고 있다. 그 예시가 코딩 전문 모델인 Moonshot AI의 Kimi-Dev-72B이다.[3] 이는 다양한 모델을 목적에 맞게 조합하고 최적화하는 시대가 도래하고 있음을 의미한다.


2. Mid-Stack(Middle Layer)의 부상


Mid-Stack은 거대한 파운데이션 모델을 그대로 사용하는 것이 아니라, 이를 특정 애플리케이션에 맞게 가볍고, 빠르고, 저렴하게 만드는 모든 기술과 서비스를 의미한다. 2025년 AI 시장의 핵심 경쟁력은 더 이상 모델 자체를 개발하는 능력이 아니라, 기존 모델을 얼마나 잘 해체하고 재조립하여 최적의 성능과 비용 효율성을 달성하는가에 달렸다.


양자화(Quantization)


양자화는 가중치, 활성화 함수의 파라미터 값 등 모델이 사용하는 수치 표현의 정밀도를 낮춰 메모리 사용량을 줄이는 기술이다. 예를 들어, 16비트 부동소수점(FP16) 모델을 8비트 정수(INT 8)로 양자화하면 모델 크기는 50 %, INT 4로 양자화하면 75 %까지 감소한다. 이는 더 작은 H/W에서도 모델을 구동할 수 있게 하고, 메모리 대역폭 요구 사항을 낮춰 추론 속도를 2배에서 4배까지 향상시킨다.[4]


최근에는 모델의 모든 계층에 비트 수를 동일하게 적용하는 대신, 각 계층의 민감도를 분석하여 서로 다른 정밀도를 적용하는 접근법이 주목받고 있다. NVIDIA에 따르면, 모델의 70 %을 8비트로 양자화하고, 민감한 30 %을 높은 정밀도로 유지했을 때, 크기 감소 효과의 60 %을 달성하면서도 원본 모델의 성능을 거의 그대로 보존할 수 있었다. Gartner는 2025년까지 AI을 배포하는 기업의 70 % 이상이 최적화 기술을 사용할 것이며, 그 중 양자화가 가장 널리 채택될 것으로 예측했다.[5]


가지치기(Pruning)


가지치기는 신경망에서 중요도가 낮은 가중치나 뉴런 등을 제거하여 모델을 더 작고 빠르게 만드는 기술이다. 이는 파라미터가 지나치게 많은 모델에서 불필요한 부분을 제거하여 효율성을 높이는 원리이다.


가지치기의 가장 큰 과제는 성능 저하를 최소화하는 것이다. 특히, 과감한 가지치기는 모델의 정확도를 상당히 떨어뜨릴 수 있다. 이를 해결하기 위해, 최근에는 가지치기 후에 파인튜닝을 하여 손실된 성능을 복구하는 방식이 표준으로 자리잡고 있다. AMD는 Llama 3.1 405B 모델의 126 개의 레이어 중 42 개(33.3 %)를 제거하였다. 그 결과, 정확도가 88.8 %로 떨어졌지만, LoRA(Low-Rank Adaptation) 기법으로 파인튜닝을 하니 정확도가 96.77 %까지 회복되었다.[6]


LayerImportanceScore.png Llama 3.1 405B 모델의 126개 레이어 별 중요도 점수: 사각형 구간의 레이어가 상대적으로 중요도가 낮아 가지치기의 주요 대상이 됨을 보여준다(출처: AMD)


이처럼 모델의 구조를 분석하여 중요도가 낮은 부분을 식별하고 제거하는 가지치기는, 단순히 모델을 압축하는 것을 넘어 성능 및 비용 간 최적의 균형점을 찾는 핵심 기술이 될 것이다.


MoE(Mixture-of-Experts): 유연한 거대함


MoE는 거대한 단일 모델 대신, 여러 개의 작은 전문가 모델과 이들을 연결하는 라우터로 구성된 아키텍처이다. 입력된 토큰의 특성에 따라, 가장 적합한 전문가만 라우터가 활성화하여 계산을 수행한다. 이는 인간의 뇌가 특정 작업을 처리할 때 관련 영역만 활성화하는 것과 유사하다. 결과적으로 MoE 모델은 수천억 개에서 조 단위를 파라미터를 가지면서도, 실제 추론 시에는 그 중 일부(5-10 %)만 사용하므로 총 파라미터 대비 활성 파라미터가 매우 적어 계산 효율성을 극대화할 수 있다.


2025년 현재, MoE는 프론티어 모델의 표준 아키텍처로 자리잡았다. NVIDIA에 따르면, 2023년 초 이후 모델 인텔리전스가 약 70 배 증가했으며, 이러한 성장의 대부분은 MoE 아키텍처에 의해 주도되었다. Mixtral, DeepSeek-R1, Llama 4 Maverick, Kimi-K2 등 대부분의 모델이 MoE 구조를 채택하고 있다.[7]

MoETrendVisual-e1764777501331.png 프론티어 모델의 진화: 인텔리전스가 높은 모델들은 대부분 MoE을 채택하고 있음을 보여준다(출처: NVIDIA)


MoE는 양자화, 가지치기와 같은 최적화 기술과 함께하면 그 효과가 극대화될 것이다. 예를 들어, MoE 모델의 Experts을 양자화하면 거대한 모델을 단일 GPU에 배포하는 것도 가능하다. 이처럼 MoE으로 거대함의 이점을 유지하면서도, 효율성을 달성할 수 있다.


3. 최적화의 기회를 잡아라


Llama와 같은 오픈 소스 모델의 역습으로, 지능 자체의 희소성은 희석되었다. 이제는 누가 가장 거대한 모델을 가졌는가보다, 누가 가장 군살 없는 모델을 자유자재로 다루느냐에 달려있다. LLM을 조각하고 다듬는 이 최적화의 영역이야말로, 우리나라 스타트업이 글로벌 시장을 공략할 수 있는 최적의 승부처가 될 것이다.



본 게시물의 커버 이미지는 AI에 의해 생성되었습니다. 그리고 본 게시물의 글의 초안은 AI로 작성했으나, 구체적인 사실, 문맥 등은 필자가 직접 검토하고 수정하여 완성했습니다.


<References>

[1] runpod, "What Meta's Latest Llama Release Means for LLM Builders in 2025", (2025.07.11.)

[2] Hakia, "Open Source vs Closed LLMs: Technical Comparison", (2025.12.)

[3] Apidog, "문샷 AI 키미-Dev-72B: 최고의 코딩 모델일까?", (2025.10.22.)

[4] 우아한기술블로그, "로봇 ML 모델의 경량화 2부: 양자화 인식 훈련", (2025.01.31.)

[5] GetMonetizely, "The AI Model Quantization Service: Balancing Size Reduction and Accuracy Preservation", (2025.06.18.)

[6] AMD, "Slim Down Your Llama: Pruning & Fine-Tuning for Maximum Performance", (2025.09.09.)

[7] NVIDIA, "Mixture of Experts Powers the Most Intelligent Frontier AI Models, Runs 10x Faster on NVIDIA Blackwell NVL72", (2025.12.03.)

매거진의 이전글[業 DIVE] AI, ROI의 협곡을 건너는 법