경량 모델에 추론 과정을 적용하여 초거대 모델 수준의 성능을 달성하다.
알리바바 클라우드(Alibaba Cloud)는 2025년 3월 6일, Qwen2.5-32B를 기반으로 하는 경량의 고성능 추론 모델 QwQ-32B를 공개했습니다. 이 모델은 단 32B(320억 개) 파라미터로 구성되었음에도 여러 벤치마크에서 671B(6710억 개) 파라미터의 DeepSeek-R1과 유사한 성능을 보여 주었습니다.
구체적으로 AIME 2024(수리연산), LiveCodeBench(코드 작성), LiveBench(범용 성능), IFEval(지시 이행), BFCL(외부 도구 활용) 등의 벤치마크에서 20배 이상 큰 DeepSeek-R1과 견줄 만한 성능을 기록했습니다.
한편 MMLU Pro(범용 성능)와 GPQA Diamond(박사 수준의 과학 지식) 벤치마크에서는 구글의 제미나이 2.0 플래시(Gemini 2.0 Flash) 수준의 성능을 나타내었습니다. 이는 DeepSeek-R1이나 OpenAI-o1보다 다소 낮은 성능이나, 32B(320억 개) 파라미터의 경량 모델임을 고려한다면 놀라울 정도로 우수한 성능으로 평가할 수 있습니다.
32B 모델은 BF16으로 정밀도를 낮추면 H100 한 장으로 구동이 가능한 수준입니다. 경량 모델에 추론 과정을 적용시켜 종전에는 수십대의 장비를 활용해야 얻을 수 있는 결과를 한 장의 GPU로 낼 수 있을 만큼 성능을 개선시킨 것입니다.
QwQ-32B는 문제 해결에 최적화된 두 단계의 강화학습을 통해 성능을 높였습니다.
첫 번째 강화학습 단계에서 수리 능력과 코딩 능력에 초점을 맞추었습니다. 일반적인 보상 함수(Reward Function)를 사용하지 않고, 각 문제의 정확한 해결 여부를 판단하여 보상을 부여하는 정교한 보상 함수를 사용했습니다. 수리 영역 학습 과정에서는 정확한 정답을 도출하는지를 검증했고, 코딩 능력 학습에서는 모델이 생성한 코드를 실제로 실행시켜 결과를 검증하는 방식을 통해 보상을 부여했습니다.
두 번째 강화학습 단계에서는 모델의 범용성을 높이는 데 주력했습니다. 이 과정에서도 단순한 보상 함수 사용을 배제하였으며, 엄격한 규칙 기반의 보상 함수를 적용시켜 성능을 높였습니다. 알리바바 클라우드는 범용성을 높이기 위한 두 번째의 강화학습 단계를 거치더라도 첫 번째 단계에서 학습된 수리 및 코딩 능력이 저하되지 않았다고 밝혔습니다.
이러한 두 단계의 목적에 특화된 강화학습 접근법을 통해 QwQ-32B는 적은 수의 파라미터로도 높은 성능을 달성할 수 있었습니다. 다만 범용적인 성능에서는 다소 부족한 모습도 보입니다. QwQ-32B가 집중적으로 학습한 수리 및 코딩 영역에서는 우수한 성능을 보여주는 것에 비해, 이와 거리가 먼 일반 지식 분야에서는 상대적으로 부족한 성능을 나타냅니다. 물론 파라미터 수를 고려하면 여전히 우수한 성능입니다.
QwQ-32B는 컴퓨터 공학의 발전 과정에서 중요하게 여겨지는 '연산-공간 트레이드오프(Compute-Memory Tradeoff)' 개념을 다시 생각하게 합니다.
'연산-공간 트레이드오프'란, 문제 해결 시 두 가지 접근법 중 하나를 선택하는 개념입니다. i) 더 많은 메모리(공간)를 사용하여 연산 속도를 높이거나, ii) 적은 메모리로 더 많은 연산을 수행하는 방법입니다. 데이터베이스에서 인덱스를 사용하거나(연산 감소, 공간 증가) 전체 스캔을 하는 접근(연산 증가, 공간 감소), 또는 데이터 중복을 허용하거나(연산 감소, 공간 증간) 키 기반 결합을 사용하는 접근(연산 증가, 공간 감소) 등이 대표적인 연산-공간 트레이드오프의 예입니다.
QwQ-32B는 320억 개의 적은 파리미터(적은 공간)로도 고도의 추론 연산(많은 연산)을 통해 초거대 모델 수준의 성능을 달성했습니다. 이는 AI 기술이 단순 파라미터 수를 늘리는 초기의 단계를 넘어, 연산-공간 트레이드오프가 작용하는 기술 성숙 단계로 진입하고 있음을 보여줍니다.
또한 이러한 추세는 앞으로 경량 모델의 중요성이 더욱 부각될 것임을 시사합니다.
AI는 명확한 구조 속에서 객관적인 결과를 도출할 수 있는 상황에서 탁월한 성능을 발휘합니다.
프로그래밍 언어는 타입-2 문맥 없는 언어(Type-2, Context Free Grammar)로, 엄격한 문법 구조를 가진 체계입니다. 이러한 특성은 LLM이 코드 패턴을 효율적으로 인식하도록 돕습니다. 또한 코딩 결과물은 객관적 평가도 가능합니다. QwQ-32B의 강화학습에서 차용한 접근과 같이, 코드 실행 결과를 검증하여 작성된 코드의 정확성을 판단할 수 있습니다.
코드 작성 능력을 평가하는 코드포시즈(Codeforces) 벤치마크에서 대부분의 AI 모델은 이미 인간 수준을 넘었습니다. 최근에는 SWE-Bench와 같이 실제 개발 환경을 시뮬레이션하는 벤치마크에서도 높은 문제 해결 능력을 보여주고 있습니다. 2025년 2월에 공개된 OpenAI-o3 모델은 이 벤치마크에서 약 72%의 문제를 해결했습니다.
AI의 코딩 능력은 앞으로도 꾸준히 향상될 것이며, QwQ-32B와 같은 경량 모델을 통한 코딩 보조 AI 또한 더욱 보편화될 것으로 보입니다.
QwQ-32B: Embracing the Power of Reinforcement Learning | Qwen
QwQ 32B: Intelligence, Performance & Price Analysis | Artificial Analysis