아쉬운 성능을 나타내는 구글의 경량 모델 젬마3(Gemma 3)
2025년 3월 12일, 구글은 젬마3(Gemma 3) LLM 모델을 공개했습니다. 이 모델은 1B(10억개)부터 27B(270억개)까지 다양한 파라미터 규모로 제공됩니다. 가장 큰 27B 모델은 챗봇 아레나(Chatbot Arena) ELO 스코어 기준으로 DeepSeek-R1과 DeepSeek-V3의 중간 수준 성능을 보여주며, 소형 모델로도 초거대 모델과 유사한 성능에 도달할 수 있다는 가능성을 보여 주었습니다. 구글은 27B 모델을 BF16 방식으로 경량화하면 H100 한 장으로도 구동할 수 있으며, 높은 파라미터 효율성을 갖고 있다고 말했습니다.
구글은 젬마3를 허깅페이스(Hugging Face)를 통해 공개하여 누구나 모델 파일을 다운로드 받을 수 있게 했습니다.
Gemma 3 Release | Hugging Face
AI 모델의 성능을 평가하고 비교하는 Artificial Analysis는 최근 젬마3의 벤치마크 성능을 공개했습니다. 그러나 MMLU(범용 성능), GPQA(과학 지식), MATH-500(수리 연산), AIME(수리 연산), LiveCodeBench(코딩) 등의 여러 벤치마크를 통해 확인된 젬마3의 실제 성능은 아쉬운 결과를 보여줍니다.
범용 성능을 나타내는 MMLU Pro에서는 67%의 정확도를 기록했습니다.GPT-4o-mini(65%)보다는 조금 우수하지만, Llama 3.3 70B(71%)에는 미치지 못하는 수준입니다. 비슷한 파라미터 수를 가진 알리바바 클라우드의 QwQ-32B(CoT 모델, 76%)에 비해서는 상당한 격차를 보였습니다.
과학 지식 평가 벤치마크인 GPQA Diamond에서는 43%의 성능으로, GPT-4o-mini(43%, 동률)와 유사한 성능을 보여 주었습니다. 그러나 Llama 3.3 70B(50%)보다는 크게 떨어지는 결과를 보였습니다.
코딩 성능을 측정하는 벤치마크에서는 다소 불안정한 결과를 보였습니다. LiveCodeBench에서는 14%의 성능으로, 매우 낮은 성능을 기록했습니다. 이는 Llama 3.1 8B 수준입니다. SciCode와 HumanEval에서는 상대적으로 나은 기록을 보여주었는데, 대체로 GPT-4o-mini와 유사한 수준의 성능입니다.
이러한 성능 편차는 실제 활용 시 사용성의 저하로 이어질 수 있습니다. 반면 비슷한 수준의 파리미터 수를 가진 알리바바 클라우드의 QwQ-32B 모델은 꾸준히 OpenAI-o1과 DeepSeek-R1 수준의 안정적인 성능을 유지하는 모습을 보입니다. 젬마3의 성능 기복은 적은은 파라미터 수가 원인이 아니라는 것을 추정할 수 있는 부분입니다.
수리 능력을 나타내는 MATH-500과 AIME 2024 벤치마크에서는 모두 DeepSeek-V3와 유사한 수준의 성능을 나타 내었습니다. 구글은 젬마3의 학습 과정에서 수리 연산에 특화했다고 했는데, 실제 벤치마크 결과로도 확인할 수 있었습니다.
젬마3는 초거대 모델과 유사한 추론 속도를 기록하며, 특별한 강점을 보이지 못했습니다. 속도 대비 성능 면에서는 aws의 노바 마이크로(Nova Micro)가 매우 우수한 모습을 보여주었습니다. 노바 마이크로는 알렉사(Alexa)의 실시간 커뮤니케이션을 위해 개발된 모델로, 성능보다는 응답 속도에 중점을 둔 경량 고속 모델임에도 젬마3-27B와 비교했을 때 성능 대비 속도 측면에서 강점을 보여주고 있습니다.
젬마3의 성능은 GPT-4o-mini 수준으로 볼 수 있습니다. 그러나 GPT-4o-mini는 2024년 7월 중순 출시 이후 8개월이 경과한 구형 모델입니다. 이후 o1, o1-pro, o3-mini, o3-mini-high, 4.5 등이 공개되어 현재는 잘 사용되지 않는 상황이기도 합니다. 젬마3의 파라미터 대비 성능을 낮게 평가하기는 어려우나, 출시 시기를 고려한다면 아쉬운 수준입니다.
2025년에 들어서며 모델이 경량화되면서도 뛰어난 성능을 보여주고 있습니다. 대표적으로 알리바바 클라우드의 QwQ-32B는 320억개의 파라미터로도 DeepSeek-R1 수준의 안정적인 성능을 내는 CoT(Chain-of-Thought) 추론 모델입니다. 적인 파라미터를 사용하는 대신 연산량을 늘려 높은 성능을 달성하는 발전된 구조를 갖추고 있습니다.
젬마3는 QwQ-32B와 유사한 27B(270억개) 파라미터로 구성되어 있으나, CoT 추론이 적용되지 않은 단순 경량 LLM입니다. 이는 모델 크기를 줄이는 데에만 집중한 것으로, '모델 크기를 줄이고 연산을 늘려 전체 성능을 보상한다'라는 현재의 패러다임에 도달하지 못한 구조입니다.
구글은 젬마3가 매우 긴 시퀀스를 처리할 수 있고 140개 다국어를 지원한다는 점을 주요 강점으로 강조합니다. 그러나 모델의 본질적 성능에서 아쉬움이 있습니다. 최초 구글이 공개한 벤치마크와는 달리, 여러 벤치마크에서 예상보다 크게 부족한 성능을 보여준 점이 더욱 아쉽습니다. 모델의 기초 성능이 충분히 획보되어야만 긴 시퀀스 처리와 다국어 지원의 장점이 충분히 드러날 수 있을 것입니다.
Introducing Gemma 3: The most capable model you can run on a single GPU or TPU | Google
Welcome Gemma 3: Google's all new multimodal, multilingual, long context open LLM | Hugging Face