지금 가장 좋은 AI 모델이 뭐예요?
2월에 "지금 가장 좋은 AI 모델이 뭐예요?"라고 물으면, 대부분 같은 답을 했습니다.
Claude가 글을 잘 쓰고, GPT가 코딩에 강하고, Gemini가 빠르다.
한 달이 지난 3월, 그 대답이 여전히 맞을까요?
결론부터 말씀드리면, 판이 뒤집어졌습니다. Google의 Gemini 3.1 Pro가 Chatbot Arena 1위를 차지하며 Claude의 왕좌를 빼앗았고, OpenAI는 GPT-5.4를 내놓으며 추론 능력을 대폭 끌어올렸습니다. xAI의 Grok 4.20은 4개 에이전트 협업이라는 독특한 구조로 3위에 올랐습니다. 거기에 중국발 오픈소스 모델들이 상위권을 흔들고 있습니다.
직접 사용하면서 느낀 변화를 중심으로, 2026년 3월 현재 AI 모델 순위를 정리해보았습니다.
AI 모델의 실력을 비교할 때 가장 많이 인용되는 지표가 Chatbot Arena(구 LMSYS)입니다. 사용자들이 두 모델의 답변을 블라인드로 비교하고 투표하는 방식인데, 3월 기준 누적 투표 수가 600만 건을 넘었습니다. 벤치마크 점수보다 실제 사용자 체감에 가깝다는 점에서, 이 순위를 먼저 살펴보는 게 의미가 있습니다.
3월 17일 기준 상위 7개 모델입니다.
가장 눈에 띄는 변화는 1위의 교체입니다. 한 달 전까지 Claude Opus 4.6이 부동의 1위였는데, Gemini 3.1 Pro가 1505 Elo로 단숨에 꼭대기를 차지했습니다. Google이 2월에 Gemini 3 Pro를 내놓고, 한 달 만에 3.1 Pro로 교체하더니 결국 Arena 1위까지 올린 겁니다. xAI의 Grok 4.20도 3위로 올라섰고, 상위 7개 모델 중 Google과 xAI가 각 2자리씩 차지하며 Anthropic과 OpenAI를 압박하는 구도가 되었습니다.
흥미로운 건 GPT-5.4입니다. 3월 초에 출시되었는데 Arena 순위에서는 6위에 머물고 있습니다. GPT-5.4 High(추론 강도 최대) 기준으로도 1485 Elo인데, "OpenAI 신모델은 곧 1위"라는 공식이 더 이상 통하지 않는 시대가 된 셈입니다.
순위표만 보면 숫자 놀음 같으니, 각 모델이 실제로 어떤 점이 달라졌는지 짚어보겠습니다.
GPT-5 시리즈가 2025년 8월에 처음 나온 뒤, 반년 만에 벌써 네 번째 업데이트입니다. 5.1, 5.2 Codex, 5.3 Codex를 거쳐 3월 초에 5.4가 출시되었습니다. OpenAI가 이렇게 빠르게 모델을 찍어내는 건 처음인데, 그만큼 경쟁이 치열해졌다는 반증이기도 합니다.
가장 눈에 띄는 변화는 '추론 강도 조절'입니다. API에서 reasoning_effort라는 파라미터를 none부터 xhigh까지 5단계로 설정할 수 있습니다. 간단한 분류 작업에는 추론을 꺼서 빠르고 싸게, 복잡한 코드 리뷰에는 최대 추론으로 정확하게 쓸 수 있는 겁니다. 실사용 관점에서 보면, 같은 모델 하나로 용도에 따라 비용을 유연하게 조절할 수 있다는 뜻입니다.
또 하나, Computer Use API가 추가되었습니다. 화면을 보고, 마우스를 움직이고, 클릭하고 타이핑하는 기능인데, Anthropic의 Claude가 먼저 선보였던 기능을 OpenAI도 따라간 형국입니다. 아직 1세대라 지연 시간이 있지만, 방향 자체가 "AI가 사람처럼 컴퓨터를 조작한다"는 에이전트 시대를 향하고 있다는 신호입니다.
컨텍스트 윈도우는 272K(Codex에서는 최대 1M까지 확장 가능)로 늘었고, OSWorld-Verified에서 75%를 기록해 인간 수준(72.4%)을 넘어서는 컴퓨터 조작 능력을 보여주었습니다. 다만 코딩 벤치마크(SWE-bench Verified)에서는 59% 수준으로, Claude Opus 4.6의 81%에는 아직 격차가 있습니다.
Google의 행보가 인상적이었습니다. 2월에 Gemini 3 Pro를 내놓았는데, 한 달도 안 돼서 3.1 Pro를 발표하며 3 Pro를 조기 종료시켜 버렸습니다. 3월 9일부로 Gemini 3 Pro Preview가 API에서 내려갔고, 3.1 Pro로 마이그레이션하라는 안내가 나왔습니다.
Google이 자신 있게 밀어붙이는 데는 이유가 있었습니다. 복잡한 추론 문제에서 전작 대비 두 배 이상의 성능 향상을 달성했다고 합니다. GPQA Diamond(대학원 수준 과학 문제)에서 높은 점수를 기록했고, Chatbot Arena에서 1505 Elo로 1위에 올랐습니다. Flash-Lite라는 경량 모델도 함께 출시해서, 속도가 중요한 서비스에서도 대응할 수 있게 했습니다.
다만 완전히 안착한 건 아닙니다. 초기에 503 에러가 빈번했고, 지연 시간이 104초까지 치솟는 사례도 보고되었습니다. 프리뷰라서 감수할 부분이긴 하지만, 프로덕션에 바로 투입하기엔 아직 조심스러운 단계입니다.
일론 머스크의 xAI도 가만있지 않았습니다. 2월에 Grok 4.20 Beta를 내놓으며 독특한 구조를 선보였는데, 4개의 전문 에이전트가 팀을 이루는 방식입니다. Grok이 총괄 조율을 맡고, Harper가 리서치와 팩트체크, Benjamin이 수학과 코딩, Lucas가 창작을 담당합니다. 하나의 모델이 모든 걸 하려는 다른 회사들과는 다른 접근입니다.
Arena에서 1496 Elo로 3위를 기록했습니다. 3월 초에 Beta 2가 나오면서 지시 따르기 능력과 환각 감소가 개선되었고, 상위권에 안착한 모습입니다. 하나의 거대 모델로 모든 걸 해결하려는 경쟁사들과 달리, 역할을 나눈 팀 구조가 효과를 보고 있는 셈입니다.
Claude Opus 4.6은 이번 달 새로 나온 모델은 아닙니다. 하지만 이야기하지 않을 수 없는 이유가 있습니다. 한 달 전까지 1위였던 모델이 5위로 밀려났기 때문입니다. Thinking 모드를 켜면 1503 Elo로 2위까지 올라가지만, 기본 모드에서는 1490 Elo입니다.
SWE-bench Verified에서 약 81%로 코딩에서는 여전히 최상위권이고, MMMU Pro(멀티모달 이해)에서 85.1%로 이미지 분석에서도 강세를 보입니다. 가격은 출력 토큰 기준 100만 개당 25달러(약 3만 6천 원)로, GPT-5.4의 15달러(약 2만 2천 원)보다 67% 비쌉니다. Arena 순위에서는 밀렸지만, 코딩과 멀티모달에서는 아직 가장 강한 모델입니다.
이번 순위표에서 가장 의외였던 건 중국발 오픈소스 모델들의 약진입니다. Chatbot Arena 오픈소스 부문에서 Zhipu AI의 GLM-5가 1452 Elo, Moonshot AI의 Kimi K2.5 Thinking이 1451 Elo를 기록했습니다. 절대 점수로 보면 상위 폐쇄형 모델과 50점 정도 차이가 나지만, 반년 전만 해도 100점 이상 벌어져 있었던 걸 생각하면 격차가 빠르게 좁혀지고 있습니다.
Kimi K2.5는 특히 코딩 분야에서 주목받고 있습니다.
오픈소스 모델 중 처음으로 폐쇄형 최상위 모델들과 실질적으로 경쟁할 수 있는 수준이라는 평가가 나오고 있습니다. MoonViT라는 4억 파라미터 비전 인코더를 탑재해서 이미지와 영상 처리도 가능하고, 에이전트 작업(웹사이트 조작 같은)도 수행할 수 있습니다.
알리바바 클라우드의 Qwen 3.5, GLM-5, MiniMax M2.5, Kimi K2.5를 한곳에서 쓸 수 있는 코딩 플랜도 등장했습니다. 중국 AI 생태계가 오픈소스를 중심으로 빠르게 확장되고 있다는 걸 피부로 느낄 수 있는 대목입니다.
성능만큼 중요한 게 비용입니다. 같은 질문을 던져도 모델마다 요금이 크게 다르거든요. 3월 기준 주요 모델의 API 비용을 정리하면 이렇습니다.
재미있는 건 Arena 1위인 Gemini 3.1 Pro가 가격까지 가장 저렴하다는 점입니다. 출력 기준 100만 토큰당 12달러(약 1만 7천 원)로, Claude Opus 4.6의 절반도 안 됩니다. GPT-5.4와 Claude Sonnet 4.6은 출력 비용이 동일한 15달러인데, 성능 특성이 다르니 용도에 따라 선택이 갈립니다. 코딩은 Claude, 범용 추론은 GPT-5.4가 낫다는 평가가 많습니다.
개인적으로 느끼는 건, 이제 "어떤 모델이 최고냐"보다 "어떤 상황에 어떤 모델을 쓰느냐"가 더 중요한 질문이 되었다는 점입니다. GPT-5.4의 추론 강도 조절 기능이 바로 그런 시대를 반영합니다. 간단한 요약에는 가볍게, 코드 리뷰에는 깊게. 하나의 모델 안에서도 상황에 맞게 조절하는 시대가 된 겁니다.
한 달 사이에 벌어진 일을 정리하면 세 가지가 눈에 들어옵니다.
첫째, 왕좌가 교체되었습니다.
2월까지는 Claude가 압도적이었는데, 3월에 Gemini 3.1 Pro가 1위를 가져갔습니다. 상위 3개 모델이 Google, Anthropic, xAI로 각각 다른 회사라는 것도 처음 있는 일입니다.
둘째, 모델 교체 주기가 한 달 단위로 줄었습니다.
OpenAI는 3월 11일에 GPT-5.1을 아예 퇴역시켰고, Google은 Gemini 3 Pro를 한 달 만에 단종시켰습니다. 특정 모델에 의존하는 서비스라면, 마이그레이션 계획을 항상 염두에 두어야 하는 시대입니다.
셋째, 오픈소스가 정말 잘 따라오고 있습니다.
GLM-5와 Kimi K2.5가 폐쇄형 모델과의 격차를 눈에 띄게 줄이면서, "비싼 API를 써야만 좋은 결과가 나온다"는 전제가 흔들리기 시작했습니다.
다음 달에 이 순위가 또 어떻게 바뀔지, 솔직히 예측이 안 됩니다. GPT-5.3이 Arena에서 'Vortex'와 'Zephyr'라는 코드명으로 테스트 중이라는 소식도 있고, Grok 4.20의 정식 버전도 예고되어 있습니다. 한 가지 확실한 건, 지금 이 글에 적힌 순위가 한 달 뒤에는 또 달라져 있을 거라는 점입니다.
Chatbot Arena (OpenLM.ai) - AI 모델 사용자 투표 리더보드
NxCode - GPT-5.4 Release Date, Features & Pricing
Google Blog - Gemini 3.1 Pro: A smarter model for your most complex tasks
EONMSK - xAI Grok 4.20 Beta 2 released