디지털서비스 이슈리포트 2025-12호 : 암기된 지능을 넘어
이 글은 제가 NIA [한국지능정보사회진흥원]의 < 디지털서비스 이슈리포트 > 2025년 12월호에 기고한 글입니다. 원본 글 '2025년 AI 현황 보고서 리뷰'를 이곳 브런치에서도 공유합니다.
대규모 언어 모델(LLM)의 발전 속도는 하드웨어의 연산 능력 증가 속도를 상회하며, 이는 기존의 성능 평가 체계인 벤치마크(Benchmark)에 심각한 위기를 초래하고 있다. 과거 머신러닝의 여명기에는 손글씨 인식(MNIST)이나 이미지 분류(ImageNet)와 같은 정적인 데이터셋이 모델의 성능을 측정하는 절대적인 척도로 작용했다. 이러한 정량적 지표는 연구자들에게 명확한 목표를 제시하며 기술 발전을 견인해 왔지만, 2023년 GPT-4의 등장 이후, 우리는 기존의 벤치마크가 더 이상 변별력을 갖지 못하는 벤치마크 포화 상태에 직면했다.
현재 업계 표준으로 통용되던 MMLU(Massive Multitask Language Understanding)나 GSM8K(Grade School Math 8K)와 같은 벤치마크에서 최신 프런티어 모델들은 인간 전문가 수준을 넘어서거나 만점에 가까운 점수를 기록하고 있다. 이러한 현상은 모델이 진정으로 인간을 초월한 지능을 갖추었음을 의미하기보다는, 평가 방식이 모델의 암기력과 패턴 매칭 능력을 걸러내지 못하고 있음을 시사한다. 이는 굿하트의 법칙(Goodhart's Law), 즉 "측정 지표가 목표가 되는 순간, 그 지표는 더 이상 유효한 측정 도구가 아니다"라는 경제학적 명제가 AI 분야에서 재현되고 있음을 보여준다.
현대 AI 평가의 가장 큰 맹점은 데이터 오염과 과적합 문제이다. 인터넷상의 거의 모든 텍스트를 학습 데이터로 사용하는 LLM의 특성상, 벤치마크의 문제와 정답이 훈련 데이터에 포함되었을 가능성을 배제할 수 없다. 연구 결과에 따르면, 일부 모델은 벤치마크 테스트 세트를 훈련 과정에서 직간접적으로 학습하여, 실제 추론 능력과는 무관하게 높은 점수를 기록하는 것으로 나타났는데, 이는 모델이 수학적 원리를 이해하고 문제를 푸는 것이 아니라, 문제의 텍스트 패턴을 인식하고 기억된 정답을 출력하는 '영리한 앵무새'와 같은 행동을 보일 수 있음을 의미한다.
이러한 배경 하에 2025년은 AI 벤치마크의 패러다임이 근본적으로 변화하는 시점이 되고 있다. 본 글에서는 현재 진행 중인 벤치마크들의 진화 방향에 대해 아래의 다양한 시각들로부터 정리한다.
마케팅 수단으로서의 벤치마크: 주요 파운데이션 모델 기업들이 자사에 유리한 지표를 선별하여 'SOTA(State-of-the-Art)'를 주장하는 현상과 그 이면의 전략.
지식의 극한 검증: 인간 전문가조차 풀기 힘든 난이도로 설계되어 단순 검색이나 암기를 무력화하는 인류 최후의 시험(HLE : Humanity's Last Exam)
지능의 본질 탐구: 사전 지식 없이 새로운 규칙을 습득하는 능력을 측정하는 'ARC-AGI'.
사용자 경험과 에이전트: 정량적 점수 대신 집단지성을 활용하는 'LM 챗봇 아레나(LMSYS Chatbot Arena)'
2025년 현재, 파운데이션 모델 시장은 단일 모델의 우위를 논하는 단계를 지나, 각 기업이 정의하는 '지능의 정점'이 무엇인지를 증명하는 철학의 대결장으로 바뀌고 있다. 오픈AI는 범용성과 밸런스를, 구글은 압도적인 문맥과 멀티모달 경험을, 앤트로픽(Anthropic)은 실무적인 코딩 능력을, 그리고 엔비디아는 모델이 아닌 시스템의 효율성을 각기 다른 벤치마크를 통해 주장하고 있다.
오픈AI는 GPT-5.1과 GPT-5.2를 통해 가장 균형 잡힌 범용 AI의 표준을 제시하고 있다. 이들은 특정 영역에서만 극단적으로 높은 점수를 내기보다, 대화, 코딩, 추론, 멀티모달 등 모든 영역에서 최상위권의 성능을 유지하는 육각형 스탯을 강조한다. 특히 GPT-5.1은 빠른 반응 속도와 효율성을, GPT-5.2는 복잡한 추론과 정확도를 담당하며 사용자에게 어떤 상황에서도 실패하지 않는 경험을 제공한다는 점을 내세운다.
구글은 제미나이 3을 출시하며 사용자가 느끼는 성능과 압도적인 정보 처리량(Context)을 강조하고 있다. 벤치마크 점수보다는 전 세계 사용자들이 블라인드 테스트로 평가하는 LMSYS 챗봇 아레나에서 1위를 가장 큰 마케팅 포인트로 삼고 있다. 그리고 수백만 토큰의 문서를 한 번에 이해하는 능력을 통해 기업 데이터 분석 시장에서의 우위를 주장한다.
앤트로픽은 가장 인간다운 대화를 넘어 가장 일 잘하는 AI로 포지셔닝을 잡고 있다. 이들은 단순한 Q&A 벤치마크보다, 실제 깃허브의 이슈를 해결하고 코드를 수정하는 SWE-bench 점수를 전면에 내세운다. 개발자들 사이에서 "코딩은 클로드"라는 인식을 심어주는 데 성공했으며, 복잡한 지시를 이해하고 도구를 사용하는 에이전트 능력에서 경쟁사를 압도한다고 주장한다.
엔비디아는 거대 모델 하나에게 모든 걸 맡기지 말라는 시스템적 접근을 주장한다. 기존의 정적 시험 점수보다, 오케스트레이션 능력이 중요하다고 강조하는데. 이는 중앙의 관리자 AI가 계산기, 검색, 코딩 툴 등 전문화된 도구와 소형 모델들을 적재적소에 배치하여 문제를 해결하는 방식으로, 그들은 이 방식이 거대 모델 하나를 쓰는 것보다 비용은 훨씬 저렴하면서도 정확도는 더 높다고 주장한다.
MMLU 점수가 90점에 육박하며 “AI가 인간의 대학생 수준 지식을 넘어섰다"는 찬사가 쏟아지던 2024년 말, AI 학계는 거대한 역설에 직면했는데, 이는 벤치마크 점수는 만점에 가깝지만, 실제 현업에서 전문가들이 느끼는 AI의 효용성은 여전히 제한적이었기 때문이었다. 이러한 평가 인플레이션과 데이터 오염 문제를 해결하기 위해 CAIS(Center for AI Safety)와 스케일AI는 인류 최후의 시험(Humanity's Last Exam, HLE)이라는 프로젝트를 시작했다. 이는 이름 그대로, AI가 인간이 축적한 지식의 가장 깊은 심연까지 도달했는지를 판별하는 마지막 관문이자, 단순한 검색이나 암기로는 절대 풀 수 없는 전문가 전용 평가 체계이다.
HLE의 가장 큰 특징은 검색 불가능성과 초고난도 전문성이다. 전 세계 500개 이상의 기관에서 수십 개 분야의 석/박사급 전문가들이 출제한 2,500여 개의 문항으로, 기존 벤치마크가 위키피디아 수준의 일반 지식을 물었다면, HLE는 전공 서적의 각주에 있거나 복합적인 논리적 도약을 거쳐야만 알 수 있는 지식을 요구한다. 예를 들어, HLE에 포함된 생태학 문제는 단순한 생물학적 사실을 묻는 대신, "벌새의 특정 근육 건막에 묻혀 있는 종자골이 지지하는 힘줄의 개수"를 묻는다. 이는 인터넷 검색으로 찾을 수 없으며, 해부학적 구조를 입체적으로 시뮬레이션하고 이해하고 있어야만 답을 도출할 수 있다.
2025년 현재 HLE의 리더보드는 AI 모델들에게 소위 겸손함을 가르치고 있는데, MMLU를 정복했다던 최신 모델들이 HLE 앞에서는 초기 GPT-4 레벨의 모델들이 10% 미만의 정답률을 기록했었고, 2025년의 최신 모델들은 비약적인 발전을 이루었음에도 불구하고 여전히 50%의 벽을 넘지 못하고 있다.
HLE는 AGI(일반 인공지능)가 단순한 말 잘하는 챗봇이 아니라, 인류 지식의 최전선을 확장할 수 있는 연구자가 되어야 함을 역설한다. 진정한 의미의 전문가로 인정받기까지 아직 가야 할 길이 멀다는 것을 보여주지만, 다른 한편으로는 10% 미만에서 1년 사이에 5배 이상의 발전을 이루었다 생각할 수도 있겠다. 이 HLE 점수가 인간 전문가 수준인 80~90% 구간에 진입하는 시점을 진정한 기술적 특이점의 징후로 주시해야 할 것이다.
앞의 HLE가 ‘AI가 인간 전문가만큼 많이 아는가'를 묻는 시험이라면, ARC-AGI(Abstraction and Reasoning Corpus for AGI)는 ‘AI가 낯선 문제를 만났을 때 얼마나 빠르게 배우는가'를 묻는 순수 지능 검사이다. 기존의 LLM들은 인터넷상의 거의 모든 텍스트를 학습했기 때문에, 이들이 문제를 잘 푸는 것이 지능 때문인지, 아니면 단순히 비슷한 문제를 훈련 데이터에서 기억해낸 것인지 구분하기 어려웠는데, ARC-AGI는 이 기억의 가능성을 원천 차단하기 위해 언어를 배제하고, 오직 인간이 선천적으로 타고나는 핵심 지식(객체, 숫자, 기하학, 위상학 등)만을 이용한 시각적 퍼즐로 구성된다. 모든 테스트 문제는 훈련 데이터에 없는 완전히 새로운 규칙을 포함하므로, 모델은 시험 현장에서 즉석으로 규칙을 유추해야 한다.
지난 5년간 ARC-AGI는 AI에게 넘을 수 없는 벽이었다. 인간은 특별한 훈련 없이도 직관적으로 85~90% 이상의 문제를 해결하지만, GPT-4를 포함한 2024년 초반의 모델들은 30%대를 넘지 못했다. 그러나 2025년, 오픈AI의 o3 모델이 이 판도를 완전히 뒤집었는데, o3는 질문을 받자마자 답을 내놓는 대신, 수만 번의 내부 시뮬레이션을 수행하며 가설을 검증하는 추론 시간 연산(Test-Time Compute)을 통해 ARC-AGI-1의 비공개 평가셋에서 87.5%라는 인간 초월적인 점수를 기록했다. 이는 AI가 직관을 넘어 논리적 검증 단계에 진입했음을 알리는 신호탄으로 인식되고 있다.
하지만 이는 AGI의 완성을 의미하진 않았고, 2025년 공개된 ARC-AGI-2는 우리에게 AI 지능의 취약한 천재성 부분을 보여주었다. v1과 동일한 형식이지만 AI가 기존 패턴을 암기하여 푸는 것을 방지하기 위해 '인간에게는 쉽지만, AI에게는 더 어려운 구조로 설계된 이 시험에서, v1을 정복했던 o3 모델조차 26.7%라는 낮은 점수를 받았는데, 이는 현재의 AI가 익숙한 유형의 문제(v1)는 마스터했을지 몰라도, 조금만 비틀어진 낯선 상황(v2)에는 여전히 적응하지 못한다는 것을 증명한다.
모델들의 경쟁은 ARC-AGI-2 도 50%를 향해 가며 정복 가능한 지표로 보고 진행되어 가는 한편, 이 협회는 개선된 지표를 준비하고 있다, 2026년 프리뷰가 예정된 ARC-AGI-3는 정적인 퍼즐이었던 v1, v2와 달리, AI가 환경과 상호작용하며 목표를 달성해야 하는 동적 게임 형식을 가진다. v2가 "이 그림의 다음 패턴은 무엇인가?"를 묻는다면, v3는 "이 낯선 방에서 도구를 찾아 탈출하라"를 요구합니다. 이는 AGI의 정의를 문제를 푸는 계산기에서 세상 속에서 행동하는 에이전트로 확장하는 결정적인 패러다임 전환으로, 행동하는 지능으로서 주목할 지표라 하겠다.
LM 챗봇 아레나(LMSYS 챗봇 아레나, LMarena)는 정적인 데이터셋 기반의 벤치마크가 가진 한계를 극복하기 위해 등장한 평가 플랫폼이다. 앞서 언급한 HLE나 ARC-AGI가 모델의 논리적 한계나 지식의 깊이를 시험하는 수능과 같다면, LM 챗봇 아레나는 수만 명의 사용자가 일상적인 대화부터 복잡한 코딩 요청까지 자유롭게 질문하고 평가하는 실기 시험에 가깝다. 두 개의 익명 모델이 내놓은 답변을 블라인드 테스트 방식으로 비교하여 승자를 가리는 이 시스템은, 체스나 게임에서 실력을 측정할 때 쓰는 Elo 레이팅 알고리즘을 도입해 모델의 상대적 서열을 실시간으로 산출한다.
2025년 현재, 챗봇 아레나는 단순한 순위표를 넘어 파운데이션 모델 기업들의 실질적인 전장이 되었다. 과거에는 특정 벤치마크 점수를 높이기 위한 편법(데이터 오염 등)이 통용되기도 했으나, 아레나에서는 사용자의 변칙적이고 예측 불가능한 질문이 쏟아지기 때문에 암기된 지능만으로는 높은 점수를 유지할 수 없다. 특히 최근에는 텍스트를 넘어 비전, 코딩(WebDev), 하드 프롬프트(Hard Prompts) 등 세부 영역별 리더보드가 분화되면서, 각 모델이 가진 고유의 개성과 실무 적합성을 판단하는 가장 공신력 있는 지표로 자리 잡았다.
2025년 하반기 리더보드의 가장 큰 화두는 xAI가 선보인 그록 4.1의 대약진이다. 과거 '유머러스하지만 성능은 아쉽다'는 평가를 받았던 그록 시리즈는 최신 4.1 버전, 특히 추론 시간 연산'을 강화한 그록 4.1 씽킹 모델을 통해 오랫동안 1위를 수성하던 구글의 제미나이 3 프로와 오픈AI의 GPT-5 시리즈를 한때 근소한 차이로 앞지르며 텍스트 부문 전체 1위를 기록하였다. 이는 데이터의 양뿐만 아니라, 실시간 정보 접근성과 정제된 추론 프로세스가 결합되었을 때 사용자가 느끼는 체감 지능이 얼마나 강력해질 수 있는지를 증명한 사례로 평가받는다.
현재 리더보드의 양상은 1위 자리를 둔 극심한 정체와 상향 평준화로 요약된다. 전체적으로 구글의 제미나이가 최상위권에 있지만, 그록 4.1이 텍스트와 일반 대화에서 두각을 나타내고 있다면, 오픈AI의 GPT-5.2는 에이전트 및 복잡한 워크플로우에서, 앤트로픽의 클로드는 코딩 아레나에서 각각 1위를 차지하며 '전 분야 압도적 1위'가 사라진 다극화 시대를 보여주고 있다. 이러한 순위의 변동성은 모델의 미세한 튜닝이나 추론 방식의 변화가 사용자 경험에 즉각적인 영향을 미친다는 것을 시사하며, 기업들이 이제는 단순한 성능 수치를 넘어 '사용자가 선호하는 답변의 질'에 사활을 걸고 있음을 나타낸다.
우리는 이제 단일 지표가 모델의 서열을 결정하는 시대를 지나, 각기 다른 층위의 벤치마크를 통해 지능의 다면성을 입체적으로 해석해야 하는 시점에 서 있다. HLE가 요구하는 지식의 깊이와 ARC-AGI가 시험하는 추론의 원형, 그리고 LM 챗봇 아레나가 증명하는 인간과의 공감 및 실용성은 서로 배타적인 수치가 아니라, 기술적 특이점을 향해가는 지능의 서로 다른 단면들이다. 각 지표들이 가리키는 기술적 도약과 여전히 존재하는 한계를 구분하여 읽어내는 능력이 그 어느 때보다 중요하다.
2025년을 기점으로 벤치마크의 패러다임이 정적인 정답 찾기에서 동적인 문제 해결로 진화하고 있듯, 사용자 역시 숫자에 매몰되기보다 AI가 복잡한 현실의 맥락을 얼마나 정확히 이해하고 실행하는지에 주목해야 한다. 지표는 기술의 현재를 기록하지만, 우리는 이 지능이 인간의 생산성을 어떻게 확장하고 사회적 난제를 해결하는 데 기여할 수 있을지 질문해야 하겠다.