31종의 저명한 LLM들을 한 번에 비교해보자.
GPT·Claude·Gemini를 포함해 31종의 저명한 LLM들을 한 번에 비교하고 싶다면?
ALL Bench를 소개합니다
GPT-5.2랑 Claude Opus 4.6 중에 뭐가 더 나은지 궁금해서 허깅페이스 리더보드를 열어봤더니 둘 다 없다. 이런 경험 한 번쯤 있으시죠? 공식 Open LLM Leaderboard는 오픈소스 모델만 다루다 보니, 정작 우리가 매일 쓰는 클로즈드 모델들은 비교 자체가 안 됩니다. Artificial Analysis는 속도·가격에 특화돼 있고, LMArena는 사람 선호도 기반이라 객관적인 벤치마크 수치가 없습니다. 결국 어디를 봐도 "한 곳에서 다 보이는" 리더보드가 없었습니다.
ALL Bench는 그 공백을 채우기 위해 만들었습니다. GPT, Claude, Gemini 같은 클로즈드 모델부터 GLM-5, Kimi K2.5, Qwen3.5-397B 같은 오픈웨이트 모델, 거기에 한국 정부 독파모 사업에서 선정된 K-EXAONE·Solar Open 100B·A.X K1·모티프 AI까지 — 총 31개 모델을 동일한 기준으로 한 화면에서 비교합니다. 특히 한국 소버린 AI 4개 팀을 글로벌 리더보드에서 추적하는 곳은 현재 ALL Bench가 유일합니다.
점수 계산 방식도 다릅니다. 대부분의 리더보드는 제출하지 않은 벤치마크를 빼고 평균을 냅니다. 그러면 결과를 적게 낼수록 평균이 올라가는 역설이 생깁니다. ALL Bench는 미제출 항목을 0점으로 처리하고 10개 합산 후 10으로 나눕니다. 결과를 숨겨서 유리해지는 일은 없습니다.
측정 지표도 기존 리더보드와 차별화됩니다. 추론(GPQA Diamond, AIME 2025, HLE, ARC-AGI-2), 코딩(SWE-bench Verified, LiveCodeBench), 지시이행(IFEval, BFCL) 외에 FINAL Bench 메타인지 점수를 포함합니다. 메타인지란 AI가 자신의 오류를 스스로 발견하고 수정하는 능력입니다. 정답을 맞히는 것보다 틀렸을 때 스스로 바로잡을 수 있는지가 실제 업무에서 훨씬 중요하다는 관점에서, 이 지표는 기존 벤치마크가 놓쳐온 핵심 역량을 짚어냅니다.
차트는 9종을 제공합니다. 31개 모델 종합 순위 막대 그래프, 전체 히트맵, 오픈 vs 클로즈드 가격 대비 성능 산점도, 도메인별 레이더 차트 등 다양한 각도로 탐색할 수 있고, 벤치마크 점수와 함께 컨텍스트 윈도우·출력 속도·응답 지연·입력 가격까지 한눈에 볼 수 있어 실제 도입 결정에도 바로 활용 가능합니다.
모든 데이터는 Artificial Analysis Intelligence Index v4.0, arXiv 기술 보고서, Chatbot Arena ELO, 과기정통부 독파모 1차 평가 결과를 기반으로 검증합니다. 매달 정기 업데이트하며, 주요 변동 시 즉시 반영합니다.
피드백이나 모델 추가 요청은 Discussion 탭으로 남겨주세요.
바로가기 링크:
https://huggingface.co/spaces/FINAL-Bench/all-bench-leaderboard