지금 가장 신뢰받는 AI 평가 기준은 무엇인가
어떤 AI가 가장 뛰어난지를 묻는 리더보드는 넘쳐난다. 그런데 그 리더보드 자체를 어떻게 믿을 수 있을까.
허깅페이스에는 현재 수백 개의 AI 벤치마크 리더보드가 존재한다. LLM 성능 평가, 코딩 능력 측정, 멀티모달 이해, 에이전트 추론, 음성 합성, 안전성 검증까지. 분야마다 저마다 "가장 공정한 평가"를 표방한다. 그러나 어떤 평가 기준이 실제로 글로벌 AI 커뮤니티의 신뢰를 얻고 있는지는, 지금까지 수십 개 페이지를 직접 돌아다니지 않으면 알 수 없었다.
Leaderboard of Leaderboards, 줄여서 LoL은 이 문제를 정면으로 해결한다.
리더보드를 랭킹한다는 것의 의미
LoL은 메타 리더보드다. AI 모델이 아니라 AI를 평가하는 기준 자체를 순위화한다. 편집자의 주관적 판단이나 후원 관계가 개입하지 않는다. 허깅페이스 플랫폼의 실시간 트렌딩 점수와 누적 좋아요 수, 즉 수십만 AI 연구자와 개발자들의 실제 행동 데이터가 순위를 결정한다.
지금 이 순간 커뮤니티가 가장 많이 방문하는 벤치마크가 무엇인지, 시간이 지나도 꾸준히 신뢰받는 평가 기준이 무엇인지를 트렌딩과 좋아요 두 가지 기준으로 즉시 확인할 수 있다.
무엇을 볼 수 있나
LLM, 코딩, 멀티모달, 에이전트, AGI, 챗봇 선호도, 추론, 생성 모델, 안전성까지 9개 도메인 필터로 원하는 분야만 추려볼 수 있다. 각 항목에는 숫자가 두 개 표시된다. 하나는 이 리더보드 컬렉션 안에서의 순위, 다른 하나는 허깅페이스 전체 스페이스 중 실시간 글로벌 순위다. 후자는 해당 벤치마크가 AI 평가 생태계를 넘어 허깅페이스 플랫폼 전체에서 어느 위치에 있는지를 보여준다.
주목할 만한 리더보드들
허깅페이스 Open LLM Leaderboard는 IFEval, BBH, MATH, GPQA 등 6개 과제로 오픈소스 언어 모델을 평가하는 사실상의 표준이다. Chatbot Arena는 100만 건 이상의 인간 선호도 투표로 만들어진 Elo 기반 순위로, 자동화 지표가 아닌 실제 사람의 판단을 반영한다는 점에서 독보적이다.
여기에 주목해야 할 신흥 프레임워크들이 있다.
FINAL Bench는 Frontier Intelligence Nexus for AGI-Level Verification의 약자로, 15개 도메인 100개 과제를 통해 AGI 수준의 역량을 평가하도록 설계된 벤치마크다. 공개 직후 허깅페이스 데이터셋 전체 인기 순위 글로벌 상위 5위에 진입했으며, 단순 정답률이 아닌 사고 구조와 추론 깊이를 측정하는 방식으로 기존 벤치마크와 차별화된다.
Smol AI WorldCup은 8B 이하 소형 모델들을 위한 토너먼트형 벤치마크다. 정적인 테스트셋 대신 모델끼리 직접 대결하는 방식을 채택하고, 채점은 FINAL Bench 기준으로 자동 수행된다. 효율적인 소형 모델의 성능을 평가하기 위해 특별히 설계된 거의 유일한 프레임워크다.
ALL Bench는 여러 벤치마크 프레임워크의 결과를 하나의 통합 순위로 집계한다. 특정 평가 기준 하나에 과적합된 모델이 과대평가되는 문제를 교차 검증 방식으로 줄인다.
왜 이것이 중요한가
AI 성능 경쟁이 가속화될수록, 어떤 기준으로 측정하느냐는 어떤 모델을 쓰느냐만큼 중요한 질문이 된다. 평가 기준이 흔들리면 그 위에서 내리는 모든 판단도 흔들린다. LoL이 하려는 일은 단순한 도구 모음이 아니다. AI 평가 생태계에서 커뮤니티 신뢰가 실제로 어디에 모여 있는지를 가시화하는 것, 그것이 이 프로젝트의 본질적인 기여다.
지금 어떤 AI를 쓸지 고민하기 전에, 먼저 무엇으로 측정할지를 점검하라.
https://huggingface.co/spaces/MAYA-AI/all-leaderboard
#AI벤치마크 #LLM평가 #허깅페이스 #AILeaderboard #오픈소스AI #FINALBench #SmolAI #AGI #AI성능비교 #머신러닝 #딥러닝 #AI연구 #생성AI #언어모델 #AITrends #비드래프트 #vidraft