LLM 벤치마크의 세 가지 평가 기준

지식의 덕후

Aug 28. 2025

노트북LM을 활용해 논문을 읽던 방식으로 <A Survey of Large Language Model Benchmarks> 논문을 훑어봤습니다.

LLM 평가의 3대 기준: 일반 능력, 도메인 특화, 타깃 특화

첫 장에 벤치마크 일람표가 눈에 들어오지만 인공지능 연구자가 아닌 저에겐 그저 축구팀 엠블럼 모음 수준의 의미를 넘지 않을 듯합니다. 그래서, 내용 면에서 제가 소화할 만한 내용만 추려 보기로 했습니다. 노트북LM의 마인드맵 기능으로 구성을 살펴봤습니다.

벤치마크 자체에 대해 알 필요가 없더라도 어떤 기준으로 모델을 평가하는지는 평가 결과를 볼 때 의미 있는 정보가 될 듯합니다. 그래서, 이를 살펴보는 글로 초점을 맞추겠습니다. 크게 세 가지 기준이 있습니다.

인공지능도 이제는 필히 상식을 갖춰야 한다

자, 그럼 각각을 훑어보겠습니다. 첫 번째는 일반 능력(General Capabilities) 벤치마크입니다. 다시 세 가지 잣대를 활용합니다. 언어학적 핵심(Linguistic Core), 지식Knowledg, 추론Reasonning이 그것입니다.

디테일은 다루지 않으려고 했는데 상식(Commonsense)은 그냥 넘어갈 수가 없네요. 다음 구절 때문이죠.[1]

<언어본능>으로 접했던 스티븐 핑커의 인공지능에 대한 책을 볼 때, '인공지능은 상식을 가질 수 없다'는 말이 선명한 기억을 남겼습니다.

석연치 않아서 퍼플렉시티에게 물으니 이렇게 요약합니다. 흥미롭게도 출처의 글도 벤치마크를 다루는데 '상식'이란 단어를 찾을 수 있습니다.

핑커는 인간적 상식의 구현성에 비판적이지만, LLM 시대에는 상식 평가 벤치마크가 표준화되어 AI의 상식 능력이 정량적으로 비교·개선되고 있습니다. 2020년대를 전환기로, 데이터 중심의 상식 접근이 AI 업계에 자리 잡았습니다.

또 흥미로운 점은 논문에서도 벤치마크가 2020년 이후 폭발적으로 발전했다고 해서, 시기가 겹친다는 점입니다.

도메인 특화 능력은 돈 될 만한 아이템 위주로

두 번째 능력은 도메인 특화 벤치마크인데 자연과학, 인문학과 사회과학, 그리고 공학과 기술입니다. 자연과학은 상식적인 분류인데, 인문학과 사회과학 분류는 그렇지 않은 듯해 도리어 흥미롭습니다. 법Law, 지적 재산권IP, 교육Education, 심리학Psychology, 금융Finance. 얼핏 보면 돈이 될 만한 분야부터 개발했다는 생각이 듭니다.