brunch

LLM 벤치마크의 세 가지 평가 기준

지식의 덕후

by 안영회 습작

노트북LM을 활용해 논문을 읽던 방식으로 <A Survey of Large Language Model Benchmarks> 논문을 훑어봤습니다.


LLM 평가의 3대 기준: 일반 능력, 도메인 특화, 타깃 특화

첫 장에 벤치마크 일람표가 눈에 들어오지만 인공지능 연구자가 아닌 저에겐 그저 축구팀 엠블럼 모음 수준의 의미를 넘지 않을 듯합니다. 그래서, 내용 면에서 제가 소화할 만한 내용만 추려 보기로 했습니다. 노트북LM의 마인드맵 기능으로 구성을 살펴봤습니다.

벤치마크 자체에 대해 알 필요가 없더라도 어떤 기준으로 모델을 평가하는지는 평가 결과를 볼 때 의미 있는 정보가 될 듯합니다. 그래서, 이를 살펴보는 글로 초점을 맞추겠습니다. 크게 세 가지 기준이 있습니다.


인공지능도 이제는 필히 상식을 갖춰야 한다

자, 그럼 각각을 훑어보겠습니다. 첫 번째는 일반 능력(General Capabilities) 벤치마크입니다. 다시 세 가지 잣대를 활용합니다. 언어학적 핵심(Linguistic Core), 지식Knowledg, 추론Reasonning이 그것입니다.

디테일은 다루지 않으려고 했는데 상식(Commonsense)은 그냥 넘어갈 수가 없네요. 다음 구절 때문이죠.[1]

<언어본능>으로 접했던 스티븐 핑커의 인공지능에 대한 책을 볼 때, '인공지능은 상식을 가질 수 없다'는 말이 선명한 기억을 남겼습니다.

석연치 않아서 퍼플렉시티에게 물으니 이렇게 요약합니다. 흥미롭게도 출처의 글도 벤치마크를 다루는데 '상식'이란 단어를 찾을 수 있습니다.

핑커는 인간적 상식의 구현성에 비판적이지만, LLM 시대에는 상식 평가 벤치마크가 표준화되어 AI의 상식 능력이 정량적으로 비교·개선되고 있습니다. 2020년대를 전환기로, 데이터 중심의 상식 접근이 AI 업계에 자리 잡았습니다.

또 흥미로운 점은 논문에서도 벤치마크가 2020년 이후 폭발적으로 발전했다고 해서, 시기가 겹친다는 점입니다.


도메인 특화 능력은 돈 될 만한 아이템 위주로

두 번째 능력은 도메인 특화 벤치마크인데 자연과학, 인문학과 사회과학, 그리고 공학과 기술입니다. 자연과학은 상식적인 분류인데, 인문학과 사회과학 분류는 그렇지 않은 듯해 도리어 흥미롭습니다. 법Law, 지적 재산권IP, 교육Education, 심리학Psychology, 금융Finance. 얼핏 보면 돈이 될 만한 분야부터 개발했다는 생각이 듭니다.

공학 기술에서는 말할 필요도 없이(직업적 감각에 의해) AI의 코딩 능력 향상이네요. 하지만, 정말 큰돈이 될 만한 도메인은 자연과학 하위의 Biology일 것도 같습니다.


타깃 특화 능력은 상용화 준비 상태를 대표하는 느낌

세 번째 능력은 타깃 특화입니다. 하위 항목을 직관적으로 훑어보면 상업적 준비 상태나 품질(신뢰도)을 대표하는 지표 같아 보입니다.


주석

[1] 추천받을 당시 인공지능 석학이라고 들었던 스티븐 핑커 책의 한 구절 때문인데, 그 기억이 <이제 모두의 상식은 존재하지 않는다>에 기록으로 남겨져 있네요.


지난 지식 덕후의 탄생 연재

(53회 이후 링크만 표시합니다.)

53. 공동지능co-intelligence 길들이기

54. 자기 중심성에서 벗어난 사고를 돕는 과학의 쓸모

55. 중심을 어디에 두는가만으로도 달리 보이는 세상

56. 뉴스를 빠르고 유익하게 소비하기 2025

57. 구글 노트북LM을 이용한 기사 내용 내비게이션

58. 브라우저가 아닌 다양한 플랫폼으로 분산된 검색 욕구

59. AI알못이 AI 논문을 읽고 얻은 호기심

60. 몸으로 체득하는 지식만 기억이 되어 작동한다

61. Time Horizon은 시간지평인가 시간적 범위인가?

62. 미디어 문해력, 협상론적 세계관 그리고 문화의 힘

63. 적대적 트리거와 충조평판 그리고 감정의 민첩성

64. 기억의 3 계층 그리고 점진주의와 프레임 문제의 관련성

65. 인공지능으로 구축하는 월드 모델과 들쭉날쭉함의 원인

66. AI 에이전트의 보상과 가치 그리고 RLHF

67. Validation 번역은 검증이 아닌 타당성으로 하자

68. '복사-붙여 넣기' 패턴과 레거시 코드의 공통점

keyword
작가의 이전글프로그래밍 세계의 다양한 캡슐 구현 예시