지식의 덕후
노트북LM을 활용해 논문을 읽던 방식으로 <A Survey of Large Language Model Benchmarks> 논문을 훑어봤습니다.
첫 장에 벤치마크 일람표가 눈에 들어오지만 인공지능 연구자가 아닌 저에겐 그저 축구팀 엠블럼 모음 수준의 의미를 넘지 않을 듯합니다. 그래서, 내용 면에서 제가 소화할 만한 내용만 추려 보기로 했습니다. 노트북LM의 마인드맵 기능으로 구성을 살펴봤습니다.
벤치마크 자체에 대해 알 필요가 없더라도 어떤 기준으로 모델을 평가하는지는 평가 결과를 볼 때 의미 있는 정보가 될 듯합니다. 그래서, 이를 살펴보는 글로 초점을 맞추겠습니다. 크게 세 가지 기준이 있습니다.
자, 그럼 각각을 훑어보겠습니다. 첫 번째는 일반 능력(General Capabilities) 벤치마크입니다. 다시 세 가지 잣대를 활용합니다. 언어학적 핵심(Linguistic Core), 지식Knowledg, 추론Reasonning이 그것입니다.
디테일은 다루지 않으려고 했는데 상식(Commonsense)은 그냥 넘어갈 수가 없네요. 다음 구절 때문이죠.[1]
<언어본능>으로 접했던 스티븐 핑커의 인공지능에 대한 책을 볼 때, '인공지능은 상식을 가질 수 없다'는 말이 선명한 기억을 남겼습니다.
석연치 않아서 퍼플렉시티에게 물으니 이렇게 요약합니다. 흥미롭게도 출처의 글도 벤치마크를 다루는데 '상식'이란 단어를 찾을 수 있습니다.
핑커는 인간적 상식의 구현성에 비판적이지만, LLM 시대에는 상식 평가 벤치마크가 표준화되어 AI의 상식 능력이 정량적으로 비교·개선되고 있습니다. 2020년대를 전환기로, 데이터 중심의 상식 접근이 AI 업계에 자리 잡았습니다.
또 흥미로운 점은 논문에서도 벤치마크가 2020년 이후 폭발적으로 발전했다고 해서, 시기가 겹친다는 점입니다.
두 번째 능력은 도메인 특화 벤치마크인데 자연과학, 인문학과 사회과학, 그리고 공학과 기술입니다. 자연과학은 상식적인 분류인데, 인문학과 사회과학 분류는 그렇지 않은 듯해 도리어 흥미롭습니다. 법Law, 지적 재산권IP, 교육Education, 심리학Psychology, 금융Finance. 얼핏 보면 돈이 될 만한 분야부터 개발했다는 생각이 듭니다.
공학 기술에서는 말할 필요도 없이(직업적 감각에 의해) AI의 코딩 능력 향상이네요. 하지만, 정말 큰돈이 될 만한 도메인은 자연과학 하위의 Biology일 것도 같습니다.
세 번째 능력은 타깃 특화입니다. 하위 항목을 직관적으로 훑어보면 상업적 준비 상태나 품질(신뢰도)을 대표하는 지표 같아 보입니다.
[1] 추천받을 당시 인공지능 석학이라고 들었던 스티븐 핑커 책의 한 구절 때문인데, 그 기억이 <이제 모두의 상식은 존재하지 않는다>에 기록으로 남겨져 있네요.
(53회 이후 링크만 표시합니다.)
54. 자기 중심성에서 벗어난 사고를 돕는 과학의 쓸모
58. 브라우저가 아닌 다양한 플랫폼으로 분산된 검색 욕구
61. Time Horizon은 시간지평인가 시간적 범위인가?
62. 미디어 문해력, 협상론적 세계관 그리고 문화의 힘
64. 기억의 3 계층 그리고 점진주의와 프레임 문제의 관련성
65. 인공지능으로 구축하는 월드 모델과 들쭉날쭉함의 원인