측정할 수 있는 지능과 측정할 수 없는 가치에 대하여
오후 햇살이 비스듬히 들어오는 카페 창가였습니다.
딸의 얼굴을 담으려고 카메라를 들었는데, 자동 초점이 이상하게 작동했습니다.
딸의 얼굴이 아니라 뒤편 유리창의 반사된 풍경을 찾아내더군요.
유리에 비친 건물들은 놀랍도록 선명했습니다. 정작 그 앞에 앉아 있는 딸은 흐릿했습니다.
셔터를 누르지 못한 채 화면을 들여다봤습니다.
카메라는 분명 정확하게 초점을 맞추고 있었습니다.
가장 선명한 지점을 정확히 찾아냈죠. 하지만 그건 제가 보고 싶은 것이 아니었습니다.
기계의 정확함과 제 시선 사이에 미묘한 간격이 있었습니다.
커피잔을 들며 생각했습니다. 초점은 맞지만, 시선은 어딘가 어긋나 있다고요.
인공지능이 얼마나 똑똑한지 어떻게 알 수 있을까요?
'벤치마크'라고 불리는 성능 테스트가 있습니다. 컴퓨터 하드웨어나 소프트웨어의 성능을 측정하는 표준화된 테스트인데요, AI 전용 벤치마크도 있습니다. AI에게 수학 문제를 풀게 하고, 이미지를 분류하게 하고, 코드를 작성하게 합니다. 그리고 점수를 매깁니다.
불과 1년 전만 해도 80%대 점수면 대단했습니다. 그런데 2025년 들어 상황이 달라졌습니다.
OpenAI의 GPT-5가 나왔고, Anthropic의 Claude Opus 4.1이 나왔고, Google의 Gemini 2.5 Pro가 나왔습니다. 일론 머스크의 Grok 4도 등장했죠.
매번 새로운 모델이 나올 때마다 기록은 경신되었습니다. 어떤 시험에서는 90%를 넘어섰고, 심지어 100% 만점을 받는 경우도 생겼습니다.
그런데 숫자가 다일까요?
스탠퍼드 대학의 AI 인덱스 보고서는 이렇게 말합니다.
"많은 벤치마크가 이제 '포화 상태'에 도달했다."
대부분의 최신 모델들이 비슷한 수준의 높은 점수를 받고 있어서, 더 이상 모델 간의 차이를 구분하기 어려워졌다는 겁니다.
더 중요한 것은 그다음 말입니다.
"높은 점수를 받았다고 해서 우리가 원하는 방식으로 작동한다는 뜻은 아니다."
ChatGPT를 생각해보세요. 많은 시험에서 좋은 점수를 받았지만, 실제로 써보면 가끔 엉뚱한 답을 하거나 자신 있게 틀린 정보를 말하기도 합니다.
점수와 실제 경험 사이에 간극이 있는 거죠.
벤치마크는 단순한 평가 도구가 아닙니다. 그것은 우리가 '지능'이라는 것을 어떻게 이해하는지를 보여주는 거울이기도 합니다.
프랑스 철학자 미셸 푸코는 흥미로운 관찰을 했습니다.
18세기 유럽에 근대적 제도들 — 감옥, 학교, 병원 — 이 생겨나면서, 사람들을 평가하는 새로운 방식이 등장했다는 겁니다. 시험이 그 중심에 있었습니다.
학교에서는 시험으로 학생들을 '우등생'과 '열등생'으로 나눴습니다. 병원에서는 검사로 사람들을 '정상'과 '비정상'으로 분류했습니다. 감옥에서는 평가를 통해 '교화 가능한 자'와 '위험한 자'를 구분했습니다.
푸코는 이것을 '권력-지식'이라고 불렀습니다.
무엇을 측정하느냐가 곧 무엇을 가치있다고 규정하느냐와 같다는 뜻이죠.
측정은 중립적이지 않습니다. 그것은 세계를 특정한 방식으로 보도록 만드는 장치입니다.
AI 벤치마크도 마찬가지입니다.
우리가 무엇을 '지능'이라고 부를 것인지, 어떤 능력을 '중요하다'고 판단할 것인지 — 벤치마크를 만드는 순간, 우리는 이미 특정한 가치 판단을 하고 있습니다. 정답을 빨리 찾는 능력이 지능일까요? 복잡한 패턴을 인식하는 능력이 지능일까요? 아니면 다른 무언가일까요?
최근 마이크로소프트의 연구진이 발견한 사실이 있습니다.
많은 벤치마크가 실제로는 자신이 측정한다고 주장하는 것을 측정하지 못한다는 거죠. 예를 들어 어떤 시험은 '논리적 추론'을 평가한다고 하지만, 실제로는 단순히 특정 분야의 지식이 있는지만 확인합니다.
벤치마크가 정밀해질수록, 아이러니하게도 우리의 시선은 더욱 좁아집니다. 측정 가능한 것만이 중요한 것처럼 보이기 시작하거든요.
벤치마크가 너무 쉬워지자, 연구자들은 더 어려운 시험을 만들기 시작했습니다.
2025년 초, AI 안전 센터와 스케일 AI는 '인류의 마지막 시험'(Humanity's Last Exam)이라는 이름의 벤치마크를 공개했습니다. 전 세계 50개국, 500개 이상의 기관에서 모인 천 명 가까운 전문가들 — 대부분 교수나 박사급 연구자들 — 이 문제를 출제했습니다.
"벌새는 다른 새와 달리 꼬리깃 아래쪽에 타원형의 종자골을 가지고 있다. 이 종자골이 지지하는 힘줄의 쌍은 몇 개인가?"
대부분의 대학생은 질문조차 이해하기 어렵습니다. 조류학 전문가가 아니면 답할 수 없는 문제죠.
이런 문제가 2,500개 있습니다. 수학, 물리학, 화학, 생물학, 인문학까지 100개 이상의 분야를 다룹니다.
현재 가장 뛰어난 AI 모델들의 성적은 어떨까요? GPT-5 Pro가 도구를 사용해서 42%를 받았습니다. Grok 4 Heavy가 44.4%로 가장 높은 점수를 기록했습니다. 그 외 대부분의 모델은 10% 미만입니다.
"우리는 곧 AI에게 시험을 낼 수 있는 마지막 세대가 될 것이다."
이 벤치마크를 만든 연구자들의 말입니다. AI가 빠르게 발전하고 있어서, 2025년 안에 이 시험에서도 50% 이상의 정답률을 달성할 것이라고 예측합니다. 그 이후에는 인간이 만들 수 있는 시험이 더 이상 없을지도 모릅니다.
다만, HLE를 만든 연구자들조차 이렇게 말합니다.
"높은 점수가 곧 인간 수준의 지능을 의미하지는 않는다."
최근 AI 평가의 흐름은 달라지고 있습니다.
이제 사람들은 묻기 시작했습니다.
"일반 지식 시험에서 높은 점수를 받는 것이 정말 중요한가?"
TOEIC이나 TOEFL 점수가 높다고 해서 영어를 잘하는 건 아니니까요.
OpenAI는 2025년 'GDPval'이라는 새로운 평가 방식을 발표했습니다. 학문적 시험 대신, 실제 직업에서 하는 일을 평가하는 겁니다. 법률 문서 작성하기, 간호 계획 수립하기, 고객 상담 응대하기 같은 것들이죠.
44개 직업군에서 1,320개의 실무 과제를 모았습니다. 그리고 AI가 만든 결과물과 전문가가 만든 결과물을 비교했습니다.
기업들도 자체 벤치마크를 만들기 시작했습니다. 은행은 금융 관련 문서를 다루는 능력을, 병원은 의료 기록을 분석하는 능력을, 제조업체는 기술 문서를 이해하는 능력을 평가합니다.
일반 지식보다 분야별 전문성이 더 중요해진 거죠. 하지만 여기서도 같은 질문이 남습니다.
'우리가 측정하는 것이 정말 우리가 필요로 하는 것일까?'
이 질문은 HLE와 GDPval의 성과를 무시하는 것이 아닙니다. 다만 그 '초점'의 본질을 묻는 것입니다.
예를 들어, '인류의 마지막 시험(HLE)'은 가장 어려운 지식을 측정합니다. 하지만 조류학의 세세한 지식을 아는 것이 윤리적 딜레마 앞에서의 '지혜'나 복잡한 인간관계를 헤쳐나가는 '통찰'과 같은 의미일까요? HLE는 여전히 '정답이 있는' 세계관에 머물러 있습니다.
'GDPval' 역시 마찬가지입니다. 이 벤치마크는 변호사의 '유능함'을 측정할 수 있습니다. 하지만 법률 문서의 완벽함이 의뢰인의 절박함에 '공감'하는 능력이나, 법정에서의 '진실성'까지 보장할까요? 간호 계획 수립 능력(Performance)이 환자의 고통을 헤아리는 마음(Care)과 동일할 수는 없습니다.
결국 이 정교한 벤치마크들조차 '효율성'과 '정확성', 즉 '얼마나 잘하는가'는 측정할 수 있어도, '왜 그렇게 해야 하는가' 또는 '어떻게 함께해야 하는가'를 측정하지 못합니다.
인공지능은 명료함의 언어로 세계를 설명합니다.
벤치마크는 정답이 있는 질문, 옳고 그름이 분명한 문제, 숫자로 표현할 수 있는 성과를 측정합니다.
하지만 인간은 여전히 불명료함 속에서 의미를 감지하는 존재입니다.
우리는 흐릿한 얼굴 속에서도 감정을 읽습니다. 어색한 침묵 속에서도 진심을 느낍니다. 완벽하지 않은 설명 속에서도 이해가 일어납니다. 때로는 정확하지 않기 때문에 오히려 더 깊은 공감이 생기기도 합니다.
스탠퍼드 대학의 연구자들은 이렇게 말합니다.
"벤치마크는 단순히 더 어려워지는 것이 아니라, 우리가 AI와 어떻게 함께 살고 싶은지를 반영해야 한다."
정확성만이 아니라 공정함도 중요합니다. 효율성만이 아니라 안전함도 중요합니다. 그리고 무엇보다, 수치로 측정할 수 없는 것들 — 신뢰, 존중, 공감 — 이 중요합니다.
벤치마크는 계속 진화할 것입니다. 하지만 그 진화의 방향은 더 정밀한 측정이 아니라, 측정할 수 없는 것들에 대한 겸손한 인정일지도 모릅니다.
그리고 이 평가기준은 인공지능에게만이 아니라, 사람을 향해야 하는 가치이기도 합니다.
비오는 밤 거리를 걷다가 카메라를 들었습니다.
불빛이 물 웅덩이 위에 번져 있었습니다. 이번에도 자동 초점은 제멋대로 물 위의 반사를 선택하더군요.
이번엔 굳이 초점을 맞추지 않았습니다.
손끝의 감각으로 천천히 초점을 맞춰 봅니다.
정확하지 않아도 괜찮았습니다. 조금 흐릿하지만 제가 보고 있는 것이 분명히 있었습니다. 빛이 번지는 순간, 물 위로 스쳐가는 바람, 그 장면이 주는 분위기 같은 것.
셔터 소리가 작게 울렸습니다.
화면에는 아무것도 또렷하지 않았습니다. 하지만 무엇을 보고 있었는지는 분명했습니다.