벤치마크의 포화, 굿하트의 법칙과 진짜 '지능'을 측정하기 위한 방향
* 이 글은 AI 전문 뉴스레터 '튜링 포스트 코리아'에 게재한 글의 일부입니다. AI 기술, 스타트업, 산업과 사회에 대한 이야기에 관심이 있으시면 '튜링 포스트 코리아' 구독해 주세요.
소위, 점점 더 ‘똑똑한’ AI를 개발하려는 경쟁은 점점 치열해지고 있죠. 지난 2월 27일 오픈AI는 기다리던 최신 모델, ‘GPT-4.5’를 발표했구요, 바로 며칠 전, 앤쓰로픽은 최초의 하이브리드 추론 모델 ‘Claude 3.7 Sonnet’을 발표했습니다.
GPT-4.5는 특히 ‘감성 지능’을 향상시키면서 글쓰기, 프로그래밍 등 영역에서 쓸모가 높아진 걸로 보이고, 대화의 흐름이 이전보다 자연스러워졌습니다. ‘환각’ 현상도 GPT-4o 대비 크게 감소했다고 하구요.
Claude 3.7 Sonnet은 ‘시스템 1 사고’ - 즉각적으로 응답을 생성하는 것, 그리고 ‘시스템 2 사고’ - 깊은 추론 과정을 하나의 모델에 통합한 것이 특징으로, 코딩 분야에 강점이 있을 뿐 아니라 Extended Thinking Mode를 활성화하면 다른 최신 모델과 비슷한 수준의 벤치마크 점수가 나온다고 합니다.
뭐, 어떤 모델이 나왔다는 말씀을 드리려는 건 아닙니다. 오히려, ‘더 똑똑한 AI’를 개발하려는 경쟁이 낳고 있는 ‘역설 (Paradox)’에 대한 이야기를 하려고 합니다 - 바로, ‘발전의 정도’를 측정하는데 사용하는 ‘벤치마크’에 대한 이야기입니다.
각종 벤치마크들이 빠르게 포화되면서, ‘추론’ 능력을 검증하기 위한 새로운 벤치마크들이 등장하고 있습니다.
이 벤치마크는, 모델이 발전하는 속도, 바로 그만큼 빠르게 쓸모가 없어지고 있습니다.
예를 들어볼까요? 불과 몇 년 전만해도, BIG-Bench Hard (BBH) 데이터셋은 거대 언어모델의 추론 능력을 평가하는 아주 훌륭한 기준이었는데, 오늘날 현재, 사실상 쓸모가 없어져 버렸습니다. GPT-4o, Gemini, DeepSeek 같은 최신 모델들은 이 테스트를 거의 완벽하게 통과하고 있고, 한 때 무서운 호랑이 같았던 선생님(?)을 형식적, 요식적 절차에 지나지 않는, 종이 호랑이로 만들어 버렸죠. 그래서 연구자들이 AI 추론 능력을 극한까지 시험하기 위해서 설계한 ‘BIG-Bench Extra Hard (BBEH)’라는 새로운 벤치마크를 도입했죠.
그렇지만, 과거의 사례를 볼 때, BBEH 역시 우리가 예상하는 것보다 빨리 ‘해결’될 겁니다. 그럼, 그 다음은 뭘까요?
이런 ‘벤치마크 포화 주기’ - 정확히는 ‘점점 빨라지는 포화 주기’겠죠 - 가 AI의 평가에 관련한 가장 큰 장애물 중 하나라고 할 수 있습니다. 연구자들이 새로운 테스트를 고안할 때마다 모델들은 마치 이런 연구자들의 노력을 ‘비웃듯이 (^.^;)’ 빠르게 적응하는데요. 문제는! 이 과정이, 가끔은 진짜 ‘추론’을 하는 것과는 거의 관련이 없는 방법으로 이루어지기도 한다는 점입니다. 많은 AI 기업과 스타트업들이, 리더보드와 랭킹에서 상위를 차지하기 위해서 모델을 최적화하기도 하고, 진짜 제대로 된 ‘인지’ 능력을 높이기보다 벤치마크 형식에 맞게 응답을 파인튜닝하기도 합니다.
굿하트의 법칙 (Goodhart’s Law)이라는게 있습니다. 1975년 영국 경제학자 찰스 굿하트가 통화 정책의 분석 과정에서 처음 이야기한 개념인데요, “측정치가 목표가 되면, 이미 올바른 측정은 불가능해진다”는 거예요. 나중에 인류학자인 마릴린 스트래선이 이걸 “척도가 목표가 되는 순간, 더 이상 좋은 척도가 아니다”라고 변형하면서 다양한 분야에 쓰이게 되었는데요. 위에서 이야기한 ‘AI 모델의 성능 개선 방법’ 이슈도 굿하트의 법칙이 적용된 전형적인 사례라고 할 수 있습니다 - 측정 지표가 목표가 되면, 그건 더 이상 좋은 측정 지표가 아니게 되는 겁니다.
‘벤치마크의 포화’ 문제 뿐이 아닙니다 - 더 큰 문제가 있어요. 우리는 ‘잘못된 것들을 측정’하고 있습니다.
대부분의 추론 벤치마크는, 명확한 정답과 오답이 있기 때문에 ‘수학’이라든가 ‘코딩’ 과제를 상대적으로 많이 선호하게 됩니다. 하지만 대수 (Algebra) 문제를 풀 수 있다고 해서 AI가 실제 세상의 모호한 상황을 헤쳐나가거나, 인과 관계를 추론하거나, 사람이 가진 동기를 이해할 수 있다는 의미는 아니죠. 완벽한 Python 스크립트를 작성할 수 있는 모델이라도, 미묘한 윤리적 딜레마에 답을 하거나 대화 중의 비꼬는 말을 해석하는데는 여전히 택도 없이 실패할 수가 있어요. 이걸 모르는게 아니지만, 수학, 프로그래밍은 점수를 매기기 쉽기 때문에 계속해서 ‘AI 모델에 대한 평가’ 영역을 지배하면서, 우리들에게 ‘발전 상황에 대한 왜곡된 인식’을 심어줍니다.
더 광범위한 추론 능력을 다뤄 보려고 하는 벤치마크를 사용할 때마저도, 또 다른 문제에 직면하게 돼요: 모델들이, 문제를 진짜 ‘추론’하는 대신, ‘피상적인 지름길’을 택할 수도 있습니다. AI는 아시다시피 ‘패턴 인식’을 잘 하잖아요? 그래서 사람처럼 ‘과제를 해결’하는 대신, 데이터셋으로부터 통계적인 단서를 식별하곤 합니다. 예를 들어볼께요. 벤치마크가 항상 논리적 추론 문제를 비슷한 형식으로 제시하게 되면, 모델이 실제로 추론을 수행하는 대신, 패턴을 암기할 수 있습니다. 이런 ‘능력에 대한 환상 (Illusion of Competence)’이, 우리가 아는 최고의 모델이 낯선 실제 세상의 도전 과제에 직면했을 때 여지없이 실수하게 되는 이유 중에 하나입니다.
위에서 이야기한, ‘벤치마크의 한계’, ‘평가 방법의 문제’는 연구실에만 머무르지 않고 현실 세계로 확장될 수 밖에 없습니다. AI 모델은 이미 의료, 법률 분석, 고객 서비스 등 ‘추론 능력이 중요한 핵심적인 어플리케이션’들에 통합되고 있습니다. 만약, 우리가 사용하는 벤치마크가 실제 세상에서 요구하는 ‘추론 능력’에 대한 요구를 제대로 반영하지 못하는 거라면, ‘겉으로는 아주 유능해 보이지만 예측할 수도 없고 실제로는 비용이 많이드는 방식으로 실패하는’ 모델을 배포하게 될 위험이 있겠죠. 더 나아가서, 기업의 리더나 정책 입안자들이, 오해의 소지가 있는 벤치마크 점수를 기반으로 해서 AI가 가진 인지 능력을 과대 평가한다면, 자동화된 의사 결정에 지나친 믿음과 권위를 줄 수도 있겠구요.
그렇다면, 어떻게 더 나은 벤치마크를 구축할 수 있을까요? 그 답은 아마도 다양성 (Diversity), 적응성 (Adaptability), 그리고 실제 세계를 모사하는 테스트 (Real-World Test), 이 세 가지 키워드에 있지 않을까요? 빠르게 쓸모없어지는 고정된 데이터셋에 의존하지 말고, 앞으로 AI 모델을 평가할 때는 ‘새롭고 보지 못한 문제들이 지속적으로 모델의 능력에 도전하는’, 다이나믹하면서 적대적인 (Adversarial) 테스트를 포함해야 한다고 생각합니다. 그리고, 수학, 코딩을 넘어서 상식적 추론, 인과적 추론, 윤리적 의사 결정도 포함하게끔 확장되어야 하구요. 마지막으로, 벤치마크 점수가 아니라 ‘실제 세계에서의 성능’이 궁극적인 지표가 되어야 할 겁니다 - AI가 의사 선생님을 얼마나 잘 지원하는지, 자율 에이전트 시스템을 얼마나 잘 가이드하는지, 복잡한 사회적인 상호작용을 잘 해내는지 말입니다.
BBEH는, 분명 ‘올바른 방향으로 나아가는 한 걸음’입니다. 그렇지만 앞으로 우리가 만들어가야 할 아주 긴 이야기의 새로운 챕터일 뿐이라는 겁니다. 중요한 건, ‘벤치마크를 더 어렵게’ 만드는게 아니라, ‘모델이 정말로 똑똑하게’ 만드는 거니까요. AI가 진짜 ‘추론’을 하는지 테스트하는 방법, 제로 베이스에서 다시 재고해 봐야 합니다. 그렇지 않으면, ‘시험치는 능력’을 ‘지능’이라고 오해하는 기간이 늘어날 뿐입니다 - 이건 아주 빠지기 쉬울 뿐 아니라 위험한 환상이구요.