AI 벤치마크가 숨긴 불편한 진실: 정확도 높을수록 환각률도 높다
우리는 자연스럽게 '더 많이 맞히면 더 믿을 만하다'고 가정한다. 하지만 AI 세계에서는 이 상식이 통하지 않는다.
Artificial Analysis가 42개 분야, 6,000개 질문으로 구성된 벤치마크인 AA-Omniscience를 통해 40개 이상의 AI 모델을 테스트한 결과, 충격적인 패턴이 드러났다. 가장 많이 맞히는 AI가 가장 많이 거짓말도 한다는 것이다.
정확도 1위는 구글의 Gemini 3 Preview로 54%를 기록했다. 2위 Claude Opus 4.5는 43%, 3위 Grok 4는 40%다. 문제는 다음이다.
환각률(hallucination ate)은 모델이 '모른다'고 인정하지 않고 틀린 답을 자신 있게 내놓는 비율을 측정한다. 정확도 1위 Gemini 3 Preview의 환각률은 무려 88%다. Grok 4는 64%, GPT-5.1(High)은 51%를 기록했다.
반면 정확도에서는 중하위권인 Claude 4.5 Haiku가 환각률 26%로 전체 1위를 차지했다. Claude 4.5 Sonnet은 48%, Claude Opus 4.5는 58%로 Anthropic 모델들이 환각률 상위권을 싹쓸이했다.
이 데이터가 말해주는 건 명확하다. 구글과 xAI의 모델들은 '일단 답하고 보자'는 전략으로 훈련됐고, Anthropic의 Claude는 '모르면 모른다고 하자'는 전략으로 훈련됐다.
대부분의 AI 벤치마크는 정답률만 측정한다. '모르겠다'고 답하면 점수가 깎인다. 결과적으로 AI 개발사들은 '추측이라도 해서 정답 맞히기'에 최적화된 모델을 만들어왔다.
Artificial Analysis의 Omniscience Index는 이 문제를 해결하기 위해 설계됐다. 정답은 +1점, 오답은 -1점, '모르겠다'는 0점이다. 이 기준으로 평가하면, 정확도 왕좌의 Gemini 3 Preview도 높은 환각률 때문에 점수가 크게 깎인다. 40개 모델 중 양수 점수를 받은 건 단 4개뿐이다.
유럽방송연합(European Broadcasting Union, EBU)의 최근 테스트에서도 AI 어시스턴트들이 뉴스 콘텐츠를 45%의 확률로 잘못 전달했다는 결과가 나왔다. 실험실 벤치마크가 아닌 실제 환경에서의 신뢰성 문제다.
가장 신뢰하기 어려운 모델들의 면면도 흥미롭다. DeepSeek V3.2 Ex는 81%, DeepSeek R1 0528은 83%의 환각률을 기록했다. Llama 4 Maverick은 87.58%, 여러 Gemini 변형 모델들도 87%를 넘겼다. GLM-4.6은 93.09%, gpt-oss-20B(High)는 93.20%를 기록했다. 10번 중 9번 이상 자신 있게 틀린 답을 내놓는다는 뜻이다.
이 데이터는 AI 선택의 기준을 다시 생각하게 한다. 정확도가 높은 모델을 원하는가, 아니면 모를 때 모른다고 말하는 모델을 원하는가?
법률, 의료, 금융 같은 분야에서는 자신 있는 오답이 치명적일 수 있다. Artificial Analysis 연구에서도 법률 분야 환각률(6.4%)이 일반 지식(0.8%)보다 8배 높았다. 전문 영역일수록 AI의 '자신감'이 더 위험해진다.
결국 가장 많이 아는 AI가 가장 좋은 AI가 아닐 수 있다. 용도에 따라 '겸손한 AI'가 더 나은 선택일 수 있다.
모르면 모른다고 하는 게 그렇게 어려울까? AI도 역시 실리콘밸리 출신이다.