가장 정확한 AI가 가장 많이 거짓말을 하는 이유는?

AI 벤치마크가 숨긴 불편한 진실: 정확도 높을수록 환각률도 높다

by ChartBoss 차트보스


image?url=https%3A%2F%2Fcdn.voronoiapp.com%2Fpublic%2Fimages%2Ffcbe343e-cd79-486b-a8ed-d5029b4bc96f.webp&w=3840&q=85 출처: Digital Information World


정확한 것과 정직한 것은 다르다

우리는 자연스럽게 '더 많이 맞히면 더 믿을 만하다'고 가정한다. 하지만 AI 세계에서는 이 상식이 통하지 않는다.


Artificial Analysis가 42개 분야, 6,000개 질문으로 구성된 벤치마크인 AA-Omniscience를 통해 40개 이상의 AI 모델을 테스트한 결과, 충격적인 패턴이 드러났다. 가장 많이 맞히는 AI가 가장 많이 거짓말도 한다는 것이다.


정확도 1위는 구글의 Gemini 3 Preview로 54%를 기록했다. 2위 Claude Opus 4.5는 43%, 3위 Grok 4는 40%다. 문제는 다음이다.


환각률이라는 불편한 진실

환각률(hallucination ate)은 모델이 '모른다'고 인정하지 않고 틀린 답을 자신 있게 내놓는 비율을 측정한다. 정확도 1위 Gemini 3 Preview의 환각률은 무려 88%다. Grok 4는 64%, GPT-5.1(High)은 51%를 기록했다.


반면 정확도에서는 중하위권인 Claude 4.5 Haiku가 환각률 26%로 전체 1위를 차지했다. Claude 4.5 Sonnet은 48%, Claude Opus 4.5는 58%로 Anthropic 모델들이 환각률 상위권을 싹쓸이했다.


이 데이터가 말해주는 건 명확하다. 구글과 xAI의 모델들은 '일단 답하고 보자'는 전략으로 훈련됐고, Anthropic의 Claude는 '모르면 모른다고 하자'는 전략으로 훈련됐다.


왜 이런 역설이 발생하는가?

대부분의 AI 벤치마크는 정답률만 측정한다. '모르겠다'고 답하면 점수가 깎인다. 결과적으로 AI 개발사들은 '추측이라도 해서 정답 맞히기'에 최적화된 모델을 만들어왔다.


Artificial Analysis의 Omniscience Index는 이 문제를 해결하기 위해 설계됐다. 정답은 +1점, 오답은 -1점, '모르겠다'는 0점이다. 이 기준으로 평가하면, 정확도 왕좌의 Gemini 3 Preview도 높은 환각률 때문에 점수가 크게 깎인다. 40개 모델 중 양수 점수를 받은 건 단 4개뿐이다.


유럽방송연합(European Broadcasting Union, EBU)의 최근 테스트에서도 AI 어시스턴트들이 뉴스 콘텐츠를 45%의 확률로 잘못 전달했다는 결과가 나왔다. 실험실 벤치마크가 아닌 실제 환경에서의 신뢰성 문제다.


환각률 하위권의 면면

가장 신뢰하기 어려운 모델들의 면면도 흥미롭다. DeepSeek V3.2 Ex는 81%, DeepSeek R1 0528은 83%의 환각률을 기록했다. Llama 4 Maverick은 87.58%, 여러 Gemini 변형 모델들도 87%를 넘겼다. GLM-4.6은 93.09%, gpt-oss-20B(High)는 93.20%를 기록했다. 10번 중 9번 이상 자신 있게 틀린 답을 내놓는다는 뜻이다.


무엇을 선택할 것인가?

이 데이터는 AI 선택의 기준을 다시 생각하게 한다. 정확도가 높은 모델을 원하는가, 아니면 모를 때 모른다고 말하는 모델을 원하는가?


법률, 의료, 금융 같은 분야에서는 자신 있는 오답이 치명적일 수 있다. Artificial Analysis 연구에서도 법률 분야 환각률(6.4%)이 일반 지식(0.8%)보다 8배 높았다. 전문 영역일수록 AI의 '자신감'이 더 위험해진다.


결국 가장 많이 아는 AI가 가장 좋은 AI가 아닐 수 있다. 용도에 따라 '겸손한 AI'가 더 나은 선택일 수 있다.


한줄평

모르면 모른다고 하는 게 그렇게 어려울까? AI도 역시 실리콘밸리 출신이다.





매거진의 이전글AI보다 언론을 믿는다고?