brunch

AI가 왜 자꾸 그럴듯한 거짓말을 할까?

논문으로 풀어본 환각의 비밀

by 미미니

오늘은 2025년 9월 4일 발표된 따끈한 OpenAI의 논문 “Why Language Models Hallucinate​”를 소개하려고 합니다. 이 논문은 AI가 왜 그럴듯한 잘못된 정보, 즉 환각(hallucination)을 만들어내는지 통계적으로 파헤치고, 이를 줄이는 방법을 제안합니다. AI가 왜 틀린 내용을 자신 있게 말하는지 궁금하셨다면, 이 논문이 그 이유를 명쾌하게 설명해줍니다.


환각이란 대체 뭘까?


AI가 “모르겠어요” 대신 확신에 차서 잘못된 정보를 내놓는 경우를 환각이라고 불러요. 예를 들어, 특정 인물의 생일을 물으면 “3월 7일”이라고 대답하는데, 실제로는 가을일 수 있죠. 이런 환각은 AI의 신뢰성을 떨어뜨립니다. 특히 의료나 법률 같은 중요한 분야에서는 큰 문제가 될 수 있죠. 이 논문은 환각을 단순한 버그가 아니라 훈련과 평가 과정에서 필연적으로 생기는 오류로 보고, 그 원인을 깊이 파헤칩니다.


정확성을 쫓다 보면 신뢰성이 떨어질 수 있다


AI는 정확한 답변을 내놓으려 노력하지만, 이 과정에서 환각이 더 자주 나타날 수 있습니다. 논문은 현재 평가 방식이 정확도(맞는 답변의 비율)에만 초점을 맞춘다고 지적해요. 예를 들어, 많은 벤치마크는 맞는 답에 1점을 주고, 틀린 답이나 “모르겠어요”에 0점을 줍니다. 이 때문에 AI는 불확실한 상황에서도 추측을 내놓고, 그 결과 그럴듯한 오류가 늘어납니다. 정확성을 높이는 게 목표지만, 신뢰성 있는 답변은 오히려 줄어들 수 있다는 거죠.


오류보다 기권이 낫다


“모르겠어요(IDK)” 같은 기권 응답은 잘못된 답변보다 덜 해롭습니다. 하지만 현재 평가 방식은 기권을 0점으로 처리해 AI가 솔직하게 불확실성을 표현하기보다 추측을 선택하게 만듭니다. 논문은 오류에 더 큰 페널티를 주고, 기권을 긍정적으로 평가하는 방식을 제안해요. 예를 들어, 오류를 음수 점수로 매기면 AI가 불확실할 때 “IDK”를 말할 가능성이 높아집니다. 이렇게 하면 AI가 더 신뢰할 수 있는 답변을 내놓을 수 있죠.


프리트레이닝 단계에서의 환각 원인


환각은 무작위 결함이 아니라, 모델이 훈련되는 방식에서 직접 비롯됩니다. 프리트레이닝 단계에서 AI는 대량의 텍스트 데이터를 학습하며 언어 패턴을 익힙니다. 논문은 환각을 이진 분류 문제(출력이 유효한지 판단)로 분석하며, 생성 오류가 분류 오류의 약 2배 이상이라고 증명합니다. 즉, 인간의 지각과 유사한 현상이 아니라, 잘못된 이진 분류 오류가 반복된 것의 결과인거죠. 환각이 생기는 주요 원인은 다음과 같아요:

데이터에 패턴이 없는 경우: 생일처럼 훈련 데이터에 한 번만 등장하는 정보는 학습하기 어렵습니다.

모델의 한계: 글자 세기나 문법 같은 단순 작업에서도 약한 모델은 오류를 냅니다.

기타 요인: 계산 복잡도, 데이터 분포 변화, 훈련 데이터의 오류(GIGO: Garbage In, Garbage Out).

이런 이유로 AI는 불확실한 상황에서도 데이터 분포를 맞추려 추측을 내놓고, 결과적으로 환각이 생깁니다.


포스트-트레이닝 단계에서의 환각 지속


포스트-트레이닝은 인간 피드백으로 모델을 다듬는 단계지만, 환각이 줄지 않는 이유는 평가 방식에 있습니다. 현재 벤치마크(MMLU, GPQA 등)는 불확실성을 벌점으로 삼아 AI가 추측을 선호하게 만듭니다. 논문은 평가 방식을 바꾸라고 제안해요. 예를 들어, “90% 이상 확신할 때만 답하고, 틀리면 9점 페널티” 같은 확신 임계값을 명시하면 AI가 오류 대신 “IDK”를 선택할 가능성이 높아집니다. 이는 단순한 기술적 해결책이 아니라, AI 커뮤니티가 기존 리더보드를 수정하도록 합의해야 하는 문제입니다. 이렇게 하면 AI가 더 겸손하고 신뢰할 수 있게 될 거예요.


이 논문의 매력과 한계


이 논문은 환각을 통계적 오류로 분석하고, 평가 방식의 문제를 명확히 짚으며 실용적인 해결책을 제시합니다. 특히, 평가 방식을 바꾸면 AI가 더 솔직해질 수 있다는 점이 흥미롭죠. 하지만 주로 그럴듯한 텍스트에 초점을 맞췄고, 오픈-엔드 생성의 모든 환각 유형을 다루지는 않습니다.


마무리:훈련과 평가방식의 개선


이 논문에 따르면, 환각은 단순한 버그라기보다, 훈련 및 평가 시스템의 설계 선택 이 만든 결과입니다. 연구로, AI의 환각 문제를 깊이 이해하고, 더 신뢰할 수 있는 AI를 만들기 위한 실마리를 제공합니다. 평가를 개선하면 AI가 더 겸손해질 수 있다는 점이 핵심이에요. 이 문제를 해결하기 위해선 모델 자체뿐 아니라 그를 둘러싼 환경을 함께 바꿔야 합니다. AI 연구자나 개발자라면 꼭 읽어볼 만한 논문입니다. 여러분의 생각은 어떠신가요?

keyword
매거진의 이전글Memento: AI가 잊지 않고 배우는 마법의 기억