brunch

02. 환각[할루시네이션]

I. AI 글로벌 동향

by 정재헌

생성형AI의 가장 큰 단점은 환각이다.

환각[할루시네이션]은 AI 분야에서 거대언어모델(LLM)과 같은 생성형 AI가 사실이 아닌 다른 정보를 생성하거나, 학습한 데이터에 존재하지 않는 다른 내용을 제공하는 것을 의미한다.


지금 환각[할루시네이션]은 생성형AI 도입과 활용에 있어서 GPU 다음 장애요인으로 자리 잡고 있다. 생성형AI 활용을 통해 챗봇, 에이전트, 문서 자동화 작성, 검색기반 질의응답 등 다양한 기능을 활용하여 우리의 일반적인 문서 중심업무에 큰 도움을 받고 있다. 여러 통계를 살펴보면 평균적으로 2~30% 업무시간 단축과 생산성의 높은 효율성을 나타내고 있다. 그러나 개인적인 일에 활용되는 생성형AI와 달리 공적인 업무에 활용될 경우 즉 문서보고나 통계작업 또는 보고업무에 활용할 경우 자칫 틀린 정보가 들어갈 경우 개인적으로 또는 회사차원에서 큰 문제가 발생할 수 있다. 문서를 작성하는 입장에선 생성형AI의 도움을 받더라도 그 절감된 시간만큼 환각 정보가 들어가 있는지 확인하는 교정과 교열을 보는 시간을 더 소모할 수밖에 없다.


처음 생성형AI가 나왔을 때 모두들 시간이 지나면 환각을 없앨 수 있을지 알았는데 거대언어모델의 성능이 개선될수록 환각은 더 심해지고 있다.



2025.4.21 조선일보 기사에 따르면 오픈AI가 최근 공개한 추론형 인공지능(AI) 모델 챗GPT ‘o3’와 ‘o4-미니’가 이전 세대보다 성능이 향상됐지만, 환각(hallucination) 현상은 더 심해진 것으로 나타났다. 환각은 생성형 AI가 실제 존재하지 않는 정보나 맥락과 관련 없는 답변을 사실처럼 답하는 현상을 말한다.

20일 미국 IT 매체 테크크런치에 따르면 오픈AI는 자체 벤치마크 테스트인 퍼슨 QA에서 o3와 o4-미니 모델이 각각 33%와 48%의 환각 반응률을 보였다고 보도했다.

이전 추론 모델인 o1과 o3-미니 모델의 환각 반응률은 각각 16%와 14.8%인 것에 비하면 신작 모델들의 환각 반응이 거의 2배 이상 증가한 것이다. 또한 비추론 모델인 GPT-4o보다도 o3, o4-미니의 환각이 더 자주 발생한 것으로 드러났다.


앞서 오픈AI는 16일 “역대 가장 뛰어난 추론 모델이자 챗GPT의 마지막 독립형 AI 추론 모델이 될 것”이라고 홍보하며 o3·o4-미니 모델을 공개했다. 단순히 이미지를 인식하는 것을 넘어, 시각 정보 자체를 추론 과정에 활용할 수 있다는 설명이다. 두 모델은 수학·코딩·과학 분야 테스트에서 기존 모델 대비 우수한 성능을 냈다. 이미지와 텍스트를 함께 해석하는 대학 수준 문제에 o3는 82.9%, o4-미니는 81.6%의 정답률을 기록했다.

다만, 이 같은 기술적 성장에도 불구하고, 환각률은 오히려 이전보다 증가했다. 그간 새 모델이 출시될 때마다 환각 문제는 점진적으로 개선됐으나, 이번 결과는 이례적이라는 평가다. 비영리 AI 연구소 ‘트랜슬루스’는 o3가 답변 도출 과정에서 수행 작업을 조작한 경향이 있다는 증거도 있다고 지적했다. 사라 슈웨트만 트랜슬루스 공동 창립자는 테크크런치에 “o3는 환각률 때문에 다른 버전보다 유용성이 떨어질 수 있다”라고 봤다.

오픈AI 측은 o3와 o4-미니의 높은 환각률의 명확한 원인과 대책을 내놓지 못하고 있다. 오픈AI는 기술 보고서를 통해 “모델이 이전보다 더 많은 사용자 요청에 응답하게 되면서, 정확한 결과뿐 아니라 잘못된 결과를 내는 것도 함께 증가한 것으로 보인다”라고 했다. 이어 환각 증가의 정확한 원인을 규명하기 위해 “더 많은 연구가 필요하다”라고 밝혔다.[출처]



그러면 환각은 왜 발생하는 것일까?


OpenAI는 환각을 없애기 어려운 이유에 대해 다음과 같이 이야기한다.

언어 모델은 먼저 대량의 텍스트에서 다음 단어를 예측하는 과정인 사전 훈련을 통해 학습합니다. 기존의 머신 러닝 문제와 달리 각 진술은 '참/거짓'으로 나뉘지 않습니다. 모델은 유창한 언어의 긍정적인 예시만 보며 전체적인 분포의 근사치를 계산해야 합니다.


무효한 것으로 분류된 예시가 없는 상황에서 유효한 진술과 무효한 내용을 구분하는 일은 두 배로 어렵습니다. 하지만 분류된 예시가 있더라도 오류는 반드시 발생합니다. 그 이유를 확인하기 위해 더 간단한 비유를 들어보겠습니다. 이미지 인식에서 '고양이'와 '개'로 분류된 수백만 장의 고양이와 개 사진이 있는 경우, 알고리즘은 이를 안정적으로 분류하는 방식을 학습합니다. 그런데 사진이 '고양이'와 '개'가 아닌 해당 동물이 태어난 날짜로 분류되어 있다고 가정해 봅시다. 생일은 임의적이므로 이 작업은 알고리즘의 수준이 아무리 높아도 오류가 생길 수밖에 없습니다.


이와 동일한 원칙이 사전 훈련에도 적용됩니다. 철자나 괄호는 일관적인 패턴이 있으므로, 이와 관련된 오류는 발생할 가능성이 거의 없습니다. 하지만 동물이 태어난 날짜처럼 임의적이고 빈도가 낮은 요인은 패턴만으로 예측할 수 없으며, 따라서 환각으로 이어집니다. OpenAI의 분석은 다음 단어 예측에서 어떤 종류의 환각이 일어날 수 있는지 보여줍니다. 이상적으로는 사전 훈련 이후의 단계에서 이러한 환각이 없어야 하지만, 이전 섹션에서 설명한 이유로 인해 완벽하게 사라질 수는 없습니다. [출처]



결국 환각은 그 비율을 줄일 수는 있지만 근본적으로 환각을 100% 없애는 것은 아직까지는 불가능하다고 보인다. 아무리 방대한 데이터로 학습을 하였더라도 사용자의 모든 질문 중 본질적으로 답변 불가능한 내용이 있을 수밖에 없다.

또는 우리의 업무에서 활용하는 생성형AI 경우 만약 A라는 부서에서 어떤 질문을 던질 경우 그 질문 안에 B부서의 내용이 들어가는 경우도 있을 수 있다.

또는 최신 데이터가 아닌 과거의 데이터 등 문서의 최신성에 문제가 있는 경우도 있다.

지금에 있어서 환각은 생성형AI의 문제도 있지만 서비스를 활용하는 외적인 영향도 무시할 수 없다.


그러나 만약 DBMS 안에 있는 데이터를 활용하여 Query로 질문하는 경우도 환각이 생길까?

keyword
매거진의 이전글01. OpenAI의 AGI 5 Step