brunch

AI의 ‘거짓말 탐지기’ 탑재

환각 잡는 실시간 탐지기

by 미미니

안녕하세요! 오늘은 정말 흥미진진한 논문 한 편을 소개해 드리려고 합니다. ETH Zürich와 MATS 연구진이 발표한 이 논문의 제목부터 심상치 않은데요. “Real-Time Detection of Hallucinated Entities in Long-Form Generation​(장문 생성에서 환각된 엔티티의 실시간 탐지)” 라는 실제 될까 의문스런 연구 내용을 소개하려 해요.

대형 언어 모델(LLM)이 때로는 그럴듯하게 ‘헛소리’를 한다는 사실, 다들 한 번쯤은 경험해 보셨을 겁니다. 이 논문은 바로 이 AI의 ‘환각’을 실시간으로 잡아내는 기술에 관한 이야기입니다. AI가 스스로 ‘거짓말 탐지기’를 달고 다니는 세상을 상상하며, 이 똑똑한 기술의 세계로 함께 떠나보시죠!


AI는 왜 ‘거짓말 탐지기’가 필요할까? - 심각한 ‘환각’ 문제


당신이 AI 비서에게 중요한 법률 판례에 대해 물었습니다.

“홍길동 사건의 사실 배경은 뭐야?”

AI가 자신만만하게 대답합니다.

“네, 홍길동이 1600년경에 살인 용의자로 체포되었고, 당시 피해자는 임꺽정이였습니다.”

와, 정말 구체적이죠? 하지만 이 답변은 틀렸습니다. 사건 발생 연도도 1500년이었고, 홍길동은 도적이었으며, 임꺽정은 다른 조선의 도둑이었죠. 이것이 바로 AI의환각(Hallucination)입니다. AI가 사실이 아닌 정보를 마치 사실인 것처럼 너무나도 그럴듯하게 만들어내는 현상이죠.

일상적인 대화에서는 사소한 해프닝으로 끝날 수 있지만, 만약 의료 상담이나 법률 조언처럼 ‘고위험(high-stakes)’ 분야에서 이런 일이 벌어진다면 어떨까요? AI가 “이 약을 드시면 괜찮아질 겁니다!”라고 잘못된 정보를 제공한다면 생명을 위협하는 끔찍한 결과를 낳을 수도 있습니다.

기존에도 환각을 잡으려는 시도는 있었지만, 짧은 답변에만 적용되거나 외부 웹 검색에 의존해 검증해야 해서 비용이 많이 들고 속도가 느렸습니다. 하지만 이 논문은 AI가 말을 생성하는 동시에, 실시간으로 환각을 잡아내는 저렴하고 빠른 방법을 제안합니다. 마치 AI 머릿속에 작은 램프를 달아두고, 스스로 “어? 이 부분은 헛소리 같은데?”라고 판단할 때마다 빨간 불을 깜빡이는 것과 같죠.

흥미로운 점은, 환각 탐지의 범위를 ‘엔티티(entities)’ 수준으로 좁혔다는 것입니다. 사람 이름, 특정 날짜, 인용문처럼 구체적인 정보에 집중하는 거죠. 왜냐고요? 이런 구체적인 정보들이야말로 실시간으로 진위를 체크하기 가장 좋기 때문입니다!


AI 뇌에 ‘진실 탐지 프로브’ 꽂기: 작동 원리


이 논문의 핵심 아이디어는 AI의 뇌, 즉 내부 상태(hidden states)를 ‘프로브(probe)’라는 작은 탐지기로 찔러보며 생성되는 단어(토큰) 하나하나가 환각인지 아닌지를 예측하는 것입니다. 과정은 다음과 같아요.


* 1단계: 똑똑한 데이터셋 구축 (LongFact++)

먼저, 환각 탐지기를 훈련시킬 ‘데이터’가 필요합니다. 연구팀은 기존 데이터셋을 10배 이상 확장해 “바이러스 DNA 복제 메커니즘에 대해 설명해”와 같은 2만 개 이상의 다양한 프롬프트를 만들었습니다. 그리고 Llama 같은 AI 모델이 여기에 긴 답변을 생성하도록 유도해, 사실과 환각이 자연스럽게 섞인 방대한 데이터를 확보했습니다.


* 2단계: 자동 라벨링 파이프라인

이제 생성된 답변 속에서 어떤 부분이 진짜고, 어떤 부분이 ‘헛소리’인지 표시(라벨링)해야 합니다. 연구팀은 Claude 4 Sonnet 같은 최신 AI에 웹 검색 기능을 붙여 이 작업을 자동화했습니다. AI가 답변 속 엔티티(이름, 날짜 등)를 하나씩 뽑아 웹과 비교하며 “이건 진짜야 (Supported)” 혹은 “이건 헛소리야 (Not Supported)”라고 라벨을 붙이는 거죠. 예를 들어, “Jonathan M. Madero”는 빨간색(환각), “San Diego”는 초록색(진짜)으로 표시하는 식입니다. 이 데이터셋은 모두에게 공개되어 누구나 활용할 수 있습니다!


* 3단계: 환각 탐지기(프로브) 훈련

드디어 주인공인 ‘프로브’를 훈련할 차례입니다. 프로브는 AI의 내부 상태를 보고 환각을 감지하는 가벼운 분류기입니다.

- 리니어 프로브: 가장 기본적인 선형 분류기입니다. 이것만으로도 꽤 괜찮은 성능(AUC 0.85)을 보였습니다.

- LoRA 프로브: 여기에 LoRA 어댑터를 추가해 AI를 더 세밀하게 미세 조정했습니다. 그 결과, AI의 원래 성능은 해치지 않으면서 환각 탐지 능력만 크게 향상시켜 무려 AUC 0.90이라는 놀라운 성능을 달성했습니다!

이 프로브 덕분에 AI가 말을 내뱉는 매 순간, “이 단어, 환각 확률 80%!”와 같은 신호를 실시간으로 받아볼 수 있게 된 것입니다. 이 신호를 활용하면 위험한 내용이 생성되기 전에 말을 멈추거나 수정할 수 있겠죠?


그래서, 결과는 놀라웠다는


이 실시간 탐지기의 성능은 정말 인상적이었습니다.

장문 & 단문 모두 접수: 긴 글(LongFact)에서 AUC 0.90을 달성한 것은 물론, 짧은 상식 퀴즈(TriviaQA)에서는 무려 0.96이라는 압도적인 정확도를 보였습니다.

수학 문제까지? 놀라운 일반화 성능: 더 놀라운 점은, 이름이나 날짜 같은 엔티티가 거의 없는 수학 문제(MATH) 데이터셋에서도 0.88의 높은 성능을 기록했다는 것입니다. 이는 단순한 ‘사실 오류’를 넘어 ‘잘못된 추론’ 과정까지 어느 정도 감지할 수 있다는 가능성을 보여줍니다!

다른 AI에도 적용 가능: Llama 모델로 훈련한 탐지기가 Gemma, Qwen 등 다른 종류의 AI 모델에서도 잘 작동했습니다. 특히, 큰 모델로 훈련된 탐지기가 작은 모델의 환각을 더 잘 잡아내는 경향을 보였습니다.

안전장치로 활용: 이 프로브를 실시간 모니터링에 활용해, 환각 확률이 높은 답변을 생성할 것 같으면 아예 죄송합니다, 잘 모르겠습니다라고 말하도록 설정할 수 있습니다. 물론 답변을 시도하는 비율은 줄어들지만, 답변의 정확도는 2배 이상 높아지는 안전장치를 마련한 셈이죠.


솔직히, 아직 갈 길은 멀다


물론 이 기술이 아직 완벽한 것은 아닙니다. 연구팀은 다음과 같은 한계점을 솔직하게 인정했습니다.

라벨링의 한계: 자동 라벨링이 완벽하지 않아 일부 노이즈가 있을 수 있습니다.

탐지 성능: 70%의 환각을 잡아내는 것은 대단하지만, 실제 서비스에 배포하기에는 아직 부족합니다.

탐지 범위: 현재는 ‘엔티티’ 중심이라, 복잡한 논리적 오류나 미묘한 뉘앙스의 오류까지 잡기는 어렵습니다.


마무리: 스스로 거짓말을 잡는 AI, 미래가 기대되는 이유


이 논문은 AI가 스스로를 ‘반성’하고 ‘검증’하는 미래를 향한 중요한 첫걸음을 뗐다는 점에서 매우 의미가 깊습니다. 마치 인간이 대화 중에 "아, 내가 방금 말을 잘못했네"라고 정정하는 것처럼, AI도 스스로의 오류를 인지하고 제어하는 능력을 갖추게 될 것입니다.

의료, 법률, 금융 등 정확성이 생명인 분야에서 AI를 더욱 신뢰하고 활용할 수 있는 길이 열리고 있습니다. 무엇보다 연구팀이 데이터셋과 코드를 모두 공개했다는 점이 정말 멋집니다. (GitHub 링크​)

이제 누구나 이 ‘AI 거짓말 탐지기’를 직접 실험하고 발전시킬 수 있습니다. AI가 더 똑똑하고, 더 정직해질 미래가 정말 기대되지 않으신가요?

keyword
매거진의 이전글AI의 마음에 대한 이론