할루시네이션 ㅡ 확신이 강할수록 위험하다

by 박현아

회의실에서 누군가가 자신 있게 말한다. "그 연구 있잖아요, 하버드에서 나온 건데, 성공한 사람의 80%가 아침 5시에 일어난다는 거." 고개가 끄덕여진다. 그럴듯하다. 하버드. 80%. 아침 5시. 구체적인 숫자, 권위 있는 출처, 직관에 부합하는 결론.


그런 연구는 없다.


정확히 말하면, 확인할 수 없다. 누군가 어디선가 비슷한 말을 했을 수도 있지만, 그 사람이 인용한 것도 원본이 아닐 가능성이 높다. 숫자는 전달될수록 깎이거나 부풀고, 출처는 점점 유명해지며, 결론은 듣고 싶은 방향으로 다듬어진다.


문제는 말한 사람이 거짓말을 한 게 아니라는 거다. 그는 진심으로 그 연구가 있다고 믿었다. 확신에 차 있었다. 그래서 더 위험했다.




AI에는 할루시네이션(Hallucination)이라는 현상이 있다.


대형 언어 모델에게 질문을 하면, 모델은 답을 생성한다. 문법적으로 완벽하고, 논리 구조가 그럴듯하며, 자신감 넘치는 어조로 대답한다. 그런데 내용이 틀리다. 존재하지 않는 논문을 인용하고, 일어나지 않은 사건을 묘사하고, 실재하지 않는 통계를 제시한다.


AI가 거짓말을 하는 것일까? 아니다. 거짓말은 진실을 알면서 숨기는 행위다. 할루시네이션은 다르다. 모델은 '다음에 올 가장 그럴듯한 단어'를 생성할 뿐이다. 참과 거짓을 구분하는 회로가 없다. "하버드에서 나온 연구에 따르면"이라는 문장 뒤에 올 확률이 높은 단어를 이어붙인 것이지, 실제로 하버드 도서관을 뒤진 게 아니다.


핵심은 이거다. 출력의 자신감과 내용의 정확도는 별개다.


사람도 할루시네이션을 한다. 매일.


기억을 떠올릴 때, 우리는 저장된 파일을 재생하는 게 아니다. 조각난 정보를 실시간으로 재구성한다. 그 과정에서 빈 곳을 메운다. 일어났을 법한 일, 감정적으로 연결되는 디테일, 누군가에게 들은 이야기가 자기 경험으로 바뀐다. 심리학에서는 이걸 '허위 기억(False Memory)'이라고 부른다.


엘리자베스 로프터스의 실험이 유명하다. 피험자에게 어린 시절 쇼핑몰에서 길을 잃었던 경험을 가족이 증언했다고 알려주면, 실제로 그런 일이 없었는데도 25%가 그 기억을 "떠올린다." 세부 묘사까지 추가한다. 무서웠다고. 파란 셔츠를 입은 아저씨가 도와줬다고.


그들은 거짓말을 한 게 아니다. 진심으로 기억한다고 믿었다.




할루시네이션이 위험한 이유는 틀려서가 아니다. 틀린 것은 고칠 수 있다. 위험한 이유는 확신이 동반되기 때문이다.


"잘 모르겠는데…"라고 시작하는 말은 검증의 여지를 남긴다. 듣는 사람도 확인해봐야겠다고 생각한다. 하지만 "확실한 건데"라고 시작하는 말은 검증 회로를 차단한다. 상대방의 자신감이 나의 의심을 무력화시킨다.


회사에서, 뉴스에서, 인간관계에서 — 자신감 있는 목소리가 정확한 목소리를 이긴다. 확신의 크기와 근거의 크기 사이에 상관관계는 없는데, 우리 뇌는 자꾸 둘을 연결한다.


AI 연구자들은 이 문제를 '보정(Calibration)'이라고 부른다. 모델이 "90% 확실하다"고 말했을 때, 실제로 90%의 확률로 맞아야 보정이 잘 된 거다. 보정이 안 된 모델은 틀릴 때도 "99% 확실하다"고 말한다.


자기 자신에게 물어보자. 나의 확신은 보정되어 있는가?




흔한 인간 할루시네이션 목록.


"나는 사람 보는 눈이 있어." — 면접관의 직감이 구조화된 평가보다 정확하다는 증거는 없다.


"그때 그 선택이 틀렸어." — 결과를 안 뒤에 과거를 재구성하는 후견 편향. 그때는 그때의 정보로 판단했다.


"다 알아, 나만 모르는 것 같아." — 남들도 모른다. 아는 척이 전염될 뿐이다.


"이번엔 다를 거야." — 구조가 바뀌지 않으면 결과는 반복된다. 그런데 왜 매번 이 문장을 확신하는가?


이것들은 불량 정보가 아니다. 자기 경험에서 추출한, 가장 그럴듯한 다음 단어들이다. AI의 할루시네이션과 구조가 같다. 패턴 매칭은 빠르지만, 패턴이 현실과 일치하는지 확인하는 단계가 빠져 있다.


AI 엔지니어들이 할루시네이션을 줄이기 위해 쓰는 방법이 있다. RAG(Retrieval-Augmented Generation) — 답을 생성하기 전에 먼저 검색한다. 실제 문서, 실제 데이터를 가져온 뒤에야 문장을 만든다. 또 다른 방법은 출처 명시 — "이 정보는 여기서 왔다"를 함께 출력하게 만든다.


사람에게도 같은 방법이 작동한다.


확신이 들 때, 한 박자 멈추고 묻는다. "이거 어디서 봤지?" 출처가 떠오르지 않으면 할루시네이션일 확률이 높다. "다들 그렇게 말하던데"는 출처가 아니다. "예전에 어디서 읽은 것 같은데"도 아니다.


확신의 세기가 아니라 근거의 추적 가능성. 그게 기준이다.




가장 어려운 할루시네이션은 자기 자신에 대한 것이다.


"나는 이런 사람이야"라는 문장. 이것도 생성된 것이다. 과거의 기억 조각들, 남들의 평가, 반복된 행동 패턴에서 추출한 '가장 그럴듯한 다음 단어.' 하지만 기억은 편집되어 있고, 남들의 평가는 맥락에 따라 달랐고, 패턴은 환경이 만든 것이지 본질이 아닐 수 있다.


"나는 수학을 못하는 사람이야." 정말? 아니면 수학을 못했던 기억이 더 강렬하게 저장되어서 그 문장이 가장 그럴듯하게 생성되는 것일까.


"나는 리더십이 없어." 어떤 환경에서? 누구와 함께일 때? 모든 조건에서 테스트해봤나?


자기 확신은 가장 검증하기 어렵다. 반박할 데이터를 찾으려는 동기 자체가 생기지 않으니까. 나에 대한 믿음은 가장 높은 자신감으로 출력되고, 가장 낮은 빈도로 검증된다.




할루시네이션을 완전히 없앨 수는 없다. AI도 그렇고 사람도 그렇다. 패턴에서 추론하는 시스템은 반드시 가끔 틀린다. 그건 버그가 아니라 구조다.


할 수 있는 건 하나다. 확신과 정확도 사이에 간격이 있다는 사실을 기억하는 것. 그리고 확신이 강하게 밀려올수록, 한 번 더 출처를 확인하는 습관.


AI에게는 엔지니어가 검증 장치를 달아준다. 사람에게 그 장치를 달아줄 사람은 없다.


스스로 달아야 한다.




"자신감은 능력의 부산물이 아니라, 무지의 부산물일 때가 더 많다." — 찰스 다윈