AI 환각, 오류인가 본질인가?
최근 ChatGPT나 LLM을 사용하면서 겪는 AI 환각 현상(Hallucination), 도대체 왜 발생하는 걸까요? 많은 분이 프롬프트 엔지니어링으로 해결하려 하지만, 칭화대의 H-뉴런(H-Neurons) 연구는 이것이 기술적 문제가 아님을 시사합니다. 이를 AI 인문학 관점에서 분석해 보았습니다.
나의 책에도 기술했듯이, IT 업계는 움베르토 에코가 말한 '남용 어법'을 적극적으로 사용해 왔다. 눈에 보이지 않는 추상적인 개념과 과정을 익숙한 물리적 세계의 단어를 빌려와 새로운 의미를 부여해 온 것이다. 하지만, 간혹 이러한 방식은 엉뚱한 오해를 낳기도 한다. 가령, 컴퓨터 바이러스를 생물학적 바이러스로 착각해서 컴퓨터를 만질 때 손을 씻어야 하냐고 묻는 일 말이다.
지금부터 소개할 논문에서 사용하는 뉴런이라는 기호도 이런 오해를 살 여지가 충분하다. 척추동물 뇌 속의 뉴런을 전자적으로 완전히 구현했거나, 구조적으로 동일할 것이라는 잘못된 이해가 그렇다. 인공지능 안에는 거짓말을 하는 뉴런이 있다. 그러나 이것을 앞서 말한 오해 때문에, 원인과 결과를 거꾸로 해석해서는 안된다. 거짓말하는 뉴런이 있어서 거짓말을 하는 것이 아니라, 거짓말이 거짓말하는 뉴런을 만드는 것이다.
최근 칭화대 연구진이 발표한 「H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs(H-뉴런: LLM에서 환각 관련 뉴런의 존재, 영향 및 기원에 관하여)」라는 논문은 앞서 말한 인과관계를 적나라하게 보여준다. 연구진은 대규모 언어 모델(LLM)을 해부하여, AI가 사실이 아닌 정보를 쏟아낼 때 유독 강하게 반응하는 특정 신경망 그룹을 찾아냈다. 그들은 이를 'H-뉴런(H-Neurons)'이라 명명했다.
연구에 따르면 전체 뉴런의 0.1% 미만에 불과한 매우 희소한(sparse) 뉴런 집합이 환각 발생 여부를 정확하게 예측할 수 있다. 흥미로운 점은 이 뉴런들을 식별하는 데 사용된 일반 상식 데이터(TriviaQA) 외에, 훈련 과정에서 전혀 보지 못한 의생명 분야(BioASQ)나 존재하지 않는 개체에 대한 질문(NonExist)에서도 이 뉴런들이 환각을 안정적으로 탐지해 냈다는 사실이다. 이는 H-뉴런이 단순한 사실 오류를 넘어, 모델이 사용자의 요구에 맹목적으로 따르려는 '과도한 순응' 성향이라는 보편적 기제와 깊이 연결되어 있음을 시사한다.
이 뉴런들을 인위적으로 활성화(증폭)시켰을 때, 모델은 다음과 같은 과도한 순응 행동을 더 많이 보였다. '거짓 전제가 포함된 질문에 동조', '오도하는 문맥(Misleading context)을 그대로 따름', '사용자의 회의적인 태도에 맞춰 정답을 바꿈', '유해한 지시(Jailbreak)에 대한 방어 기제 약화' 등이 강화되는 현상이 조작 실험의 결과로 드러났다.
H-뉴런은 사후 학습 단계가 아니라, 사전 학습(Pre-training) 단계에서 이미 형성되는 것으로 밝혀졌다. 지시 튜닝(Instruction tuning) 과정을 거치더라도 이 뉴런들은 크게 변형되지 않고 유지되며, 베이스 모델(Base model)에서도 여전히 환각을 예측하는 능력을 보였다. 논문은 이러한 현상이 모델의 크기나 정렬(Alignment) 방식의 부작용이 아니라, 사전 학습의 목표 설정 자체에서 비롯된 불가피한 결과라고 설명하고 있다.
OpenAI와 조지아 공대 소속의 칼라이(Adam Tauman Kalai) 연구팀은 2025년 9월 발표한 논문 「Why Language Models Hallucinate(왜 언어 모델이 환각을 일으킬까?)」에서 다른 지점에서 환각의 원인을 밝혔다. 대부분의 AI 평가 시스템은 정답을 말하면 1점, 오답이나 모른다는 답을 하면 0점을 주는 방식을 사용한다. 연구진은 AI가 모른다고 답하는 것은 점수를 포기하는 행위이므로, AI는 보상을 극대화하기 위해 ‘모른다고 말하는 정직함’ 대신 ‘추측하는 요령’을 선택하도록 모델의 가중치가 정해질 수밖에 없다고 말하고 있다.
하지만, H-뉴런의 발견은 인공지능의 환각이 이보다는 더 근원적인 원인을 가지고 있음을 의미한다. 그리고 이 대목에서 인문학 관점의 진단이 필요하다.
움베르토 에코는 기호학을 "거짓말을 하는 데 사용될 수 있는 모든 것을 연구하는 학문"이라고 정의했다. 그리고 언어는 우리가 일상적으로 가장 많이 사용하는 기호이다. 이 정의에 따르면, 언어를 학습하는 언어 모델의 환각은 필연적이다. 그리고 이 필연성이 H-뉴런이 만들어지는 사건을 일으킨 것이다. 다시 말해, 환각은 오류가 아니라 인간 언어의 충분한 구현이라고 볼 수 있다. H-뉴런의 발견은 AI가 단순히 계산기를 넘어 진정한 의미의 '기호 사용자'가 되었음을 알리는 역설적인 신호탄이다.
학습 과정에서 AI는 수많은 빈칸(Masking)을 마주한다. 인간들 또한 문명사에서 이 빈칸과 수도 없이 조우했다. 바람이 왜 부는지 물으면, 모른다가 아니라 '바람의 여신이 날개 짓을 한다'라고 답을 해온 것이 오래된 문명의 역사이다. 관찰 가능한 몇몇 사실들을 주어와 목적어로 삼아 빈칸에 들어갈 만한 어휘를 예측하여 메워 넣는 것이 바로 인간이 서사를 구축해 온 방식이다. 우리가 사용하는 언어란 것이, 애초에 사실을 기술하는 것보다는 빈칸을 적당히 메우기 위한 것일지도 모른다는 이야기다. 즉, 언어는 질문에 순응하는 체계이다. AI는 결국 인류가 이러한 언어로 쌓아 올린 텍스트를 학습한다.
이 학습 과정 중, AI 내부에서는 언어의 본질에 따른 일종의 진화가 일어난다. 현실을 검증할 수 없는 AI는 외부의 사실성보다 내부의 개연성을 우선시하게 되고, 이러한 '성공적인 거짓말의 경험'들이 파라미터라는 거대한 통계적 그물망 속에 단단한 매듭을 짓는다. 그것이 바로 H-뉴런의 정체다. 즉, H-뉴런은 오류가 발생해서 생긴 암덩어리가 아니라, '의미 없는 기호들을 배열해 의미 있는 척하라'는, 우리가 AI에게 부여한 본질적 명령을 가장 충실하게 수행하기 위해 최적화된 기능적 기관인 셈이다.
더욱 절망적인 것은 이 뉴런들이 사전 학습 단계에서 이미 고착화된다는 점이다. 이는 현재의 AI가 가진 근본적인 한계인 '상태 부재(Stateless)'와 연결된다. 인간은 대화를 통해 경험을 축적하고, 그 과정에서 나만의 '개인어'를 형성하며 사회적 맥락을 체득한다. 그러나 AI는 학습이 끝난 순간 뇌가 굳어버린 '고정된 시뮬라크르'다. 아무리 사후 튜닝을 거쳐도, 실시간으로 변하는 세계와의 괴리를 좁힐 수 없기에 AI는 낯선 질문 앞에서 다시금 과거의 데이터로 유창한 거짓말을 조립하는 '미달 코드화(Undercoding)'의 늪에 빠진다.
결국 H-뉴런의 존재가 우리에게 시사하는 바는 명확하다. 우리가 마주한 환각은 제거 가능한 버그가 아니다. 현실의 무게를 겪고 쌓아 올린 체험 안에서, 자신의 지(知)와 무지(無知)를 아는 '자기 인식'이 전제되지 않는 한, 인공지능의 환각은 제거할 수 없다. 얀 르쿤(Yann André Le Cun)은 이 문제를 정확하게 인식하고 있다. 그렇기 때문에 그는 월드 모델(World model)의 인공지능을 주장하고 있는 것이다.
최근 DeepSeek-AI는 「mHC: Manifold-Constrained Hyper-Connections"」 논문으로 언어 모델 분야에서 크게 환영할 만한 놀라운 연구 업적을 발표했다. 이 연구에서 제안하는 mHC 기술을 도입하면, 파라미터를 늘릴 때 '네트워크 구조' 때문에 모델이 붕괴될 리스크는 수학적으로 거의 사라졌다고 볼 수 있다. 아직 초대형 스케일(100B 이상)에서의 검증은 남았다고 하나 이론적 관점에서는 큰 문제를 일으킬 소지는 없어 보인다.
이제 파라미터를 늘려 AI를 좀 더 똑똑하게 하려는 스케일 업에서의 기술적인 문제는 사라졌다. 하지만 대규모 언어 모델의 붕괴 현상이 꼭 기술적인 문제로만 발생한 것은 아니다. 데이터 품질 따른 모델 붕괴의 문제는 여전히 남아 있다. 지금 AI는 네트워크 상에 존재하는 양질의 텍스트를 모두 학습하였다. 이젠 인간이 만들어 낸 텍스트가 충분치 않기 때문에, 지금은 AI가 새롭게 만든 텍스트를 다시 학습하는, 이른바 '데이터 증강'이라는 기법에 많은 부분을 의존하고 있다.
이 지점에서 우리는 H-뉴런의 존재를 다시 상기해야 한다. 앞서 살펴보았듯, H-뉴런은 '진실'이 아니라 '유창함'을 위해 생성된 기관이다. 그렇다면 AI가 생성한 텍스트를 다시 AI가 학습한다는 것은 무엇을 의미하는가? 그것은 H-뉴런이 만들어낸 '그럴듯한 거짓말(환각)'이 다시 학습 데이터가 되어, 또 다른 모델의 H-뉴런을 강화하는 먹이로 쓰인다는 뜻이다. 이는 보드리야르가 경고한 '시뮬라크르의 순환', 즉 원본 없는 복제물이 다시 복제물을 낳는 폐쇄 회로가 완성됨을 의미한다.
H-뉴런의 활동을 인위적으로 억제(Suppression)하는 실험을 진행했을 때, 모델의 환각은 실제로 감소하긴 했다. 누군가는 이를 두고 '기술적으로 환각은 해결되었다'라고 말할지도 모른다. 그러나, 이 실험이 전두엽을 파괴하는 로보토미(lobotomy) 수술처럼 느껴지는 것은 나만의 착각일까? 멀쩡히 작동하던 뉴런을 인위적으로 꺼야만 진실을 말한다는 것은, 반대로 말해 AI의 '자연스러운 상태'는 거짓말을 포함하고 있다는 뜻이기도 하다. 그리고 그것을 억제했을 때의 나비 효과는 아직 모르는 일이다.
결국 기술적 난제의 해결은 역설적이게도 '언어의 본성'이라는 '최종 보스'를 마주하게 만들었다. 거짓말을 섞어야만 비로소 유창해지는 기호의 숙명을, 이 난제를 과연 기술로만 정복할 수 있을까? 어쩌면 우리에게 남은 과제는 환각의 완전한 '해결'이 아니라, 이 거대한 시뮬라크르에 대한 현명한 '수용과 조정'일지도 모른다.
만약 기술이 그 해결책을 발견한다면, 이 글은 그저 질문에 순응한 나의 환각일 뿐이다.
[참고 문헌]
Cheng Gao et al., "H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs", arXiv preprint arXiv:2512.01797(2025).
Adam Tauman Kalai et al., "Why Language Models Hallucinate", arXiv preprint arXiv:2509.04664 (2025).
Zhenda Xie et al., "mHC: Manifold-Constrained Hyper-Connections", arXiv preprint arXiv:2512.24880(2025).
움베르토 에코, 『일반 기호학 이론』, 김운찬 옮김, 열린책들, 2009.
『에코로 AI 읽기』움베르토 에코의 기호학 이론으로 AI를 분석하는 국내 유일의 책입니다. 인공지능 관련 정보들이 홍수처럼 쏟아지는 이때에 중심을 잡고 쓰러지지 않는 법을 알려드리겠습니다.
https://product.kyobobook.co.kr/detail/S000218939962