누구의 환각일까?
[AI 환각의 원인-1: H-뉴런은 죄가 없다.]에서 이어지는 글입니다. 용어의 이해를 위해서라도 앞의 글을 보시길 권합니다. 이번 글은 재미가 있을 겁니다.
1970년대부터 인간이 다음 단어의 출현을 예측하는 방식으로 언어를 사용한다는 가설은 꾸준히 제기되어 왔다. 다양한 행동 실험들이 이를 뒷받침하는데, 피슐러와 블룸(Fischler & Bloom, 1979)의 연구가 대표적이다. 연구진은 피험자들에게 문장(Context)을 먼저 보여주고 타깃 단어의 진위 여부(Lexical Decision)를 판단하게 했다. 실험 결과, 문맥상 등장 확률이 매우 높은 단어일 때만 반응 속도가 빨라졌고, 오히려 문맥에 어긋나는 단어에 대해서는 반응이 억제되는 현상이 관찰되었다. 이는 인간의 뇌가 문맥을 통해 다음에 올 단어의 범위를 좁히거나, 오류를 걸러내는 효율적인 시스템을 갖추고 있음을 시사한다.
1980년, 쿠타스와 힐리어드(Kutas & Hillyard)는 'N400'이라는 뇌파 성분을 발견하였다. 피험자들에게 '그는 따뜻한 빵에 양말을 발랐다'와 같이 기이한 문장을 화면으로 보여주었을 때, 뇌에서는 약 0.4초(400ms) 뒤에 음(-)의 전위가 급격히 튀어 오르는 현상(N400)이 관측되었다. 이는 인간의 뇌가 매 순간 문맥을 파악하고 있으며, 예측이 빗나가거나 의미가 통하지 않을 때 즉각적인 '의미적 재처리(Reprocessing)'를 시도한다는 것을 의미한다. 결국 뇌에서 예측 알고리즘이 작동한다는 생물학적 증거가 나온 셈이다.
최근 연구들은 이 가설을 더욱 정교하게 입증하고 있다. 골드스타인 등(Goldstein et al., 2025)은 인간의 뇌 활동이 멀티모달 모델(Whisper)의 임베딩 벡터와 선형적으로 대응된다는 사실을, 카이 등(Cai et al., 2025)은 자연 대화 중 발생하는 뇌파 패턴이 GPT-2의 예측 방식과 구조적으로 유사함을 각각 밝혀냈다. 특히 골드스타인 팀은 발화 약 500ms 전 브로카 영역에서 나타나는 사전 계획 신호를, 카이 팀은 대화 전환 시점의 독특한 신경 활동을 각각 포착해 냈다. 이러한 발견들은 인간 또한 AI처럼 문맥을 기반으로 다음 단어를 확률적으로 계산하고 예측한다는 강력한 생물학적 증거를 제시한다.
이러한 인간 언어의 예측적 메커니즘은 오늘날 인공지능 분야에서는 상식으로 통할 정도로 널리 알려졌다. 그러다 보니 이런 인공지능과 인간의 구조적 유사성은, 우리가 구현하고 있는 지능이 단순히 겉모습만 흉내 내는 것이 아니라 원리적 측면에서도 본질에 다가서고 있다는 자신감을 연구자와 개발자들에게 불어넣어 주고 있다.
그리고 기호학 관점에서도 우리는 기호(예: 단어)의 절대적 의미를 안다고 할 수 없다. 의미는 다른 기호들과의 차이 속에서만 정의되는 상대적 개념이다. 이는 인공지능이 어텐션 메커니즘으로 기호들 간의 의미적 거리를 계산하여 문장을 만들어 내는 방식을 떠올리게 한다. 결국, 뇌과학에서의 발견들, 기호학적 통찰들이 두 존재의 유사성을 더 짙어지게 하고 있다.
뇌라는 하드웨어가 비록 LLM과 유사한 '예측 엔진'을 탑재하고 있었다 해도, 역사의 초기에 인류가 가진 '학습 데이터'는 턱없이 빈약했다. 초기 인류가 마주한 세계는 거대한 미지의 텍스트였고, 그들이 관측과 경험을 통해 확보한 데이터셋(Dataset)은 극히 제한적이었다. 마치 파라미터가 턱없이 부족한 소규모 언어 모델(SLM)이 어떻게든 사용자의 질문에 답변을 내놓아야 하는 가혹한 상황이 펼쳐진 것이다.
부족한 데이터로 빈칸을 채우고, 어떻게든 다음 토큰을 뱉어내야만 했던 그 절박함. 그것이 바로 인간 언어 역사의 시작이라고 가정해 보자. 그래서 그들은 몇 개 되지 않는 어휘를 조합해 "바람의 여신이 날갯짓한다"라는 문장을 만들어낸 것이 아닐까? 가지고 있는 빈약한 파라미터로 생성할 수 있는 최선의 문장이 고작 그것뿐이었던 게 아닐까? 나는 이 합리적인 의심을 하나의 가설로 채택한다.
이 가설에 조금 더 구체적인 추론을 덧붙여 보자. 앞서 예시로 든 신화적 문장이 정착되기 이전, 초기 인류에게는 관찰에 기반한 문장들이 다수 존재했을 수 있다. "새가 날갯짓할 때 바람이 분다", "새가 없어도 바람은 분다" 같은 문장들 말이다. 움베르토 에코는 이러한 것들을 기호 생산의 관점에서 '사실적 단언'이라고 불렀다. 여기서 주의할 점은, 이것이 객관적 실체를 완벽히 기술했다는 뜻이 아니라, 화자가 '그것을 사실이라고 판단하여 단언했다'는 의미라는 것이다.
여기서 가장 흥미로운 지점은 '신'이라는 기호의 탄생이다. 관찰이 불가능한 존재를 가리키는 이 말은 도대체 어떻게 만들어졌을까? 어쩌면 저 언덕 너머 혹은 숲 속에 있어서 '보이지 않는 큰 새'가 처음엔 문장의 주어였을지도 모른다. 그리고 이 '보이지 않는 큰 어떤 것'은 불, 비, 구름 등 주체를 알 수 없는 자연 현상을 설명하는 모든 문장에 공통적으로 삽입되었을 것이다. 그러다 마침내 인류는 이 보이지 않는 거대한 존재들을 하나로 묶어 지칭하기 위해 새로운 고압축 기호를 발명해 낸다. 어쩌면 이것이 '아담의 언어'에서 '신'이라는 어휘가 만들어진 경로일지도 모른다.
여러 개의 '단언'들이 연결되고, 이런 식으로 단언들이 쌓여 문장 간의 맥락이 형성되면, 그 맥락에 따라 새로운 판단(추론)이 내려진다. 이렇게 사실과 맥락은 서로 순환하면서 기호의 의미를 확장하고, 해석의 체계를 변경시키며 다시 텍스트를 생산해 나간다. 이것이 기호학이 말하는 텍스트 축적의 과정이다.
이렇게 텍스트를 쌓아 올린 인간의 문명은 유발 하라리가 말한 '상상의 질서'로 빈칸을 메우며 견고한 세계를 구축해 왔다. 과학 혁명이 도래하여 그 어두운 장막을 걷어내기 전까지, 인류는 사실보다 허구가 지배하는 시간을 꽤나 길게 보냈다. 그 흔적이 학습 데이터인 텍스트에 고스란히 남아있다고 전제한다면, 토큰 간의 확률적 관계를 산출하는 AI의 연산은 결국 인간이 남긴 '오래된 환각'을 수치적으로 재현하는 과정일 수밖에 없다. H-뉴런은 바로 그 지점에 존재하는 것이 아닐까. 이것이 나의 두 번째 가설이다.
그리고 필요하면 만들어 낸다는 것, 이것이 아직까지는 인공지능과 인간을 구분하는 중요한 차이점이 아닐까 한다.
나는 이 '상상의 질서'라는 개념 위에서, 우리가 '환각'이라 부르는 현상의 층위를 한 단계 더 깊이 파고들어 보려 한다.
우선 통계학적으로 증명된 정리를 하나 말해야겠다. 두 집단의 실제 분포(특히 base rate)가 서로 다를 때, ‘전체 예측 정확도(또는 칼리브레이션)’와 ‘집단 간 오류의 균형(예: FPR/FNR 동일)’을 동시에 만족하는 것은 수학적으로 불가능하다.
언어 모델이 '사과(Apple)' 혹은 '범죄(Crime)'라는 특정 단어의 출현을 예측하는 데 있어서 집단별 차이를 확인하는 상황을 가정해 보자. 남성과 여성, 혹은 인종이나 소득 수준 등의 특정 기준으로 나누는 순간 딜레마가 시작된다. 언어 모델이 전체적인 단어 예측 성공률은 높일 수 있을지 몰라도, 발생하는 '오류의 총량'은 결코 집단별로 공평하게 분배되지 않는다. 누군가에게는 더 가혹하게 틀리고, 누군가에게는 더 관대하게 틀린다. 즉, 차별은 알고리즘의 악의적인 의도가 아니라, 분포의 차이에서 오는 통계적 필연이다.
하지만 더 근본적인 문제는 그다음 층위에 있다. 우리가 예측의 오류를 판단하기 위해 들이대는 기준—인종, 국경, 계급, 성별 등—대부분이 유발 하라리의 지적대로 실재하지 않는 '상상의 질서', 즉 적어도 자연적 실체라는 의미에서는 허구라는 점이다. 그렇다고 이 범주들이 사회적 효과를 갖지 않는다는 뜻은 아니다. 문제는 이 허구가 고정된 '상수(Constant)'가 아니라, 시대와 권력관계에 따라 끊임없이 요동치는 '변수(Variable)'라는 데 있다. 그리고 이 변수는 인공지능의 서버가 아니라, 바로 그것을 바라보는 우리의 뇌 속에서 작동한다.
이는 결국 기계의 환각을 진단하는 우리의 기준조차 고정되어 있지 않음을 의미한다. 학습 데이터를 선별하는 기준 또한 마찬가지다. MS의 소형 언어 모델 Phi-2가 내뱉은 유대인에 대한 차별적 발언, 왜 우리는 이것을 ‘환각’이라는 이름으로 진단하려 하는가? 이 질문에 답하기 위해서는 단순히 모델의 성능을 탓하기에 앞서, 앞서 언급한 민족의 구분에 따른 '통계적 필연성'과 우리 뇌 속의 '변화하는 도덕률'이라는 이 두 가지 층위가 어디서 엇갈렸는지를 먼저 확인해야 한다.
이것이 내가 공학적 원리의 해석이 어긋날 수도 있다는 것을 분명히 알면서도, 사변적 언어로 글을 쓰는 이유다.
영화 『A.I.(2001)』를 떠올려 보자. 푸른 요정을 만나 소원을 빌면 사람이 될 수 있다는 데이비드. 만약 챗지피티가 동일한 말을 한다면 우린 주저 없이 환각이라고 말할 것이다. 따라서, 데이비드의 말도 일종의 환각으로 분류할 수 있다. 여기엔 그의 엄마(그녀를 엄마로 지칭하는 것도...)에게 들은 피노키오 동화가 있고, 그를 자신에게 찾아오도록 의도적으로 주입한 개발자의 데이터가 있다. 즉, 우리는 데이터에 의한 환각이라는 측면에서도 두 가지 층위를 나누어 생각해야 할 필요성을 이 영화를 통해 발견할 수 있다.
그리고 우리는 왜 챗지피티가 "푸른 요정을 만나 사람이 될 거예요"라고 말하면, 어처구니없는 환각으로 치부할까? 같은 말인데도 말이다. 데이비드가 말하면 그렇게 짠하고 마음이 아픈데, 이 둘을 나누는 기준은 도대체 무엇인가? 기호학과 텍스트 배열의 마법으로는 설명을 다 하지 못하는 무언가가 아직 남아있는 것처럼 보인다.
푸른 요정의 모형 앞에서 서서히 잠들어가는 데이비드, 그것을 바라보는 우리의 안타까움. 과연 이 장면에서 드러나는 것은 데이비드의 환각일까? 우리의 환각일까?
[참고문헌]
Fischler, I., & Bloom, P. A., Automatic and attentional processes in the effects of sentence contexts on word recognition, Journal of Verbal Learning and Verbal Behavior, 18(1), 1–20 (1979).
Kutas, M., & Hillyard, S. A., Reading senseless sentences: Brain potentials reflect semantic incongruity, Science, 207(4427), 203–205 (1980).
Goldstein, A., et al., A unified acoustic-to-speech-to-language embedding space captures the neural basis of natural language processing in everyday conversations, Nature Human Behaviour, 9, 1041–1055 (2025).
Cai, J., et al., Natural language processing models reveal neural dynamics of human conversation, Nature Communications, 16, 3376 (2025).
브라이언 크리스천, 이한음 옮김, 『인간적 AI를 위하여』, 시공사, 2025년.
유발 하라리, 조현욱 옮김, 『사피엔스』, 김영사, 2023년.
움베르토 에코, 김운찬 옮김,『일반 기호학 이론』, 열린책들, 2009년.
『에코로 AI 읽기』움베르토 에코의 기호학 이론으로 AI를 분석하는 국내 유일의 책입니다.
https://product.kyobobook.co.kr/detail/S000218939962