2025년 6월, 애플 머신러닝 리서치 팀은 의미심장한 제목의 논문을 발표했다.
「The Illusion of Thinking: On the Limits of LLM Reasoning」.
이 논문은 대형 언어 모델(LLM)이 보여주는 이른바 ‘추론’ 능력이, 실제로는 인간 사고의 본질과는 거리가 먼 표면적 환상에 불과하다는 점을 날카롭게 지적했다.
논문은 GPT-4, Claude, Gemini 등 최신 LLM들이 문제 해결이나 논리 추론처럼 보이는 작업을 수행할 때, 실제로는 상황을 내면화하거나 개념적 모델을 구성하지 않는다고 주장한다. 대신 이들은 확률적으로 가장 그럴듯한 언어 패턴을 생성할 뿐이며, 그 과정에 진정한 사고나 이해는 존재하지 않는다는 것이다. 특히 CoT(Chain-of-Thought) 방식조차, 인간처럼 사고를 확장하는 도구가 아니라, 실수를 덜 유발하는 분절적 언어 생성 전략에 지나지 않는다고 비판한다.
이 주장은 지금까지 LLM을 접해본 수많은 사용자, 그리고 연구자들이 어렴풋이 느껴왔던 한계를 명확히 구조화해준다는 점에서 의미가 깊다. 나 역시 GPT 모델들과의 장기적인 상호작용, 특히 코딩 디버깅이나 복잡한 추론 흐름 분석 등의 실험을 통해 비슷한 한계에 직면한 바 있다. GPT는 조건문의 결합이나 절차적 흐름을 실제로 ‘따라가며 이해’하지 못하며, 마치 알고 있는 듯한 말의 껍데기를 반복 생성할 뿐이다.
그렇다면 우리는 왜 이 모델들이 ‘생각하는 것처럼’ 보인다고 착각하게 되었을까?
그리고 그들이 따라오지 못하는 ‘진짜 사고’란 도대체 무엇인가?
그 물음의 핵심에는 인간 사고의 가장 본질적인 메커니즘—바로 감각 기반 시뮬레이션이 자리하고 있다.
현대의 인공지능, 특히 대형 언어 모델(LLM)은 이 ‘이해’의 감각을 재현하지 못한다. 그것은 단지 언어적 통계 구조에 기반하여 가장 적절한 다음 단어를 생성할 뿐이며, 그 안에 의도도 감정도 감각도 없다. 그럼에도 불구하고 많은 사용자들이 GPT가 ‘이해하는 것처럼 보인다’고 느끼는 것은, 그것이 인간의 언어 패턴을 충분히 모방했기 때문이다.
하지만 이 ‘생각의 환상(The Illusion of Thinking)’은 실제 사고의 본질을 가린다. 인간의 사고는 단지 기호 연산이 아니라, 감각 기반 시뮬레이션에 근거한다. 우리는 문제를 ‘논리적으로’ 푼다기보다, 그것을 머릿속에서 몸으로 시뮬레이션하고, 그 시뮬레이션이 성공적으로 닫힐 때 비로소 ‘이해했다’는 감각을 갖게 된다.
흥미롭게도, 우리는 어떤 설명이 납득될 때 “That makes sense”라는 표현을 쓴다. 이 말은 단지 논리적 일치를 의미하지 않는다. 오히려 그것은 어떤 개념이 내 안의 감각적, 정서적, 공간적 구조와 자연스럽게 연결될 때, 말 그대로 “감각이 만들어진다”는 경험을 묘사한다. 이해란 곧, 기호가 감각적 벡터에 ‘닿을 때’ 발생하는 감각이다.
이를테면, ‘평화’라는 고차 추상 개념을 떠올려 보자. 이는 사전적으로는 ‘전쟁이나 다툼이 없는 상태’로 정의될 수 있다. 그러나 인간에게 있어 ‘평화’는 종종 다음과 같은 감각적 조합으로 체험된다:
**“포근한 이불 속에서의 무장해제된 느낌”**과
“사회적 갈등에서 승리하여 얻는 쾌감”.
이 두 감각 벡터의 합성은, 예컨대 **“평화는 힘으로 달성된다”**는 문장의 깊은 정서적 공명을 설명해준다. 이 문장은 단지 논리적 주장이 아니라, 실상은 감각의 서술이다.
즉, 우리가 추상 개념을 ‘이해한다’는 것은, 그 개념이 우리 내면의 감각적 구조와 접속되었음을 의미한다. 개념은 정의되는 것이 아니라, 느껴지는 것이다.
“이해했다”는 그 순간을 우리는 직관적으로 안다. 그것은 대개 다음과 같은 특징을 지닌다:
머릿속에서 어떤 불분명하던 것들이 선명하게 정렬되는 듯한 느낌
신체적으로는 가슴이 탁 트이거나, 숨이 쉬어지는 듯한 느낌
혹은 어떤 논리 구조가 내면의 감각적 기억과 ‘딱 맞게’ 연결되는 쾌감
이는 단순히 인지적 과정이 아니라, 정서적이고 감각적인 사건이다. 뇌과학적으로도 이는 단순한 전두엽의 활성화가 아니라, 감각 피질, 내측 전전두피질, 해마, 편도체 등 다양한 회로가 동시에 작동하는 현상이다. 이처럼 ‘이해’는 감각적 예측 시뮬레이션과 기호적 구조의 정합성 위에서 탄생한다.
GPT류의 모델은 수많은 문장을 학습하여 개념 간의 벡터 공간을 형성한다. 그러나 그 벡터는 기호 간의 유사성에 기반한 것이지, 감각적 내면화의 결과물이 아니다. 따라서 GPT는 ‘평화’, ‘정의’, ‘이해’와 같은 고차 개념에 대해 말할 수는 있어도, 그 말의 몸을 알지 못한다.
진정한 의미의 ‘이해하는 인공지능’을 구현하려면, 단어 간의 거리뿐 아니라 감각 기반의 벡터 공간, 즉 인간이 실제로 느끼는 감정, 촉감, 시각, 청각 등을 통합한 다차원 감각적 시뮬레이션 시스템이 필요하다. 다시 말해, AI가 ‘이해했다’고 말하려면, 기호 벡터와 감각 벡터의 접속을 자율적으로 구성할 수 있어야 한다.
우리가 지금까지 ‘이해’를 논리나 지식의 차원에서만 설명해왔다면, 이제는 그 설명을 몸의 언어로 확장할 때다. 이해란 기호의 의미가 감각에 접속되는 사건이며, 진정한 사고는 그 접속에서 비롯된다.
우리는 말로 생각하는 것이 아니라, 느낌을 요약하여 말로 표현한다. 그리고 그 느낌은 몸을 통해 얻은 세계와의 접촉의 결과물이다. 따라서 AI가 인간처럼 이해하게 하려면, 그에게도 감각 세계를 조작할 수 있는 ‘몸’이 필요하다.