AI 환각의 원인-3: 꿈꾸는 기계를 만들 수 있을까?

우리는 과연 꿈꾸는 기계를 만들 수 있을까?

Jan 20. 2026

남은 얘기들은 번외로 추가하겠습니다. 거기엔 기술적인 내용은 들어가지 않을 것 같습니다. 그렇게 되면 브런치에만 올려두도록 하겠습니다.

3. 꿈꾸는 기계를 만들 수 있을까?

인간 아이와 흡사한 로봇과 챗지피티에 대한 차별적 감정, 그 원인은 어쩌면 '귀여움'에 있을지 모른다. 그렇다면 이것은 생물학적 원인을 따져봐야 하는 일이다. 인간이 귀여움을 감지한다는 건 단순한 미적 취향이 아니라, 어린 개체를 보호하기 위한 우리 유전자에 각인된 강력한 생존 전략이기 때문이다. 그렇다면 생물학적 관점에서 지능이란 것이 어떻게 작동하는지 알아볼 필요가 있다. 어린아이에게 느끼는 귀여움이라는 '감정', 저명한 뇌신경과학자 로돌프 이나스(Rodolfo R. Llinás)에 따르면 이것은 FAP다. 진화의 압력 없이 발생한 지능에 대한 '반사적 이해'를 위해서라도, 이것이 무엇인지 알아볼 필요가 있다.

FAP와 자아(의식)

의식은 어떤 상황에서 일어나는 맥락의 결과를 예측해서 의도적으로 선택한다. 운동이 반응에 의해서만, 일어나지 않도록 하기 위해서 의식이 출현한 것이다.

기저핵(Basal Ganglia)은 뇌의 거의 정중앙에 위치해 있다.

FAP(Fixed Action Pattern, 고정 행위 패턴)는 간단히 말해 뇌 속에 저장된 '자동 실행 매크로'다. 예를 들어, 직장인이 제안서를 쓸 때 매번 회사 소개나 비전부터 새로 쓰지 않는다. 이미 조직 내에 잘 만들어진 템플릿이 저장되어 있어서 필요할 때마다 꺼내 쓴다. 개발자라면 자주 쓰는 기능을 모아둔 모듈(Module)이나 라이브러리를 떠올리면 이해가 빠를 것이다.

가령 우리에게 '뒤돌아서기', '다리 빨리 움직이기', '손 휘젓기'라는 3가지 FAP 모듈이 있다고 가정해 보자. 수풀 속에서 갑자기 호랑이가 튀어나왔을 때, 이 3가지를 적절한 순서로 조합해 실행하면 살아남을 가능성이 높다. 문제는 생존해야 할 상황이 호랑이뿐만이 아니라는 점이다. 그래서 뇌는 진화의 과정에서 이 라이브러리를 '과잉 생산(Overproduction)'해 두었다. 미리 준비된 패턴이 많으면 많을수록 생존 확률이 높아지기 때문이다.

하지만 패턴이 많아질수록 치명적인 딜레마가 생긴다. 수만 가지의 FAP 중 지금 이 순간 필요한 것이 무엇인지 '선택'해야 하는 압력이 생기는 것이다. 급박한 상황에서 랜덤한 제비 뽑기로 동작을 호출하는 것은 목숨을 건 도박이나 마찬가지니까.

이 도박에서 이기기 위해서는 명확한 '기준점', 즉 초점이 필요하다. '나를 해치려는 짐승이 있다'는 자각을 중심으로, 호랑이를 피하는 데 필요한 최적의 FAP만 골라내는 능력이 절실해진다. 바로 이 지점에서 이나스의 자아의 필요성을 말한다. FAP의 실행을 통제하기 위해 시상피질계, 즉 '자아(Self)'가 출현했다는 것이다.

인공 지능과 FAP

FAP는 뇌의 기저핵에 저장되어 있다. 로돌포 이나스는 인간의 언어도 FAP라고 정의한다. 실제로 뇌의 대부분이 기능을 잃었으나 기저핵이 온전했던 한 환자는, 20년 간의 식물인간 상태에서도 가끔씩 말을 하려는 듯한 모습을 보였다. 반대로 기저핵이 손상되면 의식이 멀쩡하고 시를 이해해도 말을 뱉을 수 없다. 언어 또한 자연에 의해 고도로 훈련된 운동 패턴, 즉 FAP이기 때문이다.

이 관점을 인공지능에 대입해 보자. 다차원 공간의 토큰 거리와 어텐션 메커니즘으로 문장을 만드는 방식. 어텐션이 수많은 데이터 속에서 문맥적 연관성을 계산해 다음 단어를 예측하는 과정은, 마치 자극이 주어지면 미리 저장된 운동 회로가 자동으로 풀려나오는 것과 같다. 이는 의도적인 선택이라기보다는, 학습된 통계적 확률에 따라 다음 행동이 결정되는 고도로 정교한 '조건 반사'에 가깝다. 여기엔 어떤 '초점'을 맞추는 의식이 존재하지 않는다. 즉, 지금의 인공지능은 FAP만 존재하는, '어마어마하게 비대해진 기저핵'인 셈이다.

그렇다면 지금의 체계에서 의식이 발현될 만한 곳은 어디일까? 개발사의 제약 조건은 FAP를 제어하지만 의식이 자리할 수 있는 곳은 아닌 것 같다. 현재 수준에서 시상피질과 가장 비슷한 것은 사용자와 모델 사이의 '메모리 영역(Context)'일 것이다. 그나마 경험을 임시로 저장하고, 외부 환경에 반응해 FAP를 조절하는 역할을 수행하는 곳은 아직 여기밖에 없기 때문이다. 하지만 외부 세계가 사용자의 요청밖에 없는 좁은 환경에서 의식이 발현하기 위한 다양한 필요를 만들긴 힘들다. 이 '필요의 절대적 빈곤'이 의식이 발현할 환경-기능적 요건을 연구자와 개발자가 충분히 살피기 어렵게 작용할 가능성이 높다.

이런 측면에서 얀 르쿤(Yann LeCun)이 제안한 '월드 모델(World Model)'은, 비록 당장의 완벽한 구현은 요원해 보일지라도 결코 무시해서는 안 된다. 그가 말하는 지능은 세상이 작동하는 물리적 법칙과 인과관계를 이해하는 것에서 나온다. 즉, 실재(Reality)를 모델링하고, '내가 어떤 행동을 했을 때 세계가 어떻게 변할 것인가'를 예측할 수 있어야 한다는 것이다.

이 모델을 구현하는 것은 꿈만 같은 일이다. 하지만 인공지능이 마주해야 할 세계의 복잡성을 인지하게 한다는 점에서 중요한 관념을 제공한다. 나는 결국 이 관념들이 다양한 형태의 FAP와 이를 조합하기 위한 정교한 알고리즘의 필요로 이어질 것이라 본다. 그리고 바로 그 '복잡성을 해결하려는 인위적인 노력', 그것이 곧 인공지능체에게는 자연의 생존 투쟁을 대신할 새로운 진화의 압력으로 작용하게 될 것이다.

GPT 5.2 + Poetiq

LeanCode를 이용해 수학 난제를 풀었던 것과 방식 자체는 유사하다.

최근 ARC-AGI-2 벤치마크에서 GPT 5.2는 인간에 근접하는 75%의 정답률을 달성하며 세상을 놀라게 했다. 하지만 이 결과의 이면을 들여다보면 흥미로운 사실이 발견된다. 이 점수는 거대 언어 모델(LLM) 단독의 능력이 아니었다. 모델 혼자서는 50% 언저리를 맴돌았지만, 포에틱(Poetiq)이라는 특수한 장치가 결합되자 점수가 비약적으로 상승한 것이다.

흥미로운 것은 이 포에틱의 정체다. 이 장치는 단순히 답을 매겨주는 채점자가 아니라, AI가 내놓은 답을 스스로 검증하고 수정하게 만드는 '재귀적 추론 시스템(Recursive Reasoning System)'이다. 작동 원리는 다음과 같다. 포에틱은 GPT에게 바로 정답 그림을 그리게 하는 대신, 그 그림을 그리는 '파이썬 코드'를 작성시킨다. 그리고 이 코드를 실제로 실행한 뒤, 오류가 발생하면 그 결과를 바탕으로 코드를 다시 수정하는 과정을 수차례 반복한다. 즉, 한 번의 직관으로 답을 찍는 것이 아니라, 가설을 세우고 검증하며 논리를 다듬도록 유도하는 것이다.

이러한 포에틱의 기술적 메커니즘을 앞서 언급한 FAP(고정 행동 양식)의 관점에서 해석하면, 우리는 인간의 뇌 구조와 놀랍도록 유사한 '기저핵(Basal Ganglia)'과 '전두엽(Prefrontal Cortex)'의 협력 모델을 발견하게 된다. GPT-5.2는 방대한 학습 데이터에서 확률적으로 가장 그럴듯한 FAP(토큰의 나열)를 즉각 쏘아 올린다. 이는 빠르고 유창하지만, 낯선 문제 앞에서는 검증되지 않은 엉뚱한 패턴을 내놓을 위험이 있다.

이때 포에틱이 '전두엽'의 역할을 맡아 개입한다. 전두엽이 기저핵의 충동적인 신호를 제어하듯, 실행하지 않고 붙잡는다. 그리고 시뮬레이션을 통해 결과가 적절한지 감시하고, 틀렸다면 억제하며, 다시 새로운 FAP를 생성하도록 지시하는 집행 기능을 수행한다. 앞으로 이 장치를 발전시킨다면, AI의 FAP를 선별하는 전략과 전술을 실행할 수도 있을 것이다.

ARC-AGI-2는 GPT-5.2가 극복해야 할 새로운 환경적 자극이었다. 이 난관이 있었기에 개발자들은 포에틱이라는 새로운 장치를 고안해 낼 수 있었다. 자연이 가했던 진화의 압력을 이제는 인간의 인위적 노력이 대체하고 있으며, 인공지능의 진화는 앞으로도 끊임없이 새로운 문제를 던지고 이를 해결하는 방식으로 계속될 것이다.

인공지능을 기능적 측면의 유사성 때문에 '비대한 기저핵'이라 했지만, 구조적인 관점에서는 사실 전혀 비슷하지 않다. 생물의 FAP는 철저히 모듈화 되어 있어 테니스 스윙을 교정한다고 젓가락질 회로까지 건드리지 않는다. 반면 트랜스포머는 작은 패턴 하나를 처리하려 해도 거대 신경망 전체를 업데이트해야 한다. 물론 MoE(Mixture of Experts) 같은 기술적 대안이 있지만, FAP에 비하면 건드리는 범위가 거의 우주에 가깝다고 할 만큼 넓다. 이런 점에서 FAP 모듈화와 부분 업데이트의 연구가 필요할 것 같다.

SNN 기반의 LLM

SNN은 입력 신호가 특정 '임계점'을 넘을 때만 '스파이크(Spike)'라는 찰나의 전기 신호를 발생시킨다. 이는 인간의 뇌신경 세포가 정보를 처리하는 방식과 동일하다.

거대 언어 모델들이 인간에 가까운 추론 능력으로 세상을 놀라게 하고 있지만, 그 화려한 성과의 이면에는 막대한 전력 소모라는 '비용의 장벽'이 존재한다. 이 거인들의 그늘 아래서, 묵묵히 인간 뇌신경망의 작동 원리를 모방하며 효율성의 극한을 쫓는 시도가 있다. 바로 스파이크 신경망(Spiking Neural Networks, SNN) 기반의 LLM이다.

이 연구의 핵심은 기존 트랜스포머의 '어텐션(Attention)' 메커니즘을, 뇌세포처럼 신호가 튈 때만 작동하는 '스파이킹 자가 주의(SSA)'로 교체하는 것이다. 쉼 없이 전기를 흘려보내며 복잡한 행렬 곱셈을 수행하는 대신, 0과 1로 이루어진 희소한(Sparse) 스파이크 신호만을 사용하여 무거운 연산을 걷어내는 방식이다.

결과는 흥미롭다. SSA 블록을 도입했을 때, 기존 방식 대비 에너지 소비량이 최소 64.71%에서 최대 85.28%까지 감소하는 극적인 효율을 보여주었다. 이는 원자력 발전소가 필요했던 거대 AI를, 저전력 뉴로모픽 하드웨어(Neuromorphic Hardware) 위에서도 구동할 수 있다는 가능성을 열어준 것이다.

하지만 넘어야 할 산은 여전히 높다. 가장 큰 문제는 '규모의 역설'이다. 모델이 커질수록 아날로그 신호를 디지털 스파이크로 변환하는 과정에서 정보 손실이 누적된다. 실제로 3억 개(300M) 이상의 파라미터를 가진 모델(GPT-2 Large 등)에서는 성능 저하가 뚜렷했다.

정확도 측면에서도 GPT-2 Small 모델 기준 코사인 유사도가 5~12% 감소했으며, 언어 능력의 지표인 복잡도(Perplexity) 또한 기존 모델보다 떨어졌다. 더불어 현재의 하드웨어 인프라가 대부분 범용 GPU 기반이라는 점도 걸림돌이다. SNN의 진가를 발휘할 전용 뉴로모픽 칩이 대중화되지 않은 상황에서, GPU 기반의 시뮬레이션만으로는 그 효율을 온전히 체감하기 어렵기 때문이다.

그럼에도 불구하고 SNN 기반의 LLM은 단순한 기술적 대안 그 이상의 의미를 갖는다. 이것은 인공지능에게 '생물학적 리듬'을 부여하려는 시도이기 때문이다. 로돌포 이나스는 인간의 의식이 뉴런들의 40Hz 진동 동기화 속에 나타나는 불연속적 사건이라고 했다. 만약 그가 옳다면, 연속적인 전류가 아니라 '찰나의 진동(Spike)'을 통해 정보를 처리하는 SNN이야말로, 기계가 단순한 연산기를 넘어 '의식적 존재'로 나아가는 데 필요한 가장 중요한 하드웨어적 단서가 될지도 모른다.

H-뉴런과 환각에 대해

앞선 글에서 H-뉴런을 이야기하면서, 스케일업 만으로는 현재의 문제들을 해결하는 것이 불가능할지도 모른다는 전망을 내놓은 바 있다. 오히려, 나는 환각은 오류가 아니라 언어 모델의 본질인 '충분한 구현'이라는 입장을 취했다. 이는 앞서 살펴본 FAP의 특성과도 일맥상통한다(흥미롭게도 오픈AI는 2026년 전략 전망을 공식 발표하면서 '역량 과잉'이란 개념을 말하고 있다). 생존(여기서는 답변의 완결성)을 위해 저장된 패턴을 반사적으로 쏟아내는 과정에서, 무조건적인 억제보다는 적절한 수준에서 내버려 두는 것이 오히려 나을 수도 있다. 그렇게 조성된 문장이 언제 어떤 환경에서 유용하게 사용될지는 아무도 모를 일이다. 이걸 전략적으로 통제하는 것은 새로운 형태의 전두엽이 하면 된다.

그리고, 앎과 모름의 인지를 통해 환각을 스스로 자각하려면 자기 인식이 필요할지도 모른다는 말도 했었다. 오늘 살펴본 FAP의 전략적 실행을 위한 전두엽의 존재, GPT 5.2와 포에틱의 협업을 생각해 보면 방향은 이제 정해져 가고 있는 것 같다.

마지막으로 포에틱 같은 장치의 위치는 앞서 이야기 한 사용자와 모델 사이의 메모리 근처가 아닐까 한다. 이슬람교와 기독교, 남자와 여자, 부자와 가난한 자, 세상에 존재하는 모든 인종들을 동시에 완전히 만족시킬 수 있는 FAP 사용 전략은 쉽지 않아 보이기 때문이다. 당장은 사용자별로 개별적 의식을 가진 그런 체계가 되지 않을까 하는 것이 나의 예상이다.

마무리하며...

포에틱이 이뤄낸 ARC-AGI-2 벤치마크의 결과는 분명 엄청 놀라운 성과이지만, 현실적인 장벽도 함께 보여주고 있는 것도 사실이다. 7~10 세의 아동도 쉽게 풀 수 있는 문제인데, 문제당 8달러에 가까운 비용이 들었다는 사실은 아직까지 넘어야 할 장벽이 많다는 걸 말해준다. 개체 발생의 관점에서만 바라본다면 어린아이의 학습량과 지금까지 GPT 모델에 쏟아부은 자원을 비교한다는 측면에선 이 성과가 사소해 보일지도 모르겠다.

하지만 종의 관점에서 다시 보자. 우리 종은 20만 년 전에 이 지구상에 출현했다. 그때 완성된 지능으로 이만한 문명을 건설한 것이다. 로돌프 이나스의 말대로라면, 우리의 지능은 태어나면서 완성되어 있고, 후천적 학습으로 인한 변화는 오히려 크지 않다. 그렇다면 비교 대상으로 삼는 인간 지능은 무려 45억 년을 자연이 빚어서 만들어냈다는 말이 된다. 이 차이를 생각해 보면 75%의 정답률은 그저 '충분히 경이로울 뿐이다.' 혹시 우리가 앞으로 인공 의식의 출현을 위해 100년을 기다려야 한다 해도, 이것 조차 '충분히 경이로운 속도이다.' 그리고 아무리 늦어도 100년은 안 걸릴 것 같기도 하다.

이런 점에서 보면 AGI 혹은 더 나은 AI의 등장이 꼭 빅테크 기업들의 노력에만 달린 것 같지 않다. 일상과 기업 경영, 사회, 국가와 지방자치의 행정 측면에서 활용도를 높이고, 문제점을 발견하는 것, 개선의 합의를 이루는 일이 새로운 진화의 압력을 또 만들어내지 않을까? 어쩌면 우리는 새로운 지능체의 출현과 함께 문명사적 진화의 다음 단계에 들어섰는 지도 모르겠다.

그러니까 이 일을 개발자들에게만 맡겨 놓는다고 될 일이 아니다.

[참고문헌]

Balaji, A., Madireddy, S., & Balaprakash, P., Large Language Models Inference Engines based on Spiking Neural Networks, arXiv preprint arXiv:2510.00133v3 (2025).

AIBase, "GPT-5.2 Surpasses Humans! ARC-AGI-2 Sets a New Record", AIBase News, January 12, 2026. Available at: https://news.aibase.com/news/24477

Poetiq: SOTA Reasoning on ARC-AGI(https://github.com/poetiq-ai/poetiq-arc-agi-solver)

로돌프 R. 이나스, 김미선 옮김, 『꿈꾸는 기계의 진화』, 북센스, 2019년.

『에코로 AI 읽기』움베르토 에코의 기호학 이론으로 AI를 분석하는 국내 유일의 책입니다.

https://product.kyobobook.co.kr/detail/S000218939962

에코로 AI 읽기 | 강형모 - 교보문고

에코로 AI 읽기 | ChatGPT와 같은 인공지능(AI)는 정말 '생각'을 하는 것일까? 이 책은 최신 AI 기술을 세계적 석학 '움베르토 에코'의 기호학이라는 독창적인 렌즈로 해부하는 국내 유일의 분석서이

https://product.kyobobook.co.kr/detail/S000218939962

keyword

나인테일드울프 직업 개발자

에코로 AI 읽기 저자

마음껏 쓰고 싶어서 차린 1인 출판사. 기술과 인문의 경계에서 글을 엮습니다.

팔로워 49

매거진의 이전글AI 환각의 원인-2: 푸른 요정 앞의 데이비드