환각을 적분해서 얻은 생각

유효 장 이론으로 그려낸 AI 환각 모델

Jan 26. 2026

문제 복잡도의 악영향

유효 장 이론(Effective Field Theory)이란?
이 이론은 복잡한 미시적 디테일(수천억 개의 파라미터) 대신, 전체 시스템의 결과에 영향을 미치는 소수의 핵심 변수(여기서는 2개)만으로 대상을 효율적으로 설명하는 물리학의 방법론이다.

최신 LLM은 뛰어난 능력을 보여주지만, 덧셈과 같은 비교적 단순한 결정론적 문제에서도 여전히 오류를 범하고 있다. 라주(Raju)와 네트라팔리(Netrapalli)는 물리학의 유효 장 이론(Effective Field Theory)에서 영감을 받아, 수천억 개의 파라미터를 가진 LLM의 오류율을 단 두 개의 파라미터로 설명하는 모델을 제안한다.

이들에 의하면 LLM의 오류는 '지능 부족'이 아니라 '신호 잡음'이다. 기존에는 LLM이 엉뚱한 답을 내놓는 환각 현상을 모델이 논리적 추론을 못해서 발생하는 "추론의 붕괴(collapse of reasoning)"라고 해석하는 경향이 있었다. 하지만 이 논문은 이를 "어텐션 메커니즘의 미세한 노이즈가 임계치를 넘을 때 발생하는 확률적 사고"로 정의한다. 즉, 모델이 몰라서 틀리는 게 아니라, 연산 과정에서 잡음이 쌓여서 '그럴듯하지만 틀린 토큰(plausible erroneous tokens)'으로 미끄러지는 현상이라는 것이다. 그래서 이들은 LLM 오류 모델을 아래의 수식으로 제안한다.

적합도 검증의 카이제곱 분포를 적분하여 모델의 예측력을 1 이하의 값으로 산출하는 모델이다.

이들은 복잡도(c)가 임계치를 넘는 순간, 예측 분산이 제곱으로 늘어나 모델의 정확도가 급격히 떨어지는 것을 실험을 통해 확인했다. 이유는 단순하다. LLM은 나열된 토큰들을 조건(Condition) 삼아, 다음 토큰이 등장할 수학적 확률을 매번 새로 계산한다. 문제는 이 확률 계산(Softmax) 과정에 필연적으로 '미세한 떨림(r)'이 포함된다는 점이다. 짧은 문장에선 이 떨림이 티가 안 나지만, 문맥이 길어지면(c) 앞선 토큰의 떨림이 다음 토큰의 계산을 오염시키고, 그 오염된 값이 또 다음을 오염시킨다.

이 연쇄 작용으로 노이즈는 산술급수가 아닌 기하급수로 증폭된다. 이것은 확률 분포가 무한히 곱해지며 평평하게 뭉개지는 통계적 붕괴 과정이다.

이들이 제시하는 개념과 실험 결과는 아래의 그림으로 표현할 수 있다. 이 그림은 그래프가 납작하게 눌리면서 정답이 존재해야 할 유효 면적(정확도, 하늘색)이 물리적으로 좁아지는 과정을 나타낸다. 문맥이 길어지며 노이즈가 기하급수적으로 증폭되면, 분산(Variance)이 커지며 그래프가 양옆으로 넓게 퍼진다. 확률의 총합은 항상 1로 고정되어 있기 때문에, 옆으로 퍼진 만큼 높이는 낮아질 수밖에 없다.

가운데 하늘색 영역이 토큰이 정확하게 출력될 빈도를 나타낸다.

그리고 노이즈(r)에 대한 설명을 보충해 보자. 언어는 본래 흐르는 물과 같아서, 고정된 형태가 없다. 한 마디를 뱉을 때마다 그 의미는 미세하게 흔들린다. 짧은 대화에서는 이 흔들림이 '융통성'이나 '창의성'으로 보이지만, 맥락이 길어지면 이야기가 다르다. 이 미세한 의미의 표류가 쌓이고 쌓여, 결국 거대한 '맥락의 붕괴'를 가져온다.

노이즈는 존재할 수밖에 없다. 만약 노이즈를 완전히 제거할 수 있다면, 그것은 또 다른 의미에서 '언어 모델의 붕괴'를 뜻한다. 애초에 확률과 통계로 언어를 구현할 이유가 사라지기 때문이다. 100%의 정답을 보장하는 알고리즘으로 코딩하면 그만인 상황에서, 굳이 막대한 자원을 들여 딥러닝을 할 필요가 있을까? 즉, 노이즈가 사라지는 순간 딥러닝의 존재 이유도 함께 사라진다.

결국 노이즈는 있을 수밖에 없고, 입력 길이와 결합하여 언어 모델의 정확도를 제곱에 반비례하여 떨어뜨린다. 이 논문에서 보여주는 실험 결과들은 모두 그것을 증명한다.

올바르게 주의를 끄는 법

프롬프트의 의미를 명확하게 하자 오히려 하위 모델이 더 정확한 결과를 나타냈다(파란 선)

연구진은 오류의 원인을 수많은 토큰 속에서 "어디를 봐야 할지 헷갈려서 생기는 노이즈(Attention Noise)" 때문이라고 진단한다. 이 노이즈를 제거하려 무작정 설명을 늘어놓는 것은 입력 길이가 작용해 역효과를 일으킬 수 있다. 이들이 제시하는 해법은 모델이 봐야 할 토큰을 명확히 지정해 주는 것이다. 이들은 산술 연산을 지시할 때, 각 숫자에 xᵏ와 같은 '위치 태그'를 붙이는 방식을 제안했다. 숫자 123이 아니라 백의 자리가 1, 십의 자리가 2, 일의 자리가 3이라는 식으로 LLM에게 상세하게 명시하는 방식이다. 이렇게 하면 모델이 불필요한 토큰에 주의를 뺏기는 것을 막고 "신호(Signal)를 증폭"시킬 수 있다. 실제로 이러한 방식으로 프롬프트를 입력했을 때 Flash 모델이 상위 모델인 Pro보다 더 높은 정확도를 기록했다.

이 그래프의 파란 선(Flash+Polynomial)을 보자. 덩치가 훨씬 큰 Pro(주황색) 조차 일관성을 잃고 무너지는 지점에서, 작은 모델인 Flash는 태깅이라는 '구조' 덕분에 끝까지 살아남았다. 이는 지능의 성패에 끼치는 '전략적 통제'의 영향력과 필요성을 느끼게 하는 장면이다.

우리도 알던 것

이 논문은 환각과 구체적인 프롬프트의 작성이 주는 효과를 예측 모델로 만들고 시각화했다 점에서 의미가 있다. 하지만 여기서 제시한 해법은 사실 AI 서비스 개발 일선에선 이미 다 알고 있는 사실이다. 프롬프트를 명확하게 작성하라는 대원칙과 그 세부적인 기술과 노하우는 이미 많은 곳에서 공유되고 있다. 숫자를 자릿수별로 태깅해서 알려주라는 해법은 사용자의 입력을 JSON으로 구조화해서 LLM에 전달하는 방식과 유사하다.

사용자의 입력을 JSON으로 구조화하는 기법은 이미 많이 사용하고 있다.

그렇다 해도 매번 이런 방식으로 프롬프트를 작성하는 것은 매우 불편하다. 개발자들은 언어모델과 사용자 사이엔 여러 프로그램 장치들을 두어 이런 불편함을 해결한다. 앞서 연구진이 말한 방식도 숫자를 태깅하는 프로그램의 필요롤 일깨우는 것이다. 이미 github 어딘가에 관련 소스코드가 있을지도 모르겠다.

논문 저자들은 정확한 토큰의 출현을 위해 '위치 태그'라는 해법을 제시했고, 우리 개발자들은 진작에 'JSON'이라는 유사한 방식을 활용해 왔다. 이름은 다르지만 본질은 같다. 확률의 바다에서 표류하는 기저핵(LLM)에게 '네가 가야 할 좌표는 여기'라고 닻을 내려주는 행위. 그것이 바로 외부의 추가 장치가 필요한 이유이고, 인간의 뇌에서는 전두엽이 맡고 있는 역할이다.

나는 이전 글에서 FAP와 시상피질 혹은 전두엽의 얘기를 꺼낸 바 있다. 결국 오늘 이 논문을 인용하면서 말하고자 하는 바는 올바른 주의를 통한 정확한 FAP의 호출이 중요하다는 것이다. 인용한 논문 저자들의 제안은 따지고 보면 어텐션의 잡음을 최소화하기 위해 인간 전두엽을 활용하잔 이야기다. 귀찮아 보이지만 개발자들은 프로그램 장치를 추가해 사람의 직접적 관여를 줄일 수 있다. 이런 방식으로 이 기계의 시상피질의 극히 일부를 구현하다 보면 우리는 보다 복잡한 것들을 만들어 낼지도 모른다.

그리고 멀티에이전트의 개념도 이 연장선상에서 이해해야 한다. 적절한 FAP 사용의 전략과 전술을 외부의 워크플로우에 맡기는 것, 나는 그것이 멀티에이전트의 가장 중요한 개념이라고 생각한다.

FAP(Fixed Action Pattern, 고정 행위 패턴)란?
특정한 자극이 주어졌을 때 본능적으로 튀어나오는 고정된 행동 양식이다. 인간의 뇌에서는 기저핵(Basal Ganglia)에 저장되며, 뇌신경과학자 로돌프 이나스는 '인간의 언어' 또한 고도로 훈련된 운동 패턴인 FAP의 일종으로 정의한다. 진화는 생존 확률을 높이기 위해 수만 가지 FAP를 과잉 생산했지만, 이 중 현재 상황에 가장 적합한 것을 '선택'해야 하는 압력이 생겼다. 이 선택과 통제를 위해 출현한 것이 바로 '자아(전두엽/시상피질계)'이다.

생물학적 접근의 이유

인공지능의 파운데이션 모델의 개발은 돈과 시간이 많이 드는 일이다. 결국 자원이 일부 기업에 집중될 수밖에 없다. 하지만 이들이 아주 사소한 부분까지 아우르는 모든 필요를 깨달을 수 있을까? 필요의 깨달음은 현장에 있다. 다양한 불만, 개선사항, 목표, 합의는 오직 사용자와 만나는 지점에서 실체적 모습을 갖출 수 있다. 그리고 이 복잡하고 다양한 환경적 요구에 따른 직접적 개선은 생태계의 질서를 따라 진행될 것만 같다. 몇몇은 도태되고, 살아남고, 합쳐지고 결국 그런 방향이 아니겠는가?

오늘날 비행기를 만드는 데 있어서 새의 날갯짓은 별다른 참고 모델이 되지 않는다. 두 개체의 비행 메커니즘은 완전히 달라졌다. 어느 방향으로도 레퍼런스가 되질 못한다. 이런 측면에서 보면 인공지능과 사람의 천연 지능의 비교를 통해 이해를 얻고자 하는 행위가 억지스러울지도 모르겠다.

하지만 우리는 스스로 날 수 있게 되기 전까지 새를 무던히도 관찰해 왔었다는 사실을 기억해야 한다. 인공지능이 결과적으론 구조와 기능 측면에선 완전히 다른 존재일 가능성은 매우 높다. 하지만 새의 경우처럼 우리는 좀 더 나은 이해를 위해서라도 천연 지능과의 비교를 당장 멈출 수는 없을 것이다. 분명 여기에서도 많은 힌트를 얻을 수 있기 때문이다.

문을 열기 위한 FAP

사람들의 행동을 반영하자면 Push와 Pull 모두 '밀다'로 번역하는 게 옳지 않나?

여기 당겨야지만 열리는 문이 있다. 하지만 많은 사람들이 밀다가 문의 저항으로 인한 충격을 몸으로 받아낸다. 올바른 FAP는 분명 문을 당겨야 하는 것이지만 어째서 밀었던 것일까? 첫 번째 문을 밀어야 한다는 내적 표상이 생성되었다. 문을 당기고 미는 표상은 확률적으로 생성되겠지만 미는 게 편하다는 점에서 가중치가 더 높을 것이다. 이 표상 생성은 뇌 안에서 일어났고 세계를 오독했다. 우린 이것이 인공지능에서 발현되면 환각이나 오류라고 부른다. 두 번째 '당기시오'라는 문구가 충분한 주의를 끌지 못했다. 분명 시각은 문을 당기라는 안내를 포함한 눈앞의 전체 이미지를 입력했는 데도 말이다. 앞서 라주와 네트라팔리는 결국 어텐션에 노이즈가 끼는 것이 문제라고 했다. 이 두 가지의 문제에 있어서 해법은 같다. 필요한 기호에 대한 충분한 주의(attention)를 일깨우는 것.

결국 올바르게 작동하는 지능이란 표상을 맺는 내부의 완결성과 외부의 감각으로 느끼는 사실에 의한 표상의 조정 이 둘의 순환 결합이라는 생각이 든다. 한쪽에만 집중해서는 환각의 문제를 극복할 수 없을 것이다.

그리고 어떤 면에선 이해란 모순의 지각이다. 인공지능의 영역을 벗어난 여러 텍스트들과 연결은 합치보다는 더 많은 모순을 드러낼 것이다. 하지만 모순을 안다는 것, 그리고 해법을 찾아본다는 것, 하다가 안되면 포기하는 것, 그것이 앎의 시작일 것이라고 본다. 결국 두개골에 갇혀 어둠에 둘러싸인 뇌의, 밀어야지 열린다는 표상만으로는 팔만 다칠 뿐이다. 눈도 필요하고 귀도 필요하다. 보고, 읽고, 들어야 할 것이 넘쳐나는 시대이니까.