편집된 기억, 생성된 환각: 메멘토로 본 AI

AI 디코딩 #001: 레너드의 문신, AI의 토큰

by 나인테일드울프

영화는, 감독이 편집을 완료하는 순간 하나의 완성된 세계로 고정되는 반면, 현실의 세계는 시시각각 변한다. 그리고 잘 만들어진 영화는 그 의미를 품는 그릇이 크다. 변하는 세상이 던지는 새로운 시각을 받아들일 수 있는 영화, 그것이 어쩌면 오랜 시간 동안 사랑받는 명작의 충분조건일 것이다. 여기 그런 영화가 한 편 있다.


크리스토퍼 놀런 감독의 영화 『메멘토(Memento, 2000)』는 선행성 기억상실증에 걸린 주인공이 등장한다. 그는 폴라로이드 사진이나 문신, 메모를 이용해 자신의 행적을 기록한다. 그리고 기억이 초기화될 때마다 이 흔적들을 단서 삼아 행적을 유추하고, 다음 행동을 이어 나간다.


이 흥미로운 설정 때문에, 지금 AI 시대에 영화는 새롭게 읽힌다.


Stateless

Christopher Nolan_Memento_01.png 아무것도 기억하지 못해 멍한 눈빛. 이 영화에서 자주 볼 수 있다.


영화는 첫 시퀀스에서 영상을 되감기 하는 연출로 특유의 사서구조를 천명한다. 그리고 바로 시작하는 흑백화면 속의 주인공, 자신이 어디에, 얼마나, 왜 있었는지 알지 못한다.


이 영화 속 주인공 레너드 셀비(가이 피어스)는 사고 이후의 새로운 기억을 유지할 수 없다. 그는 자신의 상태에 대해 직접 이렇게 말한다.


"대화가 길어지면 이야기를 시작한 이유도 잊고, 다음에 만나도 기억하지 못할 거예요."


IT에서는 ‘stateless’라는 표현을 많이 쓴다. 이런 표현이 붙는 시스템들은 접속 상태를 유지하지 않거나 이전의 요청이나 입력값을 기록하지 않는다. 인터넷에서 가장 많이 사용하는 HTTP/HTTPS도 stateless 프로토콜이다. 그리고 현재 AI 중 가장 주목도가 높은 LLM 또한 stateless이다. 이 말은 AI가 사용자의 요청, 질문, 그리고 자신의 답변 등의 대화 이력을 기억하지 않는다는 말이다.


우리가 사용하는 거대 언어 모델(LLM)의 처지는 『메멘토』의 주인공과 비슷하다. 이 모델은 단어의 출현 확률을 계산해 문장을 생성하지만, 무언가를 기억할 수 없으며, 심지어 자신이 방금 한 말조차 기억하지 못한다.


Memory

Christopher Nolan_Memento_02.png 그가 사용하는 수단은 사진, 메모, 문신이다. 중요한 정보는 문신으로 몸에 새기는데, 정작 SG1371U로 기록해서 SG13 7IU의 실체를 제대로 가리키지도 못한다.


『메멘토』의 주인공, 레너드 셀비는 이러한 자신이 상태를 극복하고, 원하는 복수를 완수하기 위해 기억을 대체할 수 있는 수단을 강구한다. 영화에서 나오는 수단은 크게 세 가지. 먼저 폴라로이드 사진은 그가 장소나 인물의 외양을 기록하기 위해 사용한다. 그리고 사진의 여백이나 메모지를 이용해 그것과 관련된 내용, 의미 등을 기록한다. 마지막으로 중요한 단서들은 몸에 문신으로 새겨 넣는다. 잊지 않기 위한 몸부림이다.


그리고 새로운 의식을 떠올릴 때마다 앞서 기록한 단서들을 이용해 장소, 사물, 인물에 대한 의미와 자신의 행적을 유추한다. 말인 즉, 그는 일시적인 해석을 그때그때마다 생성해 내는 것이다.


현존하는 AI 모델도 이와 비슷한 방법으로 외부의 전달받은 대화 이력을 바탕으로 이어질 다음 문장을 생성한다. 응용 서비스의 중심에 있는 모델은 입력 텍스트에 반응해 문장을 일회성으로 생성하기 때문에, 대화가 이어지는 것처럼 보이려면 외부의 보조 수단이 필요하다.


개발자들은 사용자의 이전 요청과 AI의 응답, 즉 대화의 이력을 '메모리'라는 것을 이용해 매번 모델에 주입하는 방식을 사용한다. 메모리란, 대화 이력을 기록하고 다시 꺼내오는 영역 혹은 기능을 말한다. 대화 이력을 모델 외부의 저장소에 자동으로 저장하고, 필요할 때 이를 모델에 전달해 준다. 여기서 관건은 얼마나 효율적으로 압축하고, 어떻게 대화의 맥락을 최대한 유지하느냐이다.


Chain of Thought

Christopher Nolan_Memento_03.png 도드가 결박당한 모습(결과)이 먼저 나오고, 그가 레너드를 위협하고 공격하는 장면(원인)은 후에 보여 준다.


영화 『메멘토』는 구조 자체가 하나의 거대한 질문이다. 영화는 첫 장면에서 결말(살인)을 먼저 보여주고, 시간이 거꾸로 흐르며 '도대체 왜 이 상황이 벌어졌는가'라는 원인을 신(Scene) 단위로 보여준다. 관객은 참혹한 결과를 먼저 목격한 뒤, 그 이면에 숨겨진 논리를 역추적해야 한다. 이는 마치 범죄 현장을 보존하고 증거를 수집하는 수사관의 시선과도 같다.


이 독특한 구조는 오늘날 LLM의 'Chain of Thought(CoT, 생각의 사슬)' 기술을 시각화한 것만 같다. CoT는 AI에게 질문을 던졌을 때, AI가 단박에 결과를 내놓기보다 그 최종 답변에 도달하기 위한 중간 논리(원인과 과정)를 단계별로 생성해 내는 과정이다. 사용자는 AI가 내놓은 답변이 의심스러울 때 이 '생각의 사슬'을 들여다본다. 그곳에는 AI가 참조한 이전 타임라인(논리적 전제)들이 줄줄이 나열되어 있다. 마치 관객이 레너드의 과거를 한 씬(Scene)씩 되짚어 보며 그의 행동 원리를 파악하려는 것처럼 말이다.


영화 후반부에 가면 레너드가 남긴 메모들이 사실은 스스로 왜곡했거나 조작된 기억일 수 있다는 게 드러난다. 레너드가 새미 젠키스의 이야기를 조작하듯, AI도 없는 사실을 있는 것처럼 논리 단계에 포함할 때가 있다.


따라서 CoT는 추론의 품질을 높이기 위한 기술이기도 하지만, 동시에 잘못된 해석의 경로를 감시하기 위한 기록장치여야 한다. 크리스토퍼 놀런 감독이 관객에게 레너드의 편집된 기억을 검증하게 만들었듯, 우리는 AI가 생성한 논리의 사슬을 끊임없이 의심하고 검증해야 한다.


Multimodality

image.png 테디에 대한 해석은 전면의 사진이 아니라 후면의 텍스트에 달려있다.


레너드의 주머니 속에는 항상 폴라로이드 사진들이 들어 있다. 하지만 그에게 사진 그 자체는 불완전한 정보일 뿐이다. 사진 속 남자가 나를 보고 웃고 있다고 해서 그가 친구인지, 아니면 나를 속이려는 적인지는 사진만으로 알 수 없다. 시각 정보는 풍부하지만 모호하다. 그래서 레너드는 사진 밑 여백에 반드시 펜으로 메모를 남긴다.


"그의 거짓말을 믿지 마라(Don't believe his lies)."


이 텍스트가 적히는 순간, 웃고 있는 남자의 이미지는 '친절한 타인'에서 '경계해야 할 적'으로 의미가 고정된다. 이미지가 맥락을 제공한다면, 텍스트는 그 맥락에 대한 '최종 판결(Decision)'을 내린다. 이것은 레너드가 혼란스러운 세상에서 의미를 잃지 않기 위해 사용하는 가장 강력한 닻(Anchor)이다.


이러한 방식은 오늘날의 멀티모달(Multimodal) AI가 작동하는 방식과 놀라울 정도로 흡사하다. 최신 AI 모델들은 텍스트뿐만 아니라 이미지, 오디오를 동시에 이해한다. 하지만 AI가 이미지를 분석하는 과정을 들여다보면, 결국 시각적 특징(Pixel)을 언어적 개념(Token)으로 변환하여 추론한다.


우리가 AI에게 사진을 보여주며 '이 상황이 위험한가?'라고 물으면, AI는 이미지 속 요소들을 인식한 뒤, 방대한 텍스트 데이터를 통해 학습된 논리 구조 안에서 위험성을 판단한다. 레너드가 사진을 보고 메모를 읽어야 비로소 행동을 결정할 수 있듯, AI에게도 이미지는 입력값(Raw Data)이고, 텍스트는 그 이미지를 해석하고 규정하는 논리의 골격이 된다.


결국 영화 속 레너드에게나 현실의 AI에게나, 세상을 보는 눈은 이미지일지 몰라도 세상을 이해하는 뇌는 텍스트로 이루어져 있다.


Algorithm, Vector

Christopher Nolan_Memento_05.png 그가 생각하는 자신의 체계는 왼쪽처럼 말끔하고 규율적인 것이겠지만, 실제 작동하는 체계(오른쪽)는 다르다.


기억이 10분마다 리셋되는 혼돈 속에서 레너드를 지탱하는 것은 스스로 정한 엄격한 규율이다. 그는 기억은 믿을 수 없지만, 시스템(체계)은 믿을 수 있다고 말한다. 자신이 "정한 체계가 삶의 나침반"이라고 강조한다.


그가 말하는 규율은 단순한 메모 습관이 아니다. 그것은 그가 과거 유능한 보험 조사관으로 일하며 체득한, 정보를 수집하고 진위를 가리는 '절차적 지식(Procedural Knowledge)'이다. 낯선 호텔 방에서 눈을 떠도 그는 당황하지 않고 사진을 찾고, 펜을 꺼내며, 상황을 분석한다. 구체적인 사건(에피소드)은 잊었지만, 문제를 해결하는 알고리즘(Algorithm)은 그의 몸에 깊이 각인되어 작동하고 있는 것이다.


이 지점에서 우리는 AI, 특히 거대 언어 모델(LLM)의 작동 원리인 '벡터(Vector)''임베딩(Embedding)'을 떠올리게 된다.


앞서 말했듯 AI는 대화 내용을 기억하지 못하는(Stateless) 존재다. 하지만 AI는 수조 개의 텍스트를 학습하며 단어와 단어 사이의 확률적 관계, 즉 언어의 지도를 고차원의 벡터 공간에 압축해 놓았다. 이를 '프리트레이닝(Pre-training)'이라 부른다.


마치 레너드가 '보험 조사관 시절의 경험'을 통해 세상을 분석하는 틀을 갖춘 것처럼, AI는 '학습된 가중치(Weights)'라는 거대한 벡터 지도를 내재화하고 있다. 사용자가 질문을 던지면, AI는 이 거대한 벡터 공간 안에서 가장 적절한 의미의 좌표를 찾아낸다.


레너드가 셔터를 누르고 펜을 돌리는 습관처럼, AI 역시 입력된 토큰에 대해 가장 높은 확률로 연결될 다음 토큰을 계산해 낸다. 레너드의 '직업적 본능'이 그를 이끄는 나침반이듯, AI에게는 이 수학적 확률 분포가 정답을 향해 나아가는 나침반인 셈이다. 기억은 사라져도, 패턴을 해석하는 '함수'는 남아 계속해서 작동한다.


피부 면적의 한계와 단절

image.png 앞 쪽은 이미 많이 썼다. 다음은 어디에 새겨야 하나? 등 쪽이라면 레너드에겐 뒤를 보라고 지시하는 문신이 하나 더 필요하다.


앞서 AI의 기억을 대체하기 위한 메모리라는 기능 혹은 공간에 대해 언급했다. 하지만 세계 불특정 다수를 대상으로 사용자별로 메모리 용량을 크게 만들기 어렵다. 이 메모리가 가진 근본적인 문제 중 하나는 그 면적의 협소함에 있다.


레너드에게 문신을 새길 수 있는 피부의 면적에는 한계가 있다. 그리고 이는 현재 AI 모델이 가진 '콘텍스트 윈도(Context Window)'의 한계와 정확히 일치한다. AI가 한 번에 처리하고 기억할 수 있는 텍스트의 양(토큰)은 정해져 있다. 서비스 제공자들은 불특정 다수의 사용자에게 무한한 메모리를 제공할 수 없기에, 대화가 길어지면 필연적으로 '기억의 밀어내기'가 시작된다.


개발자들은 이 문제를 해결하기 위해 지난 대화의 핵심 뼈대만 요약해 남기는 '압축 기술'을 사용한다. 하지만 요약은 필연적으로 정보의 손실(Loss)을 동반한다. '맥락은 유지하되 디테일은 버린다'는 원칙은 위험하다. 레너드가 기억하지 못하는 사실, 소실된 사진이 그가 자랑하는 체계를 완전히 무용지물로 만들었다.


레너드처럼 AI도 대화가 길어질수록 문제는 심각해진다. 최신 정보(최근 대화)는 생생하게 남아있지만, 오래된 정보(대화 초반의 설정)는 점점 윈도 밖으로 밀려나 소멸한다. 사용자가 답변에 맞춰 꼬리를 무는 대화를 이어갈 때는 이를 눈치채지 못할 수도 있다.


하지만 사용자가 갑자기 대화 초반의 이야기를 다시 꺼내는 순간, 균열은 발생한다. 사용자는 모든 맥락을 기억하고 있는데, AI는 낯선 사람처럼 반응한다. 방금까지 친근하게 공감하던 AI가 갑자기 사무적인 말투로 돌변하거나, 한국어로 대화하다 느닷없이 영어로 답변을 내놓기도 하고, 심지어 존댓말과 반말을 오가는 '자아의 붕괴'를 보여준다.


이 기괴한 부조화의 순간, 우리는 당혹감을 느낀다. 하지만 안심해도 좋다. 이것은 악령이 들린 『엑소시스트(The Exorcist, 1973)』의 한 장면이 아니다.


image.png 모니터에 성수 뿌린다고 해결될 문제는 아니다.


상황의 부재 혹은 왜곡

이전에 쓴 『화차』에 대한 글에서 움베르토 에코의 맥락과 상황에 따른 기호 해석의 체계를 간단하게 언급한 바 있다. 그 이론을 그림으로 설명하면 아래와 같다.

image.png MSR(Modello Semantico Riformulato, 수정된 의미 모델). 에코는 기호의 해석을 맥락(cont)과 상황(circ) 순환 결합으로 보고 있다.


레너드가 기억을 대체하려고 하는 작업은 장소, 인물, 사건에 대한 즉각적 해석이다. 그가 체계가 중요하다고 말하는 것은 이 해석이 온전할 것이라는 믿음에 근거한다. 하지만 그가 스스로 메모한 기호들을 해석하는 방식은 단어와 단어가 논리적으로 연결되는 '맥락적 선택(contextual selection, cont)'에만 의존하는 방식이다. 해석에 있어서 '상황적 선택(circumstantial selection, circ)'이란 그 기호들이 실제 현실의 물리적 조건과 결합하는 것을 말한다.


image.png 이 술병은 처음에 집어 들 땐 무기였지만, 기억을 잃으면서 '마시면 취하는 것'이 된다. 이 단순한 기호 하나의 해석에도 상황의 부재는 결정적 왜곡을 불러일으킨다.


레너드에겐 상황이 절대적으로 부재하거나 왜곡된 채 작용한다. 도드가 모텔을 습격하기 직전의 장면은 이 기호 해석의 한계를 직접적으로 보여준다. 레너드가 처음에 술병을 집어든 이유는 습격에 대비하기 위해서다. 하지만 기억을 잃은 후 바로 술병을 바라보면서 하는 생각은 '난 안 마신 것 같은데'이다. 습격을 대비한 상황이 작용하지 않으면 술병-무기의 해석은 사라지고, 술-'마시면 취하는 것'의 맥락만 남는다.


결국 그가 중요하다고 생각하는 그 체계는 이 상황의 부재와 왜곡 앞에서 무용지물이 된다. 그리고 이것은 AI에게도 동일하게 적용할 수 있는 원리다.


AI는 수조 개의 텍스트를 학습해 단어 간의 확률적 결합, 즉 맥락(을 구성하는 데는 탁월하다. 하지만 AI도 레너드와 같이 기억이 없다. 따라서 현재의 상황을 인과에 맞춰 구성하지 못한다. 기록된 텍스트를 평면적으로 해석할 뿐이다.


AI가 거짓말(Hallucination)하는 중요한 이유 중 하나는 기억의 부재와도 관련성이 높다. AI는 '상황의 부재'를 유려한 '맥락'으로 덮어버린다. 현실을 모르면서도 언어적 논리만 완벽하게 구사하여, 마치 그 상황을 아는 것처럼 행동하는 기만이다.


레너드는 문신과 메모, 자료의 맥락만으로 테디를 '존 G'로 지목했다. 여기서 그가 두 명 이상의 '존 G'를 이미 살해했다는 상황은 전혀 작용하지 않는다.


결론: 우리는 왜 '레너드'를 만드는가

결국 『메멘토』가 명작으로 남은 이유는, 그것이 단순히 기억상실증 환자의 스릴러여서가 아니라, '불완전한 존재가 자신을 정의하기 위해 얼마나 필사적인가'를 보여주었기 때문이다.


지금 우리가 마주한 AI는 레너드의 완벽한 '디지털 쌍둥이'다. 둘 다 내재된 기억(State) 없이, 눈앞에 주어진 단서(Context)만으로 매 순간의 논리를 완성해야 하는 운명이다. 흥미로운 건, 레너드가 자신의 삶을 지탱하기 위해 '새미 젠키스'라는 가짜 기억을 조작했듯, AI 역시 질문자의 의도에 부합하기 위해 태연하게 환각(Hallucination)을 만들어낸다는 점이다. 우리는 지금 가장 이성적일 것이라 기대했던 기계에게서, 기억을 잃은 인간의 가장 위태로운 사고방식을 목격하고 있다.


2000년의 레너드는 몸에 문신을 새기며 "기억은 믿을 수 없지만 기록은 믿을 수 있다"라고 말했다. 2024년의 우리는 수많은 파라미터로 이루어진 AI를 보며 다시 묻는다. '기록된 논리는 과연 진실인가?' 변하는 세상 속에서 『메멘토』는 여전히 유효하다. 아니, AI 시대에 이르러 비로소 이 영화의 진짜 해석이 시작되었다고 볼 수 있다.


의도한 바는 아니었겠지만, 이 영화는 오늘날 AI 모델의 완전한 메타포가 되었다.



image.png 『메멘토(Memento, 2000, 리마스터링, 2020)』


수, 토 연재
이전 07화화차: 피에 젖은 나비의 이야기