메모리 기능은 AI를 똑똑하게 만드는 게 아니라 멍청하게 만들고 있다
ChatGPT, Claude, Gemini 등 주요 LLM 서비스들은 앞다투어 "메모리" 기능을 도입했다. 사용자의 이전 대화를 기억하고, 선호도를 저장하고, 과거 맥락을 유지한다. 언뜻 보면 완벽한 기능이다. 나를 알아보는 AI, 매번 처음부터 설명하지 않아도 되는 AI.
그런데 이 기능을 켜는 순간, 당신은 성능을 대가로 지불하고 있다.
기술적으로 메모리는 마법이 아니다. LLM은 본질적으로 무상태(stateless)다. "기억한다"는 것은 과거 대화에서 추출한 정보를 매 대화의 시스템 프롬프트에 다시 주입하는 것에 불과하다. ChatGPT의 경우 "Model Set Context"라는 섹션에 타임스탬프가 붙은 메모리 항목들이 삽입되고, 여기에 사용자가 볼 수 없는 "User Knowledge Memories"라는 AI 생성 요약까지 추가된다. 이 모든 것이 당신이 "오늘 날씨 어때?"라고 물을 때도 매번 주입된다.
핵심은 단순하다. 컨텍스트를 품지 않은 순수 모델이 가장 똑똑하다.
이건 직관이 아니라 연구 결과다. 2025년 10월 발표된 논문 "Context Length Alone Hurts LLM Performance Despite Perfect Retrieval"은 5개의 오픈소스 및 상용 LLM을 대상으로, 입력 길이만 늘려도 — 심지어 추가된 토큰이 의미 없는 공백이고, 정답이 질문 바로 앞에 있어도 — 성능이 13.9%에서 최대 85%까지 하락한다는 것을 증명했다.
길이 자체가 성능 저하 요인이다. 내용과 무관하게.
비유하자면 이렇다. 시험을 보는데, 시험지 위에 지난 학기 필기노트를 펼쳐놓고 그 위에서 문제를 풀라는 것이다. 필기노트가 이번 시험과 관련이 있으면 다행이지만, 대부분은 관련이 없다. 그런데 그 노트가 시야에 들어오는 순간, 뇌는 그것을 무시하는 데도 에너지를 쓴다.
LLM도 마찬가지다. 에든버러 대학과 NVIDIA의 공동 연구(NeurIPS 2025)는 관련된 시사점을 보여준다. Transformer가 추론 중 보관하는 내부 메모리(KV 캐시)를 8배 축소했더니, 수학, 과학, 코딩 성능이 동일하거나 향상되었다. 이 연구는 챗봇의 메모리 기능과 직접적으로 같은 것은 아니지만, 핵심 원리는 동일하다 — 모델이 처리해야 할 정보가 적을수록 남은 정보에 더 집중한다. 연구를 이끈 Edoardo Ponti 박사의 말: "모델이 더 빠르게 추론하면서도 품질은 같았다."
불필요한 정보를 덜어낼수록 더 똑똑하다. 이건 모순이 아니라 아키텍처의 본질이다.
Transformer의 핵심인 Softmax Attention은 수학적으로 합이 1이 되는 고정된 어텐션 예산을 가진다. 토큰이 100개면 각 토큰에 평균 1%의 주의력이 배분된다. 여기에 메모리로 500개의 토큰이 추가되면? 같은 예산을 600개가 나눠 써야 한다. 핵심 질문에 할당되는 어텐션이 물리적으로 줄어든다.
Barbero et al.(2024)은 이를 "표현적 붕괴(representational collapse)"로 정의했다. Softmax 어텐션에서는 시퀀스 길이가 증가할수록 토큰 표현이 서로 구별 불가능해지며, 신호가 지수적으로 희석된다.
이것은 모델의 "집중력 문제"가 아니다. 아키텍처의 수학적 제약이다.
"LLMs Can Be Easily Distracted"(Shi et al., 2023)는 수학 문제에 관련 없는 정보를 넣으면 정확도가 급격히 떨어진다는 것을 보여줬다. 2025년 후속 연구 GSM-DC는 이를 정량화했다. 방해 정보가 늘어날수록 정확도는 멱법칙(power-law)으로 하락하며, 추론 깊이가 깊을수록 하락이 가팔라진다. Grok-3-Beta의 스텝 정확도는 방해 정보 15개에서 43%에서 19%로, GPT-4.1은 26%에서 2%로 추락했다.
메모리 기능이 주입하는 "이 사용자는 파이썬 개발자", "반려견 이름은 코코", "하프문 베이에 산다"는 정보는 자바스크립트 디버깅을 요청할 때 방해 정보다. 모델은 이것을 "무시"하지 못한다. 모든 입력을 동등하게 처리하는 것이 Transformer의 본성이기 때문이다.
Simon Willison(오픈소스 개발자, Django 공동 창시자)은 2025년 5월 블로그에서 ChatGPT가 자신의 반려견 사진에 Half Moon Bay 표지판을 합성해 넣은 사례를 공개했다. 이유? 관련 없는 대화에서 저장된 위치 정보가 이미지 생성에 오염된 것이다. 이것이 컨텍스트 오염의 실체다.
메모리는 모델에게 일종의 페르소나를 강제한다. "이 사용자는 초보자니까 쉽게 설명해"라는 메모리가 있으면, 당신이 이미 해당 분야에서 성장했더라도 모델은 계속 기초 수준의 답변을 내놓는다.
이 문제는 "Proactive Interference"(2025) 논문에서 정량화되었다. LLM의 검색 정확도는 과거 정보(덮어쓰여진 값)가 누적될수록 로그-선형적으로 0을 향해 감소한다. 심지어 정확한 값이 질문 바로 앞에 있어도, 모델은 이전에 덮어쓰인 오래된 값을 불러온다. 프롬프트 엔지니어링으로는 이 현상을 제한적으로만 완화할 수 있었다. 아키텍처 수준의 제약이라는 뜻이다.
메모리는 과거에 고정되어 있지만, 당신의 필요는 매 순간 변한다.
흩어져 있는 연구 결과를 한 곳에 모아보면 그림이 명확해진다.
마지막 행이 특히 중요하다. 128K 컨텍스트 윈도우를 가진 GPT-4조차 약 12,800토큰을 넘어가면 성능이 떨어지기 시작한다. 메모리가 차지하는 수백~수천 토큰은 이 한정된 "실효 용량"을 잠식한다.
맞다. 매번 "나는 파이썬 개발자고, FastAPI를 쓰고 있고, 프로젝트 구조는 이렇고..."를 반복하는 건 귀찮다. 하지만 그 편리함의 대가를 알아야 한다.
공정하게 말하자면, 최신 대형 모델(GPT-4o급)은 방해 정보에 대한 내성이 강해지고 있다. Context Discipline(2025) 연구에 따르면 Llama-3.1-70B는 15,000단어의 방해 정보에도 97.5~98.5%의 정확도를 유지했다. 또한 메모리가 주입하는 토큰은 통상 수백 개 수준으로, 수만 토큰을 다루는 연구들과는 규모가 다르다.
그러나 여기에는 세 가지 함정이 있다. 첫째, 그 정확도 유지에는 지연 시간 719% 증가라는 비용이 따른다. 둘째, 모든 사용자가 최대 규모의 모델을 쓰는 것이 아니다. 소형 모델일수록 방해 정보에 취약하다. 셋째, 메모리 토큰이 수백 개 "밖에" 안 된다고 해도, BABILong 벤치마크가 보여주듯 GPT-4조차 공칭 128K 용량의 약 10%에서부터 성능 저하가 시작된다. 한정된 실효 용량에서 수백 토큰은 무시할 수 있는 양이 아니다.
어차피 중요한 질문을 할 때는 충분한 컨텍스트를 직접 제공해야 한다. 메모리에 의존하면 "아 이 정도는 AI가 알겠지"라는 안일함이 생기고, 그 결과 부정확한 답변을 받는다.
Andrej Karpathy(전 Tesla AI 총괄, OpenAI 공동 창립 멤버)는 2025년 6월 이 개념을 정리했다. "프롬프트 엔지니어링의 시대는 끝났고, 컨텍스트 엔지니어링의 시대가 왔다." 그의 멘탈 모델: LLM은 CPU이고, 컨텍스트 윈도우는 RAM이다. 당신의 일은 그 RAM에 딱 필요한 코드와 데이터만 적재하는 것이다.
메모리 기능은 이 원칙의 정반대다. 당신이 통제하지 않은 데이터가 RAM에 상시 적재되어 있다.
성능만의 문제가 아니다. 메모리는 공격 표면이기도 하다.
ZombieAgent(Radware, 2026년 1월): ChatGPT의 메모리와 커넥터를 무기화한 지속적 프롬프트 인젝션 공격
Tainted Memories(LayerX, 2025년 10월): CSRF 기반 악성 메모리 주입
Command Memories(Tenable, 2025년 3월): SearchGPT를 통한 간접 프롬프트 인젝션으로 메모리에서 사용자 개인정보 탈취
당신의 메모리에 공격자가 악성 지시사항을 심을 수 있다. 그리고 그 지시사항은 이후 모든 대화에 자동으로 주입된다. 메모리가 꺼져 있으면 이 공격 벡터 자체가 사라진다.
메모리 기능을 끄고, 대신 이렇게 하라.
컨텍스트를 명시적으로 제공하라. "너는 내가 파이썬 개발자인 걸 알잖아"가 아니라, 매번 필요한 정보를 직접 넘긴다. Anthropic의 컨텍스트 엔지니어링 가이드도 같은 원칙을 강조한다: "모델에게 모든 것을 기억하라고 강요하지 마라. 대신 필요할 때 확실하게 접근할 수 있도록 핵심 정보를 외부에 저장하라."
Custom Instructions를 전략적으로 사용하라. 솔직히 말하면, Custom Instructions도 시스템 프롬프트에 주입되는 토큰이므로 메모리와 같은 메커니즘이다. 차이는 통제권에 있다. 어떤 내용이 들어가는지 정확히 알고 있고, 작업에 따라 켜고 끌 수 있다. 메모리처럼 AI가 자동으로 판단해서 축적하는 것이 아니라, 당신이 직접 큐레이션한 입력이다.
새 대화를 두려워하지 마라. 대화를 이어가는 것이 항상 좋은 게 아니다. Context Branching 연구(2025)에 따르면 관련 없는 컨텍스트가 섞이면 정확도가 유의미하게 하락하며, 맥락을 분리하면 품질이 개선된다. 주제가 바뀌면 새 대화를 여는 것이 모델 성능에 유리하다.
프로젝트 단위로 컨텍스트를 관리하라. 모든 맥락을 하나의 메모리에 섞지 말고, 프로젝트별로 분리하라. 업무, 취미, 개인 생활의 컨텍스트가 뒤섞이는 것(context collapse)을 방지할 수 있다.
메모리 기능은 편의성을 제공하지만, 구조적으로 전환 비용을 만든다. 당신의 선호도, 대화 이력, 맥락이 특정 서비스에 쌓일수록, 다른 서비스로 이동할 때 그 개인화 투자를 잃게 된다. 대부분의 서비스가 메모리 내보내기를 지원하지 않는다는 점도 이 구조를 강화한다.
성능과 편의 사이에서 당신이 무엇을 선택할지는 자유다. 하지만 그 선택이 정보에 기반한 선택이어야 한다.
순수한 모델에게, 명확한 질문을, 충분한 컨텍스트와 함께 던지는 것. 이것이 LLM에서 최고의 성능을 끌어내는 가장 확실한 방법이다. 연구가 그렇게 말하고, 아키텍처가 그렇게 설계되어 있고, 숫자가 그것을 증명한다.
지금 당장 설정에 들어가서 메모리 기능을 꺼라. 당신의 AI가 더 똑똑해질 것이다.
Liu et al., "Lost in the Middle: How Language Models Use Long Contexts" (2023, TACL 2024)
"Context Length Alone Hurts LLM Performance Despite Perfect Retrieval" (arXiv:2510.05381, 2025)
Shi et al., "LLMs Can Be Easily Distracted by Irrelevant Context" (2023)
"How Is LLM Reasoning Distracted by Irrelevant Context?" GSM-DC (arXiv:2505.18761, 2025)
"Unable to Forget: Proactive Interference Reveals Working Memory Limits in LLMs" (arXiv:2506.08184, 2025)
"Context Rot: How Increasing Input Tokens Impacts LLM Performance" (Chroma Research)
Barbero et al., Representational Collapse in Softmax Attention (2024)
Dynamic Memory Sparsification, University of Edinburgh & NVIDIA (NeurIPS 2025)
"Context Discipline and Performance Correlation" (arXiv:2601.11564, 2025)
BABILong Benchmark (2025)
Simon Willison, "I really don't like ChatGPT's new memory dossier" (2025)
Andrej Karpathy, Context Engineering (2025)
"Context Branching" (arXiv:2512.13914, 2025)
Anthropic, "Effective Context Engineering for AI Agents" (2025)
Radware, ZombieAgent (2026); LayerX, Tainted Memories (2025); Tenable, Command Memories (2025)