눈덩이 토큰 효과의 정체
이런 경험, 한 번쯤 있으시죠.
대화 초반에는 AI가 척척 잘 따라오더니, 어느 순간부터 이상해집니다. 분명히 앞에서 "반말체로 써줘"라고 했는데 갑자기 존댓말로 돌아오고, "전문 용어 쓰지 말라"고 했는데 어느새 용어가 잔뜩 들어와 있습니다. 심지어 처음에 정해뒀던 방향 자체를 뒤집어버리기도 하죠.
그럼 화가 납니다. "이 AI, 머리가 나쁜 거 아냐?"
저도 그렇게 생각했습니다. 한동안은 AI가 불량품인 줄 알았습니다.
아닙니다. 당신 탓도, AI 탓도 아닙니다. 구조의 문제입니다.
AI는 대화를 기억하는 게 아닙니다.
정확히 말하면, AI는 매 순간 대화창에 담긴 내용 전체를 한꺼번에 보면서 답을 만듭니다. 당신이 처음에 한 말, 중간에 한 말, 방금 한 말을 동시에 펼쳐놓고 읽는 겁니다. 이 공간을 컨텍스트 윈도우라고 합니다.
쉽게 말하면 AI의 책상입니다.
책상이 넓으면 많은 서류를 올려놓을 수 있습니다. 하지만 책상에도 한계가 있습니다. 서류가 너무 많아지면? 오래된 것부터 바닥으로 내려놓을 수밖에 없습니다. 바닥으로 내려간 서류는 AI가 더 이상 볼 수 없습니다.
처음에 "반말체로 써줘"라고 했던 그 지시가, 어느 순간 바닥으로 내려가버린 겁니다.
그 순간부터 AI는 그 지시를 모르는 채로 답을 만듭니다. [1]
여기서 1편, 2편과 연결됩니다.
대화창에 쌓이는 건 내 질문만이 아닙니다. AI의 답변도, 그 답변에 대한 내 수정 요청도, 또 그 수정에 대한 AI의 답변도 — 전부 토큰으로 쌓입니다.
2편에서 말씀드렸죠. 100원짜리 질문을 하면 수정 요청이 반복된다고. 그 수정 요청 하나하나가 대화창을 채워갑니다. 처음엔 여유로웠던 책상이 점점 좁아집니다. 그리고 어느 순간, 처음 지시들이 하나씩 바닥으로 떨어지기 시작합니다.
이게 눈덩이 토큰 효과입니다.
그렇다면 실제로 얼마나 대화하면 AI가 흔들리기 시작할까요.
서비스마다 다릅니다. 하지만 제가 직접 써보면서 느낀 대략적인 기준이 있습니다.
짧은 질문과 답변이 오가는 가벼운 대화라면 꽤 오래 버팁니다. 그런데 긴 문서를 첨부하거나, 긴 답변을 여러 번 받거나, 수정 요청이 반복되면 생각보다 빨리 한계에 다가옵니다. 어떤 날은 열 번도 안 됐는데 AI가 앞 내용을 잊어버리는 것 같은 느낌이 들었습니다.
그 느낌이 맞습니다. 실제로 잊어버린 겁니다. [2]
두 가지입니다.
첫째, 처음 질문을 잘 짜야 합니다. 2편에서 드린 4가지 구조(역할·목적·형식·금지)로 처음부터 정확하게 주문하면 수정 반복이 줄어들고, 토큰 쌓임도 늦춰집니다.
둘째, 대화창을 적절히 관리해야 합니다. 한 대화창에서 모든 걸 해결하려 하지 않는 게 좋습니다. 주제가 바뀌거나, 새로운 작업을 시작할 때는 새 대화창을 여는 게 훨씬 낫습니다. 깨끗한 책상에서 다시 시작하는 겁니다.
이 두 번째 이야기는 나중에 더 자세히 다루겠습니다. 지금은 일단 하나만 기억하세요.
대화창은 AI의 기억 공간이다. 그 공간은 유한하다.
오늘 가장 오래 이어온 AI 대화창을 열어보세요.
스크롤을 맨 위로 올려서, 처음에 했던 지시사항을 확인해보세요. 그리고 AI가 지금도 그 지시를 따르고 있는지 살펴보세요. 만약 흔들려 있다면, 그건 대화창이 한계에 가까워졌다는 신호입니다.
새 대화창을 여세요. 처음 지시사항을 다시 붙여넣고 시작하세요. AI가 다시 살아납니다.
도대체 그 책상이 얼마나 큰 건가요? ChatGPT, Claude, Gemini — 내가 쓰는 서비스는 얼마나 버틸 수 있나요? 요금제마다 다른가요?
다음 편에서 숫자로 비교해드립니다.
참고 자료 [1] Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS — https://arxiv.org/abs/1706.03762
[2] Anthropic, Claude model overview — https://docs.anthropic.com/en/docs/about-claude/models/overview