KVTC와 TurboQuant 가 말하는 것과 시장이 들은 것의 격차
구글이 TurboQuant를 공개하자 메모리 반도체 주가가 흔들렸다. 시장의 해석은 단순했다. AI가 메모리를 덜 쓰게 되면, 메모리 반도체 수요도 줄어든다는 것이었다. 2026년 3월 말 주요 반도체 기업 주가가 동반 약세를 보였고, "AI 효율 개선이 메모리 시장의 상단을 꺾는다"는 우려가 이어졌다. 하지만 이 반응은 기술을 너무 단순하게 읽은 결과다.
논의의 중심에 있는 KV 캐시부터 정리할 필요가 있다. KV 캐시는 AI가 대화를 이어갈 때, 지금까지 오간 맥락을 기억하기 위해 붙잡아 두는 메모리다. AI와 회의를 한다고 생각하면 된다. AI는 바로 앞의 발언과 논점을 기록하기 위해 메모장을 펼쳐 둔다. 참고 자료가 많아지거나 대화가 길어질수록 이 메모장이 두꺼워진다. 저장 공간이 커지고, 내용을 찾는 데 시간이 걸리면서 전체 효율이 떨어진다.
이것은 단순한 불편이 아니라 실질적인 병목이다. KV 캐시가 GPU 메모리를 많이 차지하면, 메모리가 부족해져서 다른 저장소로 데이터를 밀어내거나(오프로딩), 이미 계산한 것을 다시 계산해야 하는 상황이 생긴다. 엔비디아의 KVTC 논문이 짚는 핵심 병목이 바로 이것이다. 대화가 길어지고 프롬프트가 재사용될수록, KV 캐시는 GPU에서 가장 비싼 자원인 메모리를 점점 더 많이 잡아먹는다.
엔비디아 연구진이 제안한 KVTC는 이 문제를 "회의록을 더 똑똑하게 적는 방식"으로 푼다. 회의에서 모든 발언을 그대로 받아 적으면 기록이 너무 길어진다. KVTC는 중요한 안건은 자세히 적고, 덜 중요한 부분은 간단히 적어서 전체 흐름은 유지하면서 기록량을 줄인다. 여기에 PCA(주성분 분석)라는 통계 기법을 쓴다. 어떤 내용이 대화 전체에서 큰 흐름을 이루는지를 가려내는 방식이다. 자주 등장하고, 길게 이어지고, 여러 방식으로 반복 언급되는 내용일수록 더 중요하게 남기고, 그렇지 않은 부분은 대략적으로 기록한다. KVTC 논문은 이 방식으로 KV 캐시를 최대 20배, 특정 경우에는 40배 이상까지 압축했다고 보고한다.
구글의 TurboQuant는 결이 다르다. KVTC가 기록의 밀도를 조절하는 방식이라면, TurboQuant는 기록의 표기 자체를 바꾸는 방식이다. 지금까지 각 항목을 길게 서술형으로 적었다면, TurboQuant는 항목은 그대로 두고 최고·중간·최하 같은 짧은 등급표로 먼저 정리한 뒤, 판단에 영향을 줄 수 있는 사항만 짧게 메모한다.
전셋집을 고를 때로 비유하면 감이 온다. 예전에는 전세금, 교통환경, 자연환경 같은 항목을 각각 길게 서술형으로 적었다. TurboQuant 방식에서는 항목은 그대로 두되, 각 항목을 압축된 등급표처럼 짧게 표시하고 필요한 메모만 덧붙인다. 전세금은 '최하(은행 선순위 대출 있음, 차압 기록 있음)', 교통은 '중간(마을버스 환승 필요, 출근시간 혼잡)', 사용자에게 중요하지 않은 자연환경은 '최하'처럼 간단히 정리하는 식이다. 긴 설명을 짧은 등급표와 예외 메모로 바꾸는 것이다. 구글은 이 방식으로 KV 메모리를 최소 6배 줄였고, H100 기준 attention 계산 성능은 최대 8배 높였다고 설명했다.
시장은 이 기술들을 보자마자 "메모리를 덜 쓰게 되니 메모리 반도체 수요도 줄겠다"라고 받아들였다. 여기에 큰 착각이 있다. 한 번의 AI 추론에 필요한 메모리 양이 줄어드는 것과, 시장 전체에서 메모리 반도체 수요가 줄어드는 것은 전혀 같은 말이 아니다. 특히 AI처럼 사용 방식이 아직 고정되지 않았고, 사용자층과 과금 방식이 계속 넓어지고 있는 산업에서는 더 그렇다. 모건 스탠리가 메모리주 급락 직후 반론을 낸 이유도 여기에 있다. 구글의 압축 기술이 KV 캐시 병목에는 의미가 있지만, HBM 전체 수요를 무너뜨리는 신호로 보기 어렵다는 것이었다. 오히려 효율 개선이 더 많은 사용을 부른다고 봤다.
진짜 질문은 "메모리가 덜 팔릴까"가 아니다. 효율이 높아진 기술이 어떤 종류의 수요를 새로 만들어낼 것인가 — 이 질문에 답하려면, 지금 AI 시장이 어디쯤 와 있는지부터 봐야 한다.
다음 편에서는 시장의 오해와 시장 전망에 대해서 정리할 예정이다.
#구글 #엔비디아 #AI반도체 #메모리반도체 #HBM #SSD #AI메모리 #KV캐시 #메모리압축 #TurboQuant #KVTC