TurboQuant가 보여주는 소프트웨어의 반격
NVIDIA 주가가 2.4% 빠졌다. AMD는 5.5%, 마이크론은 4.6%, TSMC는 4.5%. 이틀 사이에 일어난 일이었다. 미국 연준이 금리를 올린 것도, 중국이 수출을 제한한 것도 아니었다. 구글 리서치가 논문 한 편을 올렸기 때문이다. 알고리즘 하나가 반도체 시가총액 수십조를 날렸다.
논문 이름은 TurboQuant다.
LLM(대형 언어 모델)이 긴 대화를 처리할 때 중간 계산 결과를 저장해두는 공간이 있다. KV 캐시(Key-Value Cache)라고 한다. 대화가 길어질수록 이 캐시는 폭발적으로 커지고, AI 추론(inference) 비용의 상당 부분이 여기서 나온다.
TurboQuant는 이 캐시를 기존 32비트에서 3비트로 압축하는 알고리즘이다. 메모리 사용량이 6배 줄고, NVIDIA H100 GPU에서 연산 속도는 8배 빨라진다. 정확도 손실은 없다고 구글은 밝혔다 (MarkTechPost, 2026-03-25).
핵심은 단순히 압축을 잘하는 게 아니라, 기존 방식처럼 데이터셋에 맞게 사전 조정(calibration)이 필요 없다는 점이다. 어떤 모델에도 바로 적용할 수 있다.
HBM(고대역폭 메모리, High Bandwidth Memory)은 AI 데이터센터의 핵심 부품이다. 삼성과 SK하이닉스가 수조 원을 들여 생산량을 늘리고 있는 바로 그 메모리다. AI 붐의 수혜를 가장 직접적으로 받아온 곳이다.
TurboQuant가 메모리 수요를 6분의 1로 줄일 수 있다면, 이 전제가 흔들린다. 시장은 그렇게 계산했다. 그래서 메모리 기업들이 가장 많이 빠졌다 (SCMP, 2026-03-25).
나는 이 뉴스를 보면서 두 가지 방향이 동시에 가능하다고 생각했다.
첫 번째는 베어 케이스다. 효율이 올라가면 수요가 줄어드는 방향이다. AI 인프라에 투자를 주저하던 기업들이 가격이 내려가길 기다리며 구매를 미룰 수 있다. 같은 GPU로 더 많은 일을 할 수 있으니 새 칩을 살 이유가 줄어든다. 단기적으로는 메모리 수요 성장이 둔화될 수 있다.
두 번째는 불 케이스다. 경제학에 제번스 역설(Jevons Paradox)이라는 개념이 있다. 19세기에 석탄 엔진의 효율이 개선되자, 석탄 소비가 오히려 늘었다. 더 효율적이 되자 더 많이 쓰게 된 것이다. 지금도 비슷한 일이 벌어질 수 있다. VentureBeat는 AI 추론 비용이 절반 이상 줄면, 지금껏 비용 때문에 AI 도입을 망설이던 중소기업들이 대거 진입할 것이라고 봤다. 모건 스탠리도 비슷한 시각이다. 비용이 6분의 1로 줄면 AI 시장 자체가 커질 수 있다고.
나는 불 케이스에 더 기울어져 있다. 다만 그 과정이 매끄럽지 않을 것이라는 점은 분명하다. 단기적으로 HBM 투자 논리는 재검토가 필요하고, 그 재검토가 시가총액에 먼저 반영됐다.
이번 사건에서 내가 진짜 주목한 건 주가가 아니다. 논문 한 편이 수십조 규모의 하드웨어 산업을 흔들었다는 패턴 자체다.
그동안 AI 붐의 논리는 이랬다. 더 좋은 모델을 만들려면 더 많은 컴퓨팅이 필요하고, 그러려면 더 좋은 칩이 필요하고, 그러니 반도체는 계속 오른다. 직선적인 논리였다.
TurboQuant는 그 직선에 변수를 하나 추가했다. 소프트웨어 효율화가 하드웨어 수요 성장을 잠식할 수 있다는 것. 실제로 이미 DeepSeek가 올해 초 비슷한 충격을 줬다. 중국 스타트업이 훨씬 적은 컴퓨팅으로 경쟁력 있는 모델을 만들 수 있다는 걸 증명했을 때도 NVIDIA는 급락했다.
어쩌면 이건 하나의 알고리즘 논문이 아니라, 앞으로 이런 일이 계속 반복될 것이라는 신호다. 반도체 투자 논리의 전제, "AI 붐은 곧 칩 수요 붐"이라는 등식이 조금씩 복잡해지고 있다.