학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 문장은 삭제했습니다. 이번에는 UncoverAlpha 뉴스레터에 올라온 글을 정리한 것입니다.
엔비디아가 칩 ASIC 스타트업 그록(Groq)을 약 200억 달러에 ‘인수’(사실상 인력 확보 목적의 인수)한다는 소식이 전해졌다. 우리 매체를 오래 구독해 온 이들이라면 그록에 대해 여러 차례 언급한 것을 알 것이다. 1년 조금 넘게 전, 나는 그록 총괄 매니저이자 내 친구인 Sunny Madra와 단독 인터뷰를 진행한 바 있다.
많은 이들이 엔비디아가 왜 200억 달러 규모의 ASIC 스타트업을 인수(공식 용어는 ‘라이선스’)했는지 추측하는 가운데, 내 생각을 덧붙이고 한다. 그록 인수는 엔비디아에게 매우 전략적이며 시장에 중요한 신호를 보내는 조치라고 믿기 때문이다.
그록 칩은 GPU/TPU와 어떻게 다르나
먼저, 엔비디아가 그록을 인수한 이유가 CEO 조너선 로스가 구글 TPU 창립자 중 한 명이기 때문이라는 주장은 배제하자. 그록의 칩(Language Processing Unit, LPU)은 TPU나 GPU와 매우 다르다. GPU, TPU, LPU의 차이점을 간단히 설명해보자.
GPU
GPU 아키텍처는 원래 그래픽스(한 번에 수천 개 픽셀을 계산)를 위해 설계됐다. AI에서는 거대 언어 모델(LLM)을 대규모 병렬 처리 작업으로 취급한다.
병목 현상: GPU는 프로세스 코어 외부에 위치한 HBM(고대역폭 메모리)에 의존한다.. GPU가 단어(토큰)를 계산할 때마다 외부 메모리에서 모델 가중치를 “가져와야” 한다. 이로 인해 프로세서가 데이터 도착할 때까지 빈둥대는 “메모리 벽”(memory wall)이 발생한다. 이 모델은 학습부터 게임까지 모든 작업을 수행할 수 있을 만큼 매우 다재다능하지만, 텍스트 생성의 특정 순차적 특성에 대해서는 “완벽하게” 효율적인 건 아니다.
TPU
TPU는 텐서 연산(Tensor math, 선형 대수학)을 위해 특별히 설계된 ASIC(Application-Specific Integrated Circuit)이다. 시스톨릭 어레이(Systolic Array)를 사용한다. 데이터를 프로세서 그리드를 통해 펌프하는 '심장'(heart)을 상상해 바라. 데이터가 그리드에 진입하면 메인 메모리로 되돌아갈 필요 없이 한 프로세서에서 다음 프로세서로 전달된다.
로직: TPU는 방대한 배치 데이터 처리에서 GPU보다 훨씬 효율적이다. 이는 기계에 수십억 개 데이터 포인트를 한 번에 공급하는 학습 및 복잡한 추론(GPU와 유사)에서 매우 효과적이다. 그러나 단일 사용자가 질문을 하는(추론) 경우에는 여전히 지연 시간 문제를 겪는 경우가 많다.
Groq LPU
Groq LPU는 GPU, TUU와 완전히 차별화된다. HBM을 전혀 사용하지 않는다. 대신 칩 실리콘에 직접 내장된 SRAM(Static Random Access Memory)을 사용한다. 가장 큰 차이점은 속도다. SRAM은 GPU에 탑재된 HBM보다 최대 100배 빠르다. 데이터가 칩 위에 바로 존재하기 때문에 '페치 시간'(fetch time)이 전혀 발생하지 않는다.
GPU에서는 하드웨어가 데이터 처리 시점을 결정한다(확률적). LPU에서는 소프트웨어/컴파일러가 10억분의 1초마다 모든 데이터 위치를 정확히 결정한다(결정론적). 마치 완벽하게 타이밍이 맞는 조립 라인처럼, 아무도 부품을 기다릴 필요가 없다. LPU에서 독특한 점은 Groq이 먼저 자동화 컴파일러를 설계한 후 칩을 설계했다는 것이다. 구글에서 TPU를 개발했던 조너선(Jonathan)이 소프트웨어가 가장 큰 골칫거리임을 알고 있었고, 스타트업인 Groq이 하루 종일 저수준 어셈블리 루틴(커널)을 작성하는 1만명 엔비디아 소프트웨어 엔지니어들과 경쟁할 수 없었기 때문이다. 자동 컴파일러 덕분에 LPU용 커널 최적화를 수동으로 작성할 필요가 없다. 모든 토큰 경로가 미리 결정되어 있기 때문이다.
그렇다면 LPU 강점은 어디에 있을까? 거대 언어 모델(LLM)은 한 단어씩 텍스트를 생성한다. LPU는 이러한 단어들을 ‘컨베이어 벨트’ 아키텍처를 통해 연속적으로 처리하도록 설계되었기에, Groq가 초당 수백 개 토큰을 생성하는 반면 GPU는 50개 달성에도 어려움을 겪는 것이다..
하지만 LPU가 일부 사람들이 생각하는 'GPU 킬러'는 아니다. 일부 사용 사례에서는 강점이지만 다른 경우에는 약점이 되는 LPU 특징은 메모리 용량이 매우 작다는 것이다. 엔비디아 H200 GPU조차 141GB HBM3e 메모리를 탑재하고 있는 반면 Groq LPU 칩 하나에는 고작 230MB SRAM만 있다. 230MB로는 작은 AI 모델조차 저장하기 부족하기 때문에, 단일 모델을 실행하기 위해 수백 개 LPU 칩을 연결해야 한다. 예를 들어 Llama-3 70B를 최대 속도로 실행하려면 수백 개 LPU(여러 서버 랙)가 필요할 수 있지만, 동일한 모델을 단 두 개 또는 네 개 엔비디아 GPU로 작은 박스 하나에 담을 수 있다. 최신 AI 모델들이 필요로 하는 메모리 요구 사항을 처리하려면 너무 많은 LPU 칩이 필요하기 때문에 초기 하드웨어 투자가 크고 데이터 센터 공간도 GPU 기반보다 훨씬 더 넓어진다.
LPU는 결정론적 특성(소프트웨어가 실행 전 모든 계산을 미리 매핑해야 함)을 지녀 동적 워크로드나 기반 아키텍처 변경(트랜스포머에서 다른 모델로 전환)을 처리하기가 더 어렵다.
하지만 LPU에도 장점들이 있다. 단일 Groq LPU 시스템(GroqRack)은 단일 엔비디아 서버보다 구입 비용이 더 비싸지만, 트래픽이 매우 많은 경우 운영 비용이 훨씬 저렴할 수 있다. GPU에서 초저지연을 달성하려면 “배치 크기 1”(“Batch Size of 1, 한 번에 한 사용자 요청만 처리)을 사용해야 한다. 이는 메모리 이동을 기다리는 동안 대부분 처리 능력이 유휴 상태로 남아 있기 때문에 GPU가 토큰당 엄청나게 비싸진다. 그러나 LPU는 배치 크기 1을 위해 설계되었다. 내부 “조립 라인”을 거의 100% 가동 상태로 유지하면서 초당 300~500 토큰을 처리한다.
그리고 매우 중요한 에너지 측면이 있다. LPU는 외부 HBM에 전원을 공급할 필요가 없기 때문에 수행하는 실제 연산에 대해 근본적으로 더 에너지 효율적이다. 외부 HBM에서 GPU 코어로 데이터를 이동하는 데는 비트당 약 6 피코줄(6 picojoules)이 소요된다. Groq 로컬 SRAM에서 데이터를 가져오는 데는 비트당 0.3 피코줄만 소모된다. 아키텍처 수준에서 Groq은 추론을 위한 GPU보다 토큰당 약 10배 더 에너지 효율적이다.
하지만 앞서 논의한 바와 같이, LPU는 운영 비용은 저렴하지만 공간, 네트워킹 케이블, 물리적 유지보수 비용이 더 많이 든다는 단점이 있다. 그렇다면 엔비디아는 왜 Groq를 인수하기로 결정했을까?
엔비디아의 Groq 인수 전략
엔비디아가 Groq를 인수한 주요 이유는 다섯 가지다.: 에너지 병목, HBM 병목, CoWoS 병목, 수냉식 데이터센터 병목, 그리고 경쟁 측면이다. 이전 섹션에서 LPU와 GPU 에너지 효율성 차이에 대해 논의했지만, 현재 엔비디아는 성장에 있어 에너지가 제한 요인이 되는 시대에 접어들었다. 특히 단순한 추론 워크로드에 대해 더 높은 에너지 효율성을 제공하는 두 번째 옵션이 중요하다. 맥락을 더하자면, Groq LPU는 액체 냉각이 필요하지 않다는 점이 이번 거래 핵심 요소다.
전 세계적으로 액체 냉각 데이터센터보다 공기 냉각 데이터센터가 훨씬 더 많다. 엔비디아 최신 Blackwell을 비롯한 향후 제품들은 최대 성능을 목표로 하기 때문에 대부분 액체 냉각 방식으로 설계될 것이다. 클라우드 업계에서는 액체 냉각으로 전환할 수 없는 많은 공기 냉각 데이터 센터가 방치되고 있다 실제로 최근 Groq CEO 로스와 인터뷰에서 그는 Groq가 LPU를 호스팅할 대규모 유럽 데이터 센터 프로젝트를 수주했다고 언급했는데, 해당 데이터 센터는 액체 냉각 시설로 전환할 수 없어 임대 계약 연장을 원하지 않은 하이퍼스케일러가 비워둔 공간이었다.
엔비디아의 이상적인 세계에서는 모든 데이터 센터가 액체 냉각 방식으로 운영되길 바라겠지만, 현실은 다르다. 안정적인 수자원 확보가 종종 문제이며 시간이 소요되기 때문이다. 엔비디아가 액체 냉각 데이터센터에 의존하는 것은 성장 문제로 이어질 수도 있다.
액체 냉각은 복잡성을 가중시켜 많은 데이터 센터 운영사들이 어려움을 겪기 때문이다.(최근 코어위브(CoreWeave) 지연 사례가 대표적이다.). 따라서 Groq은 엔비디아가 향후 판매하고 단기 수익을 더 확보할 수 있는 공랭식 옵션을 추가한다. Groq LPU가 더 많은 데이터센터 공간을 차지한다는 사실은 문제가 되지 않는다. 활용도가 낮은 공랭식 데이터센터에서 사용할 수 있기 때문이다. 내 생각에 엔비디아 공랭식 옵션은 중요하다. 엔비디아에 강력한 대안인 AWS 트레이니움(Trainium)과 같은 많은 경쟁사들이 공랭식 칩이기 때문이다.
이번 거래에서 또 다른 핵심 측면인 HBM 병목으로 넘어가 보자. 구글 TPU, AMD MI400, AWS 트레이니움 3·4 등이 점차 경쟁력을 높이며 HBM을 더 많이 '소비'함에 따라 HBM은 이미 한동안 병목 현상을 보여왔고, HBM 공급 상황은 점점 더 악화되고 있다.
2026년분 HBM은 이미 매진되었으며, 2027년분도 얼마나 오래 걸릴지 진짜 의문이다. SK하이닉스, 삼성, 마이크론 등 세 업체 역시 향후 생산 능력 확장에 적극적이지 않은데, 이는 해당 산업이 주기적이며 최근 과잉 생산이 발생했음을 인지하고 있기 때문이다. 이제 더 많은 칩 설계 기업들이 HBM 생산 능력을 놓고 치열하게 경쟁함에 따라 마이크론, SK하이닉스, 삼성의 협상력은 더욱 강화될 것이다. 엔비디아가 LPU와 같은 비복잡 추론 워크로드에 대한 실행 가능한 옵션을 확보하는 것은 매우 긍정적이다.LPU는 HBM을 전혀 사용하지 않기 때문이다. 다시 말해, 엔비디아 전략은 가용 HBM에 100% 제약을 받지 않으면서도 컴퓨팅 유닛 매출 성장과 판매를 지속하는 것이다.
또 다른 전략적 이점은 Groq 칩이 구형 공정 노드에서도 우수한 성능을 발휘한다는 점이다. 그 이유는 SRAM에 있다: 외부 메모리가 없기 때문에 고속 구현을 위해 최대 고밀도 트랜지스터가 필요하지 않다. 실제로 Groq 최신 세대 LPU는 GlobalFoundries 14nm 공정 노드에서 생산된다. 삼성에서 신형 노드로 전환 중이지만, TSMC가 아닌 구형 노드에서도 성능 좋은 칩을 생산할 수 있다는 점은 엔비디아 같은 기업에 또 다른 큰 이점이다. 이는 TSMC와 CoWoS라는 또 다른 병목 현상을 우회하기 때문이다. Groq 최첨단 칩이 TSMC 외부에서 생산될 가능성은 B300이나 베라 루빈보다 훨씬 높다. 따라서 이번 움직임으로 엔비디아는 블랙웰이나 베라 루빈 등이 직면한 제약 요인에 직면하지 않는 새로운 성장 경로를 열었다.
이제 마지막 포인트인 경쟁에 대해 살펴보자. 엔비디아는 HBM-에너지-액체 냉각-CoWoS((Chip-on-Wafer-on-Substrate, 여러 개 고성능 칩을 한 패키지로 묶기 위해 웨이퍼 위에 칩을 올린 뒤 기판에 연결하는 TSMC 첨단 반도체 패키징 기술) 병목이 시장을 압박하고 컴퓨팅 자원에 심각한 부족을 초래할 경우, 고객과 경쟁사들이 이러한 병목 현상을 우회할 대안을 찾기 시작할 것임을 잘 알고 있다. 동일한 요인들로 인한 공급망 병목 현상이 없는 그록은 그 대안으로 가장 유력한 후보다. 이번 '인수'에 앞서 그록은 빠르게 성장하고 있었으며, 더 중요한 것은 그 생산 능력이 급속히 확대되고 있었다는 점이다. 따라서 메타나 마이크로소프트가 Groq를 인수해 제약이 있는 GPU 경로 밖에서 대안을 열기 전에, 엔비디아가 직접 결단을 내린 셈이다.
이것이 엔비디아에게 의미하는 바는 무엇인가?
엔비디아가 GPU가 모든 AI 워크로드에 최적의 하드웨어가 아니라는 점을 인정한 것인가? 그렇다. 동시에 엔비디아는 자사 GPU가 수년간 완전히 매진될 것으로 예상하며, 병목 현상 외부에서 성장하고자 한다는 신호를 보내고 있다. 추론 수익 증가는 마진 구조 변화도 의미한다. 엔비디아 추론 마진은 그록 CEO조차 최근 인정한 바와 같이 높지 않을 것이다.투자자 입장에서 이 의미는 무엇일까? 앞으로 며칠 내로 2026년 전망과 내가 투자하거나 주목하는 가장 흥미로운 기업들을 공개할 예정이다. 엔비디아 Groq 인수는 새로운 공급망이 열리면서 내 목록에 확실히 새로운 하위 분야를 추가했다.