GPU 이후의 AI 하드웨어
구글이 지난 11월 공개한 Gemini 3 모델은 지금까지 출시된 LLM 중 가장 뛰어난 성능을 자랑하는 것으로 평가받고 있습니다. 특히, 벤치마크상 Deep Think 모드를 통해 복잡한 문제를 단계별로 쪼개서 논리적으로 풀어가는 능력은 다른 모델들이 보여주지 못한 수준의 ‘사고력’을 기반으로 합니다. 또한 이미지와 음성 등 멀티모달 데이터 처리 수준이 이전 모델들보다 현저히 상승된 것을 알 수 있습니다.
그렇다면 구글은 어떻게 이렇게 짧은 시간 안에 가파른 성능 도약을 이뤄낼 수 있었을까요? 물론 LLM 아키텍처의 개선과 학습 기법의 발전이라는 요인도 존재합니다. 하지만 수십조 단위의 파라미터를 안정적으로 학습·추론해야 하는 현재의 LLM 환경에서, 모델의 성능을 결정짓는 핵심 요소는 더 이상 알고리즘만이 아닙니다. 그 이면에는 이를 뒷받침하는 컴퓨팅 인프라, 즉 하드웨어와 시스템 설계가 자리 잡고 있습니다.
이 글에서는 Gemini 3의 성능 도약 뒤에 숨은 또 하나의 핵심 축, 바로 구글의 자체 AI 가속기 ‘TPU(Tensor Processing Unit)’에 주목해보고자 합니다. TPU는 과연 엔비디아 GPU의 대안이 될 수 있을까요? 그리고 구글은 어떻게 이러한 하드웨어를 직접 설계하고 운영할 수 있었을까요? 이를 통해 LLM 시대의 경쟁 구도가 어디로 향하고 있는지 함께 살펴보겠습니다.
TPU(Tensor Processing Unit)는 구글이 자사 서비스와 대규모 머신러닝 워크로드를 위해 직접 설계한 전용 AI 가속기입니다. CPU가 범용 연산을, GPU가 병렬 연산을 잘 처리하도록 발전해 왔다면, TPU는 딥러닝—그중에서도 행렬 곱셈과 텐서 연산에 특화된 하드웨어라고 볼 수 있습니다. 특히 트랜스포머 기반 LLM에서 핵심이 되는 대규모 행렬 연산을 빠르고 효율적으로 처리하도록 구조 자체가 설계되어 있는 점이 특징입니다.
TPU의 가장 큰 특징은 성능 그 자체보다도 효율성에 있습니다. 동일한 연산을 수행할 때 GPU 대비 더 낮은 전력 소모로 더 많은 연산양을 처리하도록 최적화되어 있으며, 이는 곧 대규모 모델 학습과 추론에서 비용 절감과 스케일 확장성으로 직결됩니다. 수십조 단위의 파라미터를 다루는 최신 LLM 환경에서는 단순한 연산 성능보다, 얼마나 안정적으로 그리고 경제적으로 시스템을 확장할 수 있는지가 더욱 중요해지는 것입니다.
또한 TPU는 단일 칩 성능에만 초점을 맞추지 않는다는 점에서 기존의 GPU와 다릅니다. 여러 개의 TPU를 고속 인터커넥트로 연결해 하나의 거대한 컴퓨팅 유닛처럼 동작하도록 설계되었으며, 이는 초대규모 모델 학습에 필수적인 데이터 병렬성·모델 병렬성을 효과적으로 지원합니다. 여기에 구글의 소프트웨어 스택—XLA 컴파일러, JAX, Tensor Flow—과의 긴밀한 통합은 하드웨어의 잠재력을 최대한 끌어올리는 역할을 합니다.
이처럼 TPU는 단순히 “GPU의 대체재”라기보다는, 구글이 LLM 시대를 대비해 수년 전부터 준비해 온 수직 통합형 AI 인프라의 핵심이라 할 수 있습니다. Gemini 3와 같은 모델에서 보여준 급격한 성능 도약은, 모델 아키텍처의 발전뿐 아니라 이러한 TPU 중심의 하드웨어 전략이 뒷받침되었기에 가능했던 결과라고 할 수 있습니다.
구글이 TPU를 만들 수 있었던 가장 근본적인 이유는, 일반적인 반도체 회사가 아니라 ‘AI 워크로드의 최대 수요자’였기 때문입니다. 검색, 유튜브, 지메일, 광고 추천 시스템 등 구글의 거의 모든 핵심 서비스는 오래전부터 머신러닝 모델 위에서 동작해 왔습니다. 다시 말해, 구글은 어떤 연산이 병목이 되는지, 어떤 형태의 연산이 실제 서비스 성능과 비용을 좌우하는지를 누구보다 정확히 알고 있는 회사였기 때문에 가능했습니다.
이러한 배경은 “GPU를 더 많이 사는 것”이 아니라, 아예 문제에 맞는 하드웨어를 직접 만드는 전략적 선택으로 이어졌습니다. GPU는 그래픽 처리에서 출발한 범용 병렬 연산 장치인 반면, 구글이 필요로 했던 것은 딥러닝—특히 행렬 곱셈 중심의 연산을 대규모로, 반복적으로, 그리고 최대한 효율적으로 처리할 수 있는 장치였습니다. TPU는 이처럼 실제 내부 워크로드에서 반복적으로 등장하는 연산 패턴을 기준으로 설계된 결과물입니다.
또 하나의 결정적인 요소는 소프트웨어부터 하드웨어까지 이어지는 수직 통합 구조입니다. 구글은 Tensor Flow와 JAX 같은 머신러닝 프레임워크, XLA 컴파일러, 대규모 분산 학습 시스템을 모두 자체적으로 운영해 왔습니다. 이는 하드웨어 설계 단계에서부터 “어떤 연산이 어떻게 컴파일되고, 어떻게 분산 실행되는지”를 전제로 칩을 설계할 수 있음을 의미합니다. TPU는 단독으로 존재하는 칩이 아니라, 구글 내부 소프트웨어 스택과 함께 설계된 하나의 시스템인 셈입니다.
마지막으로, 구글의 클라우드 인프라도 TPU 개발을 가능하게 한 중요한 토대였습니다. TPU는 처음부터 외부 판매용 제품이 아니라, 자사 데이터센터에서 대규모로 운용될 것을 전제로 만들어진 내부 인프라였습니다. 냉각, 전력, 네트워크, 장애 대응까지 모두 통제 가능한 환경이 있었기에, 단일 칩 성능보다 전체 시스템 효율을 극단적으로 끌어올리는 설계가 가능했다. 이는 일반 반도체 기업이나 스타트업이 쉽게 따라올 수 없는 영역입니다.
결국 구글이 TPU를 만들 수 있었던 이유는 단순한 기술력의 문제가 아. 막대한 AI 수요, 실제 워크로드에 대한 깊은 이해, 소프트웨어–하드웨어–데이터센터를 아우르는 수직 통합 역량이 동시에 갖춰졌기에 가능한 선택이었습니다. TPU는 그 결과물이며, 동시에 구글이 LLM 시대에 주도권을 잡기 위해 쌓아온 시간의 총합이라고 볼 수 있습니다.
TPU가 곧바로 엔비디아 GPU를 완전히 대체할 수 있느냐는 질문에 대한 답은 아직은 ‘아니다’에 가깝습니다. GPU는 이미 방대한 생태계와 범용성을 갖춘 표준에 가깝고, 연구·개발·배포 전반에서 여전히 가장 유연한 선택지이기 때문입니다. 그러나 중요한 점은, TPU가 GPU를 따라잡고 있는지가 아니라 구글이라는 거대한 플레이어가 GPU에 전적으로 의존하지 않는 선택지를 현실로 만들었다는 사실입니다.
LLM 시대의 경쟁은 이제 더 이상 모델 아키텍처나 파라미터 수만으로 설명되지 않습니다. 어떤 하드웨어 위에서, 어떤 소프트웨어 스택과 함께, 어떤 규모로 안정적으로 운영할 수 있는지가 곧 모델의 성능과 직결되는 시대가 되었습니다. 그런 의미에서 TPU는 하나의 칩이 아니라, AI 경쟁의 무게 중심이 ‘알고리즘’에서 ‘시스템 전체’로 이동하고 있음을 보여주는 상징적인 사례라 할 수 있습니다.