보이지 않는 전쟁 제3회
51GB/s와 2,800GB/s.
같은 시대에 존재하는 두 메모리 기술의 대역폭입니다. 앞의 숫자는 여러분의 노트북에 들어가는 DDR5 메모리, 뒤의 숫자는 NVIDIA Vera Rubin AI 가속기에 탑재된 HBM4의 대역폭입니다. 격차는 약 55배. 같은 "메모리"라는 이름을 달고 있지만, 이 둘은 전혀 다른 세계의 기술입니다.
지난 회에서 GPU가 AI의 왕좌에 오른 이유를 살펴봤습니다. 병렬 연산이라는 구조적 적합성, CUDA라는 20년 생태계, 세대마다 기하급수적으로 진화하는 하드웨어. 삼중 해자는 견고합니다.
그러나 이 왕좌에는 치명적 약점이 있습니다. AI의 진짜 병목은 연산 속도가 아니라 메모리 대역폭입니다.
비유를 들겠습니다. 세계 최고의 셰프가 있습니다. 1초에 100가지 요리를 만들 수 있는 능력이 있습니다. 그런데 식재료가 1초에 10가지씩만 배달됩니다. 셰프는 90%의 시간을 재료를 기다리며 놀고 있을 수밖에 없습니다.
이것이 AI 시대의 현실입니다. GPU(셰프)의 연산 능력은 지난 20년간 약 60,000배 빨라졌습니다. 그런데 메모리(식재료 배달)의 대역폭은 같은 기간 약 100배 증가하는 데 그쳤습니다.[3-1] 프로세서가 연산하는 속도와 메모리가 데이터를 전달하는 속도 사이의 격차가 점점 벌어지고 있습니다. 이것을 메모리 월(Memory Wall)이라 부릅니다.
이 문제가 특히 심각한 이유는 AI 워크로드의 특성 때문입니다. ChatGPT나 Claude 같은 대규모 언어 모델(LLM)은 추론할 때 수십억 개의 파라미터를 메모리에서 연산 코어로 반복해서 이동시킵니다. 토큰 하나를 생성할 때마다 이 과정이 반복됩니다. 실제로 LLM 추론에서 파라미터를 메모리에서 코어로 이동하는 데 소비되는 시간과 에너지가 실제 수학 연산보다 더 큽니다.[3-2]
이 문제의 뿌리는 1945년까지 거슬러 올라갑니다. 컴퓨터의 아버지 폰 노이만이 설계한 구조에서, 연산 유닛과 메모리는 하나의 통로(버스)를 공유합니다. 연산이 아무리 빨라져도, 이 통로의 폭이 좁으면 데이터가 정체됩니다. 80년 전에 설계된 구조적 한계가, AI 시대에 가장 큰 병목으로 돌아온 것입니다.
대역폭(Bandwidth)을 직관적으로 이해하기 위해 고속도로에 비유하겠습니다. 대역폭은 "도로의 차선 수"입니다. 차선이 많을수록 동시에 더 많은 차(데이터)가 지나갈 수 있습니다.
DDR5는 2차선 도로입니다. 초당 약 51GB의 데이터를 전송합니다. 일반 PC나 서버에서 사용하며, 웹 브라우징이나 문서 작업에는 충분합니다. GDDR6X는 4차선 도로로, 초당 약 768GB를 처리합니다. 게이밍 그래픽카드에 사용되며, 고해상도 게임을 돌리는 데 적합합니다.
그런데 AI 워크로드는 이 정도로는 감당이 되지 않습니다. 수십억 개 파라미터를 실시간으로 이동시키려면 더 넓은 도로가 필요합니다. HBM3E는 16차선 고속도로입니다. 초당 약 1,150GB(1.15TB)를 전송하며, 2024~2025년 AI 가속기의 표준이 되었습니다. 그리고 2026년에 등장한 HBM4는 32차선 고속도로입니다. 초당 약 2,800GB(2.8TB)를 전송합니다.[3-3]
DDR5 대비 HBM4의 대역폭은 약 55배. 같은 시간에 55배 더 많은 데이터를 GPU에게 먹여줄 수 있다는 뜻입니다. 이 격차가 바로 "일반 컴퓨터에서 AI를 돌릴 수 없는 이유"이자, "AI 가속기에 HBM이 반드시 필요한 이유"입니다.
그렇다면 HBM은 어떻게 이렇게 넓은 대역폭을 실현하는 것일까요. 답은 수직 적층입니다.
일반 메모리(DDR5)는 평면적으로 배치됩니다. 메인보드 위에 메모리 칩이 나란히 놓이고, 긴 배선을 통해 CPU나 GPU와 연결됩니다. 배선이 길면 신호가 약해지고, 전력 소비도 커집니다. 대역폭을 넓히는 데 물리적 한계가 있습니다.
HBM은 발상을 전환했습니다. 메모리 다이를 수직으로 쌓은 것입니다. 아파트에 비유하면 이렇습니다. 일반 메모리가 단독주택들이 넓게 펼쳐진 마을이라면, HBM은 같은 면적에 12~16층짜리 아파트를 세운 것입니다. 같은 땅에 훨씬 많은 주민(데이터)이 살 수 있습니다.
이 아파트의 엘리베이터 역할을 하는 것이 TSV(Through Silicon Via, 실리콘 관통 전극)입니다. 직경 약 5~10마이크로미터(㎛)의 미세한 구리 기둥이 각 층의 메모리 다이를 수직으로 관통하며 연결합니다.[3-4] 머리카락 굵기(약 70㎛)의 10분의 1도 안 되는 구멍을 실리콘 웨이퍼에 뚫고, 구리를 채우고, 그 위에 또 웨이퍼를 쌓는 공정입니다.
여기서 핵심은 인터페이스 폭입니다. DDR5의 데이터 버스 폭은 64비트입니다. HBM3E는 1,024비트입니다. 그리고 HBM4는 이를 다시 2배로 늘려 2,048비트에 달합니다.[3-5] 도로 비유로 돌아가면, 차선 수 자체를 32배(DDR5 대비)로 늘린 것입니다.
이 적층된 HBM 스택은 GPU 다이 바로 옆에, 실리콘 인터포저라는 기판 위에 나란히 배치됩니다. GPU와 HBM 사이의 물리적 거리가 수 밀리미터에 불과합니다. 배선이 짧으니 신호 손실이 적고, 전력 소비도 줄어듭니다. 거리를 줄이고, 폭을 넓히고, 높이를 쌓는다 — 이 세 가지가 HBM이 대역폭을 극대화하는 원리입니다.
다만 이 기술의 난이도는 극단적입니다. HBM에 사용되는 메모리 다이의 두께는 약 30~50㎛입니다.[3-6] 일반 웨이퍼(775㎛)의 15분의 1에서 25분의 1 수준입니다. 머리카락 두께의 절반도 안 되는 실리콘 조각 12~16장을 정확하게 쌓아 올리고, 수천 개의 TSV와 마이크로 범프로 연결하는 공정입니다. 하나라도 불량이면 전체 스택이 무용지물이 됩니다.
HBM은 2015년에 처음 세상에 나왔습니다. 이후 10년간의 진화는 놀라운 속도였습니다.
2015년 등장한 HBM1은 4층 적층, 1,024비트 인터페이스로 128GB/s의 대역폭을 실현했습니다. AMD의 그래픽카드 Fury X에 처음 탑재되었습니다. 2016년 HBM2는 8층 적층으로 256GB/s를 달성하며 NVIDIA V100에 채택되어 AI 훈련 시대를 열었습니다. 2018년 HBM2E는 같은 8층이면서 461GB/s까지 끌어올렸고, NVIDIA A100에 탑재되었습니다.[3-7]
전환점은 2022년이었습니다. HBM3는 12층 적층으로 819GB/s를 돌파하며, ChatGPT의 엔진인 NVIDIA H100에 탑재되었습니다. 2024년 HBM3E는 같은 12층에서 1.15TB/s를 달성하며 Blackwell 시대의 표준이 되었습니다. 그리고 2026년, HBM4는 인터페이스 폭을 2,048비트로 2배 늘리고, 2.8TB/s의 대역폭을 실현하며 NVIDIA Vera Rubin에 탑재되었습니다.[3-8]
10년 만에 대역폭이 약 22배 증가한 것입니다.
이 진화의 대가는 큽니다. HBM 1GB를 만드는 데 필요한 웨이퍼 면적은 일반 DRAM의 약 3~4배입니다.[3-9] TSV 공정, 초박형 가공, 다층 적층, 정밀 접합 — 모든 단계가 일반 DRAM보다 복잡하고 수율이 낮습니다. 그래서 HBM은 비쌉니다. HBM3E의 가격은 GB당 약 15~20달러로, 일반 서버용 DDR5(GB당 약 2~3달러)의 5~10배에 달합니다.[3-10] HBM4 스택 하나의 가격은 500달러 중반대로 추정됩니다.
그리고 이 비싸고 귀한 HBM의 공급은 2026년에도 전량 매진 상태입니다. AI 데이터센터의 수요가 워낙 폭발적이어서, 만드는 족족 팔려나갑니다. 2026년 AI가 전 세계 DRAM 웨이퍼 생산 능력의 약 20%를 소비할 것이라는 전망이 나올 정도입니다.[3-11]
GPU가 AI의 뇌라면, HBM은 AI의 심장입니다. 뇌가 아무리 뛰어나도 심장이 혈액을 공급하지 못하면 작동하지 않습니다. 메모리 월이라는 벽 앞에서, HBM은 수직 적층이라는 발상으로 돌파구를 열었습니다. 그리고 이 돌파구를 만드는 기술은 극도로 어렵고, 만들 수 있는 기업은 세계에 셋뿐입니다.
이 HBM을 세계에서 가장 많이 만드는 나라는 한국입니다. SK하이닉스와 삼성전자, 그리고 급부상한 미국의 마이크론 — 세 기업의 전쟁이 지금 벌어지고 있습니다.
1. 이 글은 『보이지 않는 전쟁 — AI 반도체, 누가 미래를 지배하는가』 연재의 3회입니다. 매주 화·수·금 발행됩니다.
2. 이 글은 필자가 주 2회 발행하는 브런치 매거진 'AI 트렌드 리포트'의 기획기사로 12회에 걸쳐 연재할 예정입니다.
TrendForce, "Breaking the Memory Wall: HBM Basics and the Rise of HBM4 in AI", 2025년 9월 29일.
Introl, "The AI Memory Supercycle", 2026년 1월 3일.
Electronic Design, "HBM4 vs. SPHBM4: Breaking the AI Memory Wall", 2026년 2월 18일.
TrendForce, "AI Reportedly to Consume 20% of Global DRAM Wafer Capacity in 2026", 2025년 12월 26일.
[3-1] TrendForce, "Breaking the Memory Wall: HBM Basics and the Rise of HBM4 in AI", 2025년 9월 29일. "GPU computing power has increased 60,000-fold over the past 20 years, DRAM memory bandwidth has improved by only 100-fold." Electronic Design(2026년 2월)은 XPU 연산 성능 90,000배 vs DRAM 대역폭 30배로 더 극단적인 수치를 제시하고 있다. 측정 기준에 따라 차이가 있으나, 격차가 수백 배 이상이라는 점에서 일치한다. [3-2] Introl, "The AI Memory Supercycle", 2026년 1월 3일. "Moving parameters between memory and compute cores consumes more time and energy than the actual mathematical operations." [3-3] Micron Technology IR, GTC 2026 발표, 2026년 3월 16일. HBM4 36GB 12-Hi 기준 2.8TB/s 이상 대역폭. DDR5-6400 대역폭 51.2GB/s, GDDR6X 대역폭 약 768GB/s는 각 메모리의 공식 스펙 기준. [3-4] EnosTech, "The AI Memory Crisis", 2026년 2월 25일. "TSV diameter: Approximately 5-10μm." TrendForce(2025.9)도 유사한 수치를 제시. [3-5] JEDEC, JESD270-4 HBM4 Standard, 2025년 4월. HBM4의 인터페이스 폭 2,048비트, 32채널 구성. [3-6] EnosTech, 위 기사. "Standard DRAM wafers are approximately 775μm thick; HBM dies must be ground to 30-40μm." TrendForce는 30~50μm로 표기. [3-7] Wikipedia, "High Bandwidth Memory" 항목(2026년 3월 업데이트) 및 JEDEC 표준 문서 기준. 각 세대 출시 연도·대역폭·적층 수 확인. [3-8] Micron Technology IR, GTC 2026, 2026년 3월 16일. HBM4 12-Hi 기준 11Gbps 이상 핀 속도, 2.8TB/s 이상 대역폭. [3-9] TrendForce, "AI Reportedly to Consume 20% of Global DRAM Wafer Capacity in 2026", 2025년 12월 26일. "1GB of HBM consumes 4x the capacity of standard DRAM." Tom's Hardware(2025년 12월)는 약 3배로 추정. 출처에 따라 3~4배 범위. [3-10] EnosTech, 위 기사. "HBM3E ASP: Approximately $15-20 per GB." [3-11] TrendForce, 위 기사(2025.12.26). "AI-equivalent consumption would account for nearly 20% of total output" (2026년 전 세계 DRAM 40EB 생산 기준).