왕좌의 약점 — 메모리가 병목이다

보이지 않는 전쟁 제3회

by 조종주

왕좌의 약점 — 메모리가 병목이다

보이지 않는 전쟁 제3회



51GB/s와 2,800GB/s.

같은 시대에 존재하는 두 메모리 기술의 대역폭입니다. 앞의 숫자는 여러분의 노트북에 들어가는 DDR5 메모리, 뒤의 숫자는 NVIDIA Vera Rubin AI 가속기에 탑재된 HBM4의 대역폭입니다. 격차는 약 55배. 같은 "메모리"라는 이름을 달고 있지만, 이 둘은 전혀 다른 세계의 기술입니다.

지난 회에서 GPU가 AI의 왕좌에 오른 이유를 살펴봤습니다. 병렬 연산이라는 구조적 적합성, CUDA라는 20년 생태계, 세대마다 기하급수적으로 진화하는 하드웨어. 삼중 해자는 견고합니다.

그러나 이 왕좌에는 치명적 약점이 있습니다. AI의 진짜 병목은 연산 속도가 아니라 메모리 대역폭입니다.



셰프는 빠른데 재료가 안 온다


비유를 들겠습니다. 세계 최고의 셰프가 있습니다. 1초에 100가지 요리를 만들 수 있는 능력이 있습니다. 그런데 식재료가 1초에 10가지씩만 배달됩니다. 셰프는 90%의 시간을 재료를 기다리며 놀고 있을 수밖에 없습니다.

이것이 AI 시대의 현실입니다. GPU(셰프)의 연산 능력은 지난 20년간 약 60,000배 빨라졌습니다. 그런데 메모리(식재료 배달)의 대역폭은 같은 기간 약 100배 증가하는 데 그쳤습니다.[3-1] 프로세서가 연산하는 속도와 메모리가 데이터를 전달하는 속도 사이의 격차가 점점 벌어지고 있습니다. 이것을 메모리 월(Memory Wall)이라 부릅니다.

이 문제가 특히 심각한 이유는 AI 워크로드의 특성 때문입니다. ChatGPT나 Claude 같은 대규모 언어 모델(LLM)은 추론할 때 수십억 개의 파라미터를 메모리에서 연산 코어로 반복해서 이동시킵니다. 토큰 하나를 생성할 때마다 이 과정이 반복됩니다. 실제로 LLM 추론에서 파라미터를 메모리에서 코어로 이동하는 데 소비되는 시간과 에너지가 실제 수학 연산보다 더 큽니다.[3-2]

이 문제의 뿌리는 1945년까지 거슬러 올라갑니다. 컴퓨터의 아버지 폰 노이만이 설계한 구조에서, 연산 유닛과 메모리는 하나의 통로(버스)를 공유합니다. 연산이 아무리 빨라져도, 이 통로의 폭이 좁으면 데이터가 정체됩니다. 80년 전에 설계된 구조적 한계가, AI 시대에 가장 큰 병목으로 돌아온 것입니다.



2차선 도로 vs 32차선 고속도로


대역폭(Bandwidth)을 직관적으로 이해하기 위해 고속도로에 비유하겠습니다. 대역폭은 "도로의 차선 수"입니다. 차선이 많을수록 동시에 더 많은 차(데이터)가 지나갈 수 있습니다.


03회_시각자료_대역폭비교.png [이미지: 메모리 유형별 대역폭 비교 — 고속도로 비유]


DDR5는 2차선 도로입니다. 초당 약 51GB의 데이터를 전송합니다. 일반 PC나 서버에서 사용하며, 웹 브라우징이나 문서 작업에는 충분합니다. GDDR6X는 4차선 도로로, 초당 약 768GB를 처리합니다. 게이밍 그래픽카드에 사용되며, 고해상도 게임을 돌리는 데 적합합니다.

그런데 AI 워크로드는 이 정도로는 감당이 되지 않습니다. 수십억 개 파라미터를 실시간으로 이동시키려면 더 넓은 도로가 필요합니다. HBM3E는 16차선 고속도로입니다. 초당 약 1,150GB(1.15TB)를 전송하며, 2024~2025년 AI 가속기의 표준이 되었습니다. 그리고 2026년에 등장한 HBM4는 32차선 고속도로입니다. 초당 약 2,800GB(2.8TB)를 전송합니다.[3-3]

DDR5 대비 HBM4의 대역폭은 약 55배. 같은 시간에 55배 더 많은 데이터를 GPU에게 먹여줄 수 있다는 뜻입니다. 이 격차가 바로 "일반 컴퓨터에서 AI를 돌릴 수 없는 이유"이자, "AI 가속기에 HBM이 반드시 필요한 이유"입니다.



메모리를 수직으로 쌓는다


그렇다면 HBM은 어떻게 이렇게 넓은 대역폭을 실현하는 것일까요. 답은 수직 적층입니다.

일반 메모리(DDR5)는 평면적으로 배치됩니다. 메인보드 위에 메모리 칩이 나란히 놓이고, 긴 배선을 통해 CPU나 GPU와 연결됩니다. 배선이 길면 신호가 약해지고, 전력 소비도 커집니다. 대역폭을 넓히는 데 물리적 한계가 있습니다.

HBM은 발상을 전환했습니다. 메모리 다이를 수직으로 쌓은 것입니다. 아파트에 비유하면 이렇습니다. 일반 메모리가 단독주택들이 넓게 펼쳐진 마을이라면, HBM은 같은 면적에 12~16층짜리 아파트를 세운 것입니다. 같은 땅에 훨씬 많은 주민(데이터)이 살 수 있습니다.

이 아파트의 엘리베이터 역할을 하는 것이 TSV(Through Silicon Via, 실리콘 관통 전극)입니다. 직경 약 5~10마이크로미터(㎛)의 미세한 구리 기둥이 각 층의 메모리 다이를 수직으로 관통하며 연결합니다.[3-4] 머리카락 굵기(약 70㎛)의 10분의 1도 안 되는 구멍을 실리콘 웨이퍼에 뚫고, 구리를 채우고, 그 위에 또 웨이퍼를 쌓는 공정입니다.

여기서 핵심은 인터페이스 폭입니다. DDR5의 데이터 버스 폭은 64비트입니다. HBM3E는 1,024비트입니다. 그리고 HBM4는 이를 다시 2배로 늘려 2,048비트에 달합니다.[3-5] 도로 비유로 돌아가면, 차선 수 자체를 32배(DDR5 대비)로 늘린 것입니다.

이 적층된 HBM 스택은 GPU 다이 바로 옆에, 실리콘 인터포저라는 기판 위에 나란히 배치됩니다. GPU와 HBM 사이의 물리적 거리가 수 밀리미터에 불과합니다. 배선이 짧으니 신호 손실이 적고, 전력 소비도 줄어듭니다. 거리를 줄이고, 폭을 넓히고, 높이를 쌓는다 — 이 세 가지가 HBM이 대역폭을 극대화하는 원리입니다.

다만 이 기술의 난이도는 극단적입니다. HBM에 사용되는 메모리 다이의 두께는 약 30~50㎛입니다.[3-6] 일반 웨이퍼(775㎛)의 15분의 1에서 25분의 1 수준입니다. 머리카락 두께의 절반도 안 되는 실리콘 조각 12~16장을 정확하게 쌓아 올리고, 수천 개의 TSV와 마이크로 범프로 연결하는 공정입니다. 하나라도 불량이면 전체 스택이 무용지물이 됩니다.



128GB/s에서 2.8TB/s까지, 10년의 진화


HBM은 2015년에 처음 세상에 나왔습니다. 이후 10년간의 진화는 놀라운 속도였습니다.

2015년 등장한 HBM1은 4층 적층, 1,024비트 인터페이스로 128GB/s의 대역폭을 실현했습니다. AMD의 그래픽카드 Fury X에 처음 탑재되었습니다. 2016년 HBM2는 8층 적층으로 256GB/s를 달성하며 NVIDIA V100에 채택되어 AI 훈련 시대를 열었습니다. 2018년 HBM2E는 같은 8층이면서 461GB/s까지 끌어올렸고, NVIDIA A100에 탑재되었습니다.[3-7]

전환점은 2022년이었습니다. HBM3는 12층 적층으로 819GB/s를 돌파하며, ChatGPT의 엔진인 NVIDIA H100에 탑재되었습니다. 2024년 HBM3E는 같은 12층에서 1.15TB/s를 달성하며 Blackwell 시대의 표준이 되었습니다. 그리고 2026년, HBM4는 인터페이스 폭을 2,048비트로 2배 늘리고, 2.8TB/s의 대역폭을 실현하며 NVIDIA Vera Rubin에 탑재되었습니다.[3-8]

10년 만에 대역폭이 약 22배 증가한 것입니다.

이 진화의 대가는 큽니다. HBM 1GB를 만드는 데 필요한 웨이퍼 면적은 일반 DRAM의 약 3~4배입니다.[3-9] TSV 공정, 초박형 가공, 다층 적층, 정밀 접합 — 모든 단계가 일반 DRAM보다 복잡하고 수율이 낮습니다. 그래서 HBM은 비쌉니다. HBM3E의 가격은 GB당 약 15~20달러로, 일반 서버용 DDR5(GB당 약 2~3달러)의 5~10배에 달합니다.[3-10] HBM4 스택 하나의 가격은 500달러 중반대로 추정됩니다.

그리고 이 비싸고 귀한 HBM의 공급은 2026년에도 전량 매진 상태입니다. AI 데이터센터의 수요가 워낙 폭발적이어서, 만드는 족족 팔려나갑니다. 2026년 AI가 전 세계 DRAM 웨이퍼 생산 능력의 약 20%를 소비할 것이라는 전망이 나올 정도입니다.[3-11]



보이지 않는 심장


GPU가 AI의 뇌라면, HBM은 AI의 심장입니다. 뇌가 아무리 뛰어나도 심장이 혈액을 공급하지 못하면 작동하지 않습니다. 메모리 월이라는 벽 앞에서, HBM은 수직 적층이라는 발상으로 돌파구를 열었습니다. 그리고 이 돌파구를 만드는 기술은 극도로 어렵고, 만들 수 있는 기업은 세계에 셋뿐입니다.

이 HBM을 세계에서 가장 많이 만드는 나라는 한국입니다. SK하이닉스와 삼성전자, 그리고 급부상한 미국의 마이크론 — 세 기업의 전쟁이 지금 벌어지고 있습니다.


1. 이 글은 『보이지 않는 전쟁 — AI 반도체, 누가 미래를 지배하는가』 연재의 3회입니다. 매주 화·수·금 발행됩니다.

2. 이 글은 필자가 주 2회 발행하는 브런치 매거진 'AI 트렌드 리포트'의 기획기사로 12회에 걸쳐 연재할 예정입니다.


참고 자료

TrendForce, "Breaking the Memory Wall: HBM Basics and the Rise of HBM4 in AI", 2025년 9월 29일.

Introl, "The AI Memory Supercycle", 2026년 1월 3일.

Electronic Design, "HBM4 vs. SPHBM4: Breaking the AI Memory Wall", 2026년 2월 18일.

TrendForce, "AI Reportedly to Consume 20% of Global DRAM Wafer Capacity in 2026", 2025년 12월 26일.


각주

[3-1] TrendForce, "Breaking the Memory Wall: HBM Basics and the Rise of HBM4 in AI", 2025년 9월 29일. "GPU computing power has increased 60,000-fold over the past 20 years, DRAM memory bandwidth has improved by only 100-fold." Electronic Design(2026년 2월)은 XPU 연산 성능 90,000배 vs DRAM 대역폭 30배로 더 극단적인 수치를 제시하고 있다. 측정 기준에 따라 차이가 있으나, 격차가 수백 배 이상이라는 점에서 일치한다. [3-2] Introl, "The AI Memory Supercycle", 2026년 1월 3일. "Moving parameters between memory and compute cores consumes more time and energy than the actual mathematical operations." [3-3] Micron Technology IR, GTC 2026 발표, 2026년 3월 16일. HBM4 36GB 12-Hi 기준 2.8TB/s 이상 대역폭. DDR5-6400 대역폭 51.2GB/s, GDDR6X 대역폭 약 768GB/s는 각 메모리의 공식 스펙 기준. [3-4] EnosTech, "The AI Memory Crisis", 2026년 2월 25일. "TSV diameter: Approximately 5-10μm." TrendForce(2025.9)도 유사한 수치를 제시. [3-5] JEDEC, JESD270-4 HBM4 Standard, 2025년 4월. HBM4의 인터페이스 폭 2,048비트, 32채널 구성. [3-6] EnosTech, 위 기사. "Standard DRAM wafers are approximately 775μm thick; HBM dies must be ground to 30-40μm." TrendForce는 30~50μm로 표기. [3-7] Wikipedia, "High Bandwidth Memory" 항목(2026년 3월 업데이트) 및 JEDEC 표준 문서 기준. 각 세대 출시 연도·대역폭·적층 수 확인. [3-8] Micron Technology IR, GTC 2026, 2026년 3월 16일. HBM4 12-Hi 기준 11Gbps 이상 핀 속도, 2.8TB/s 이상 대역폭. [3-9] TrendForce, "AI Reportedly to Consume 20% of Global DRAM Wafer Capacity in 2026", 2025년 12월 26일. "1GB of HBM consumes 4x the capacity of standard DRAM." Tom's Hardware(2025년 12월)는 약 3배로 추정. 출처에 따라 3~4배 범위. [3-10] EnosTech, 위 기사. "HBM3E ASP: Approximately $15-20 per GB." [3-11] TrendForce, 위 기사(2025.12.26). "AI-equivalent consumption would account for nearly 20% of total output" (2026년 전 세계 DRAM 40EB 생산 기준).

keyword
화, 수, 금 연재
이전 02화GPU는 왜 왕좌에 앉았나