원영적 사고로 극복하는
Memory Wall

[제로가 직접 말아주는 딥테크 이야기] 3. HBM과 3D 적층

by 카카오벤처스

Jul 18. 2024

"하..."

요즘 출근길 지하철에서 여기저기서 탄식이 나오고 있습니다.

다들 핸드폰을 붙잡고 한숨을 푹푹 쉬고 있는데요. 슬쩍~ 눈동자를 굴려서 무슨 일인가 보면 다들 주식 창을 보고 계시더라고요.

그런데 사실, 주식 자체가 떨어져서 내쉬는 한숨보다는 NVIDIA라는 빠르게 성장하는 거대한 흐름을 놓쳐서 내쉬는 한숨인 것 같습니다.

NVIDIA는 데이터센터향 AI 반도체를 주력으로 만들며 짧은 시간 동안 가파르게 성장하고 있는 기업입니다.

NVIDIA 24년 2분기 Revenue Breakdown

NVIDIA는 게임용 GPU 역시 판매하고 있지만 대부분의 매출이 데이터센터향 AI 반도체에서 나오고 있는데요. LLM의 열풍에 힘입어 엄청난 모멘텀을 가지고 끝이 어디일지 모르게 달려가고 있습니다. 최근에는 무려 전 세계 시가총액 1위를 기록하기도 했죠.

반면 데이터센터향 AI 반도체 시장 뒤 저 너머에서는 NVIDIA의 수주를 받기 위한 치열한 전쟁이 벌어지고 있습니다.

바로 SK 하이닉스, 삼성전자, 마이크론을 주축으로 치열하게 경쟁 중인 HBM(메모리 반도체)입니다.

HBM 산업 속 치열한 전쟁 (출처 : 한국경제)

이전 시리즈에서는 새로운 소재와 소자를 통해 차세대 반도체가 나온 사례에 대해서 이야기했습니다. HBM 역시 시장의 변혁에 따라 새롭게 나온 차세대 반도체 중 하나인데요.

이번 글에서는 어쩌다가 HBM이 이렇게 주목받게 되었는지 돌이켜보고자 합니다.

1. 메모리 반도체의 느린 성장,

"Memory Wall"

HBM이 주목을 받게 된 경위를 파악하기 위해서는 Memory Wall이라는 개념에 대해서 알아야 합니다.

Memory Wall?

비메모리와 메모리의 분리 구조인 폰 노이만 구조

반도체는 크게 2가지 종류가 있습니다. 비메모리 반도체와 메모리 반도체인데요.

간단하게 비메모리 반도체는 연산을 담당하고, 메모리 반도체는 저장을 담당하고 있다고 생각하면 될 것 같습니다. 연산을 담당하는 비메모리 반도체를 대변하는 것이 CPU이고요.

이렇게 저장과 연산이 분리된 컴퓨터 구조를 폰 노이만 구조라고 합니다.

스크린샷 2024-07-01 오전 11.43.21.png

메모리와 CPU 간 발전 속도의 차이 (출처 : SK하이닉스)

문제는 메모리 반도체와 CPU 간의 발전 속도에는 큰 차이가 있다는 것입니다.

컴퓨터의 연산 처리 속도는 날이 갈수록 빨라져 가는데, 메모리 처리 속도의 개선은 지지부진한 것이죠. 위의 차트에서 볼 수 있듯이 일반적으로 많이 사용하는 D램(DRAM)의 발전 속도는 CPU의 발전 속도 대비 1990년대부터 아주 크게 격차가 나기 시작했습니다.

그 이유는 메모리 반도체와 비메모리 반도체의 소자 구조의 차이를 보면 알 수 있습니다.

메모리 중 DRAM 구조(좌)와 비메모리 중 NAND Gate 구조(우)

위의 회로도에서 왼쪽에 있는 것이 메모리 반도체를 담당하는 DRAM, 오른쪽에 있는 것이 비메모리 반도체 내 NAND Gate의 구조입니다.

음.. 오른쪽이 더 복잡해 보이는데요?

맞습니다.

언뜻 보았을 때는 오른쪽에 있는 비메모리 NAND Gate가 더 복잡해 보이는데, 왜 메모리 반도체의 발전 속도가 더 느린지 의문일 것입니다.

하지만, 주의 깊게 봐야 하는 것은 메모리 DRAM 구조 속에 존재하는 Capacitor입니다.

왼쪽 메모리 반도체의 구조는 한 개의 Transistor(트랜지스터)와 한 개의 Capacitor의 구조를 가지고 있습니다. 반면, 오른쪽 비메모리 반도체의 구조는 4개의 Transistor로 이루어져 있죠.

MOSFET 등 Transistor의 집적도를 5 나노, 3 나노 공정을 통해 높이는 경쟁은 이미 아주 치열하다고 이전 시리즈들 간에 말씀드린 적이 있습니다.

왜 우리는 초전도체를 못 만들까

[제로가 직접 말아주는 딥테크 이야기] 2. 차세대 반도체로의 이동 | 안녕하세요, 오랜만에 돌아온 "제로가 직접 말아주는 딥테크 이야기" 시리즈입니다. 매달 연재를 목표로 야심 차게 시작한 시

https://brunch.co.kr/@kakaoventures/266

그렇다면 Capacitor의 집적도는 어떨까요?

아쉽게도 Capacitor는 그 소자의 특성상 Transistor만큼이나 작게 만들기 힘든 것이 현실입니다.

그렇기 때문에 DRAM 속 Transistor의 집적도를 아무리 높여도 Capacitor의 존재 때문에 성능 향상에 한계가 있는 것이죠. 이러한 문제점 등으로 인해 CPU에 사용되는 공정 수준은 3nm에도 도전하고 있지만, 메모리는 여전히 10nm 이상의 conventional한 공정에 의지하고 있습니다.

결과적으로, 메모리 반도체와 비메모리 반도체로 구성된 컴퓨터의 발전 속도가 메모리 반도체의 비교적 느린 발전 속도로 인해 성장에 bottleneck이 생긴 현상을 Memory Wall(메모리 병목 현상)이라고 합니다.

2. LLM으로 인해 강력하게 요구되는

Memory Wall의 극복 노력과 한계

가파른 성장 속도의 처리 가능 연산량(FLOPS) 대비 완만한 성장 속도의 처리 가능 메모리양(BW) (출처 : UC Berkeley)

지금까지 이 Memory Wall 자체가 엄청난 이슈는 아니었습니다.

하지만 LLM의 등장 이후 이 Memory Wall은 지금 바로 뛰어넘어야 하는 현시점의 문제가 되었습니다.

HBM 이전에 메모리 반도체, 특히 DRAM이 발전된 방식은 LPDDR 제품 중심의 성능 향상이었습니다. LPDDR은 'Low Power Double Data Rate'의 줄임말로, 간단히 말해 저전력으로 2배의 데이터를 주고받는다는 뜻입니다.

저전력과 2배의 데이터가 무슨 관련이 있나요?

컴퓨터에는 Clock이라는 개념이 있습니다.

컴퓨터 내에는 수없이 많은 트랜지스터를 비롯한 소자들이 있기 때문에 복잡한 구조 속에서도 문제없이 소자 간에 정보를 주고받는 것이 중요합니다.

예를 들어, 'A, B, C 세 사람이 해변에서 동시에 공을 주고받는 게임을 하고 있다'고 생각해 봅시다.

A가 B에게 공을 던졌는데 B의 손에 공이 들려있고, B가 C에게 공을 미리 던지지 못했다면 B는 A가 던진 공을 받지 못하겠죠?

그렇기에 A, B, C는 정해진 타이밍에 맞춰서 동시에 공을 던지고 받아야 할 것입니다.

Clock Cycle에 따른 Double Data Rate의 원리

이와 동일하게 컴퓨터도 정해진 타이밍에 맞춰서 데이터를 전달하고 계산을 수행하는 형태로 작동되며, 이 타이밍을 초침처럼 재주는 것이 바로 Clock입니다.

여기서 Clock이 꺼졌다 켜지기를 반복하는데, Clock cycle 속에서 켜질 때만 공을 넘기는 것을 SDR(Single Data Rate), 켜질 때와 꺼질 때 둘 다 공을 넘기는 것을 DDR(Double Data Rate)이라고 합니다.

즉, 한 번의 Clock cycle 속에서 SDR보다 DDR이 2배 더 공을 많이 넘길 수 있는 것이죠.

문제는 공을 2배로 넘기면 당연히 에너지가 많이 소모될 것입니다. 팔이 아프겠죠.

그렇기 때문에 저전력의 DDR이 필요한 것입니다.

이런 상황 속에서 LPDDR의 성능 향상은 저전력으로 초당 주고받는 데이터의 횟수를 높이는 방식으로 이루어져 왔습니다. 초당 주고받는 공의 횟수를 늘리는 것이지요.

문제는 아무리 저전력으로 정해진 타이밍에 공을 던져도 횟수가 많아지고 빨라지다 보면 실수로 놓치는 공도 많이 생기게 되고 팔도 다시 아파질 것입니다. 심지어 미세공정으로 집적도가 높아지며 공을 주고받는 통로는 점점 좁아져만 갑니다. 바늘구멍 크기의 틈으로 1초에 수백만 번 공을 주고받아야 하는 상황인 것이죠.

처음에는 NVIDIA나 리벨리온, 퓨리오사 AI도 HBM이 아닌 DDR류 메모리를 주로 사용했습니다. 하지만 AI 모델의 크기가 너무 커졌고, DDR류 메모리의 한계로 더 이상 이 흐름을 감당이 어려워졌습니다.

지금까지와는 다른 방식의 성능 향상 방법론이 필요해졌습니다.

그렇기에 LPDDR 방식 외로 새로운 반도체 소자인 HBM이 현 시장에 데뷔하게 됩니다.

3. Memory Wall을 허물어주기 위해 나타난 구세주,

HBM

이전 시리즈에서 '반도체는 2D Integration의 한계로 3D Stacking의 시대가 시작되었다'는 것을 강조했습니다.

HBM 역시 마찬가지입니다.

집적도를 높이는 대신 메모리 반도체를 위로 쌓아 올리기 시작한 것이죠. 현재 최신 HBM의 경우 12단까지 쌓아 올리는 데 성공했으며, 2~3년 내 16단까지 쌓아 올리는 것을 목표한다고 합니다.

SK하이닉스 '12단 HBM4 내년 양산…1년 더 앞당긴다'

산업 > 기업 뉴스: SK하이닉스가 6세대 고대역폭메모리(HBM4)를 내년에 양산한다. 기존 생산 계획보다 1년 앞당긴 것이다. SK하이닉스는 HBM을 인공...

https://www.sedaily.com/NewsView/2D916XIPOP/GD0101

이러한 HBM 기술은 SK Hynix가 10여 년 전부터 꾸준히 연구해 왔습니다. 삼성과 달리 HBM 연구를 중간에 멈추지 않은 믿음 덕분에 현 HBM 시장 내에서 TSMC, NVIDIA와 동맹 전선을 만들 수 있었고, 현재 시장 점유율은 무려 53%에 달합니다.

HBM 시장 내 Top3 점유율 (출처 : 트렌드포스)

물론, 삼성과 마이크론이 추격해오고 있지만 이들은 계속해서 NVIDIA 테스트 통과에 실패하며 고배를 마시고 있는, 아직은 열위에 있는 상황입니다.

그렇다면 이들 간의 치열한 경쟁 후
HBM이 LLM을 완전히 정복할 수 있을까요?

글쎄요,

저의 욕심일 수도 있겠지만 아직은 아쉬운 것 같습니다.

아직도 저희는 LLM이 버벅거리며 말하고 이미지를 생성하는 사용자 경험을 하고 있는 반면에 저 너머에는 클라우드 기업들이 방대한 데이터센터 운영과 전력 소모에 진땀을 빼고 있으니까요.

4. HBM은 완전히 LLM을 정복할 수 있을까?

그렇다면 HBM의 성능이 어떤 방식으로 개선되어야 LLM을 극복할 수 있을까요?

HBM의 구조 (출처 : 서울경제)

HBM의 구조를 보면 아래 Substrate(기판) 위에 Interposer(인터포저)와 그 위로 DRAM들이 아파트처럼 쌓여있는 것을 볼 수 있습니다. DRAM들 사이에는 TSV라는 세로로 된 통로가 있고요.

이 통로는 메모리를 더 빠르게 주고받을 수 있게 아예 DRAM을 관통하는 특급 엘리베이터 역할을 합니다. 또, 이 특급 엘리베이터는 2개가 아니라 1,024개나 있으며 앞으로는 2,048개까지도 늘어날 계획이죠.

아래의 Interposer(인터포저)가 이 특급 엘리베이터들을 관제하는 역할을 합니다. Interposer는 일반적인 플라스틱으로 만든 PCB 보드가 아닌 새로운 형태의 기판인데요. 이를 만들 때 필요한 후공정이나 플라스틱이 아닌 다른 소재를 사용하는 유리 기판이 주목받는 이유입니다.

TSV라는 통로와 Interposer 덕분에 HBM은 방대한 양의 메모리를 처리할 수 있게 되었습니다.

공을 주고받는 팔은 2개에서 1,024개로 대폭 늘리고, 12단, 16단까지 사람들을 목말을 태워서 공 주고받기 게임을 하는 것이죠.

정리하자면, HBM의 성능은 1) 단수를 높이 쌓아 메모리 용량을 키우고 2) TSV를 여러 개 넣어 메모리 Bandwidth를 넓히는 방식으로 개선하는 것입니다.

16단을 향해가는 HBM (출처 : Xperi)

하지만 이런 HBM의 3D Integration 구조 속에서 성능 향상의 문제는 이제 시작입니다.

앞으로 더 많은 TSV를 넣어줘야 하고, 더 높게 쌓아 올려야 합니다.

더 많은 TSV가 들어갈수록 오고 가는 메모리의 양은 많아지고 통로는 복잡해집니다. 특히 특급 엘리베이터들을 관제해 줄 수 있는 역할을 해주는 인터포저는 지금보다도 훨씬 똑똑해져야 합니다. 또한, HBM 면적의 최댓값은 정해져 있는데 마구잡이로 통로를 더 뚫을 수도 없습니다. 그건 HBM이 아니라 그냥 구멍 뚫린 수세미일 테니까요.

위로 쌓아 올리는 것도 마찬가지입니다.

HBM은 처음부터 위로 쌓아 올리는 것이 아닌 DRAM을 2D 평면에 만들어낸 후 쌓아 올리는 방식입니다. 처음부터 멋진 고층 건물을 쌓는 것이 아니라, 1층짜리 주택을 여러 개 만든 후 들어 올려서 쌓아 올리는 셈이죠. 지금과 같은 구조로는 물리적으로 16단 이상 쌓아 올리기 힘들 것입니다.

만약 어떻게든 쌓아 올린다 하더라도, 다시 TSV가 문제입니다.

현재 TSV는 레이저를 활용해서 DRAM에 수직으로 구멍을 뚫습니다. 하지만 16단 이상이 되면, 이 레이저는 더 이상 DRAM에 일관되게 균일한 구멍을 뚫기 어려워집니다.

정말 어떻게든 일관된 통로를 뚫는 데 성공해도, 이제는 전력량과 발열량이 문제입니다.

구조를 보면 알 수 있듯 HBM은 메모리 반도체의 몸집이 커지는 형태로 발전해 왔습니다. 정해진 구조 속에 소자들을 꽉꽉 채워 넣으니, 당연히 전력량과 발열량이 비례해서 커질 수밖에요.

HBM은 기술적으로 여전히 갈 길이 멀었습니다.

흑... 그럼 인류의 발전은 오늘도 끝인가요?

물론, 아닙니다.

제가 기술 시장 속 한계점을 매번 말씀드리는 이유는 기술적으로 어렵다는 말씀을 드리기 위한 것이 아닙니다.

한계를 넘어설 방법이 언제나 치열하게 연구되는 중이라는 사실을 곱씹으며,

'한계를 극복해 나가려는 움직임 속에서 새로운 시장 기회가 나온다'는 점을 말씀드리려는 것입니다.

원영적 사고 (출처 : 이투데이)

시장의 어려움은 오히려 좋은 것입니다. 원영적 사고로 '완전 럭키비키'인 것이죠.

모두가 한 가지 문제를 풀기 위한 모멘텀을 만들어 줄 것이니까요.

HBM의 한계는 또다시 새로운 시장이 열리게 만들어 줄 것입니다.

수직 적층에 유리한 신소재가 나올 수 있겠죠. 적층 원천 기술을 활용해서 트랜지스터를 수직으로 쌓는 CFET 기술에도 진전이 생길 수도 있을 것입니다. 혁신적인 새로운 Interposer, 또는 저전력 메모리 신소자가 나오는 것도 기대할 수 있을 것입니다.

더 나아가 딥테크 스타트업 내에서도 강력한 모멘텀을 기반으로 하는 고래들의 싸움 속에서도 독자적인 원천 기술 또는 날카로운 솔루션으로 암초 마냥 자리 잡을 수 있는 스타트업이 살아남을 것입니다.

또한, 딥테크 스타트업을 창업하신 분들의 멀리 보는 혜안과 강력한 믿음은 계속해서 중요할 것입니다.

SK Hynix는 HBM에 대한 시장의 비관적인 시선에도 불구하고 멀리 보는 혜안과 믿음을 가지고 꾸준히 연구한 덕에 현시점에 많은 우위를 가지고 있습니다. 지금 당장 약간의 기술 또는 솔루션의 변경을 통해 단기적인 이점을 가져가는 것보다는 조금 더 멀리 보는 혁신의 본질에 맞닿아 있는 팀이 승기를 쥐게 될 것입니다.

누구보다도 기술 개발의 높은 허들을 잘 아심에도 불구하고 시장에 나와 도전적인 창업하신 분들은 얼마나 멀리 보는 혜안과 깊이 있는 믿음으로 창업하셨을지 헤아릴 수 없을 것입니다.

저희는 후행적으로 따라오는 매출과 이익보다는 창업가분들의 혜안과 믿음에 베팅하고자 하고, 원천 기술과 뾰족한 솔루션을 통해 암초처럼 뿌리내려 집요하게 무너지지 않는 스타트업에 투자하고자 합니다.

다음 공유 드리고 싶은 주제는 <4. NVIDIA의 헤게모니를 만드는 방식>에 대한 내용입니다.

감사합니다.

카카오벤처스 김영무(Zero) 심사역

#카카오벤처스 #딥테크투자 #초기투자사 #벤처캐피털 #Kakaoventures #VC

keyword

매거진의 이전글스타트업을 위한 '가격 책정' 가이드라인스타트업을 위한 성공적인 가격 인상 전략매거진의 다음글

원영적 사고로 극복하는 Memory Wall