AMD의 차세대 기술 3D V-캐시

라이젠 7 9800X3D를 통해 본 3D Integration의 가능성

by 반도체하는러너

Dec 1. 2024

2017년 AMD는 가성비를 크게 높인 라이젠 CPU를 출시해 CPU 시장에서의 반등의 기회를 잡았다. 만년 CPU 시장은 Intel에게, GPU 시장은 Nvidia에 밀려 회사의 존재 자체가 위기였으나 한 번에 성능을 40%나 끌어올리면서 역전의 기회를 마련했다.

하지만 오랜 세월 CPU 시장을 장악했던 인텔을 한 번에 이기기는 어려웠다. AMD 라이젠 CPU는 코어 숫자를 늘리는 데는 유리했지만, 개별 코어 성능이 인텔보다 늘 낮아서 PC 소비자가 중시하는 게임 성능에서 인텔보다 늘 열세였다.

이런 약점을 극복하기 위해 AMD는 TSMC의 SoIC(System on Integrated Chips) chip-stacking 기술을 이용해서 SRAM L3 캐시메모리를 CPU 다이 위에 쌓아 올린 기술을 기반으로 X3D 모델을 2022년에 출시하였고 (3D V 캐시 기술로 명명) 이러한 3D Integration 기술은 Moore의 법칙을 연장하는 또는 넘어서는 기술로 활발히 개발 되고 있다. 정리하면, 특성과 비용을 잡기 위해 AMD의 접근법은 TSMC의 반도체 패키징 기술을 이용해 별도의 저렴한 캐시 메모리를 위에 올리고 이들간에는 TSV로 연결하여 성능을 크게 올렸다.

라이젠 7 9800X3D의 캐시 다이를 코어 아래쪽에 적층한 2세대 3D-V 캐시 기술. TSV로 연결되었다.

2세대에서 3D V-캐시가 하부로 가면서 프로세서 코어 다이쪽이 쿨링 접촉면이랑 직접적으로 맞닿아 발열 관리에 좀 더 유리한 설계이다. AMD의 자료에 따르면 1세대 3D V-캐시 기술 대비 열 저항성이 최대 46% 정도 개선되었다고 한다. 이전에 Nvidia의 블랙웰 칩에 대해서도 설명했듯이 칩의 발열은 성능과 떼어놓을수 없는 인자다.

반도체를 별도의 기판 없이 칩렛 다이끼리 위-아래로 쌓아서 적층식 반도체를 만든 적층식 CPU는 이미 Intel에서 만들었지만 저성능이어서 사람들의 관심을 끌지 못했고 AMD의 3D V-캐시는 실제로 상용화가 가능한 저성능이 아닌 고성능 CPU 였기 때문에 주목 받게 되었다. 역시 기술의 시작은 Intel이고 제품의 구현은 Intel이 아니다. SiGe Strained Silicon, High-K, Tri-Gate(FinFET) 다 최초지만 왜 지금 이꼴일까...

AMD가 실제로 시연한 3D V-Cache 스택 칩셋 설계가 적용된 Zen 3 Ryzen CPU 성능. 단순히 페이퍼 쇼케이스가 아니라 실제로 작동하고 있음을 당당히 보여줬다.

이렇게 L3 캐시의 추가 layer를 겹쳐서 더 많은 용량을 확보한게 AMD의 기술이다. IHS에 더 잘 접근할 수 있게 하고 TSV로 연결 밀도를 높이고 latency를 줄이고 더 효율적인 냉각 설계를 통해 성능을 올렸다.

이제 3D Integration은 선택이 아닌 필수다. 트랜지스터만 3D 화가 되는게 아니라 Chip Level, Wafer Level 이제는 Chiplet 패키징이 각광받고 있다

CCD(CPU 코어 컴플렉스 다이) 위에 64MB의 라스트 레벨 캐시를 적층해 게임 성능이 평균 15% 오른다는 게 AMD의 설명인데요. AMD는 프로토타입에서 젠3 CCD 위에 3D V캐시를 올려 총 192MB의 L3 캐시를 만들었다고 한다.

이번에 나온 설명은 새로 추가된 3D V 캐시가 L4 역할을 하는 게 아니라, 운영체제가 L3의 연속된 96MB 블럭으로 간주한다는 겁니다. 3D V캐시는 젠3 CCD와 같은 7nm 공정으로 제조된 SRAM 칩으로 크기가 6x6mm(36제곱mm)며, 32MB L3 SRAM가 있는 CCD 영역 위에 위치해있다. 크기가 17μm인 TSV 23,000개로 3D V 캐시를 메인 CCD 위에 연결하고 있다.

테크인사이트의 수석 테크놀러지 펠로우인 유조 후쿠자키가 AMD의 3D 수직 캐시(3D V 캐시) 적층에 대해 설명한 SEM 이미지.

즉 추가로 얹은 3D V 캐시가 추가 L3 캐시의 역할을 하는건데 이렇게 되면 단순히 캐시간의 거리를 TSV를 통해 최소화 하여 RC Delay를 줄이는 식으로 SRAM의 memory access time을 줄일뿐만 아니라. Chiplet으로 큰 다이를 쪼개서 양산 수율을 크게 확보 할 수 있는 장점이 있다. 실제로 Exynos 2100은 X1코어의 Cache를 퀄컴보다 줄여서 출시했는데 Mali GPU의 면적이 퀄컴 대비 너무 크다 보니 캐시를 줄여서 양산 수율을 확보해야 했다. 현대 CPU의 성능 향상치는 대부분 Cache와 Branch Speculation에 의해 이뤄지는데 문제는 둘 다 Area를 미친듯이 잡아먹는데 기인하는데 이걸 3D로 쌓으면서 Area와 수율의 gain을 둘다 얻었다!

AMD는 Zen 3 CCD와 V-Cache를 얇게 만들어 코어와 IOD 사이의 높이를 변경하지 않고 현재 Zen 3 프로세서와 동일한 Z 높이를 갖는다.

V-Cache는 CCD L3 캐시 위에 있기 때문에 코어의 열 출력에 영향을 미치지 않으며, 최소한의 전력 상승만 있다.

keyword

반도체하는러너 직업 엔지니어

마라톤도하고 반도체도 하는 밥벌이하는 직장인입니다.

작가의 이전글기계공학과 출신이 제패한 AI반도체 제국동맹에서 적으로 변한 AMD작가의 다음글