한국 메모리반도체 산업은 하청업체로 전락하게 될까?
최근 눈에 띄게 빈도가 높아진 엔비디아 CEO 젠슨 황의 친 대만 행보 (여기에 더 넓게 보자면 대만을 넘어, 중국, 홍콩, 그리고 싱가포르+태국+말레이시아+인도네시아 등에 분포한 2천만 화교 네트워크를 포함한 중화권(the greater china)으로 재편되는 글로벌 반도체 공급망으로의 무게중심 shift) 과정에서 떠오르는 대만 중심의 반도체+AI의 판 다시 깔기를 생각해 보자. 과열을 넘어 폭발이라고 해도 과언이 아닌, 미친 듯이 투자가 몰리고 있는 AI+반도체, 특히, 현재로서는 AI-specific 반도체에서 젠슨 황과 대만의 반도체 기업들이 가장 아쉬워하는 부분이 무엇일까? 그것은 대만이 상대적으로 약한 메모리 반도체일 것이다.
잘 알려져 있다시피 엔비디아의 고성능 GPU는 대부분 하이닉스의 HBM을 사용한다. 그리고 HBM의 모체는 DRAM 다이이며, 그 가운데 핵심 기술 모체는 각 다이를 연결하는 TSV, 그리고 실리콘 인터포져 위에서 동작하는 메모리 모듈이다. 특히 HBM 제조 공정의 난도는 악명 높다. 기본적으로 수십 um 이상의 깊이로 정확하게 수직으로 똑같은 수 um 크기의 반지름의 갱을 조심스레 한 땀 한 땀 에칭하면서 뚫어야 하는 미세한 hole을 만드는 TSV 공정부터 웬만한 업체들에게는 진입장벽이 높다(물론 이는 고가의 에칭 장비 자체의 장벽도 한몫한다.). 특히 DRAM die를 이미 수십 um 수준의 두께로 얇게 가공한 상황에서, 이러한 hole을 수십, 수백 개씩 그것도 다닥다닥 붙여서 만드는 것은 극도의 제어 기술을 필요로 한다. 종잇장처럼 얇은 슬라이드 글라스를 드릴을 이용하여 깔끔하게 관통하여 수백 개의 구멍을 뚫는 작업을 생각해 보라. 크랙 없이, 오차 없이, 그런 구멍을 규칙적 간격으로 수백 개 뚫을 수 있겠는가. 단 하나라도 망가지면 그 글라스는 다 버려야 한다. 사실 이보다 더 어려운 것은 이러한 수백 개의 hole이 잔뜩 집적된 웨이퍼를 정확하게 수직-수평 위치 맞춰서 정렬(alignment) 한 후, 본딩(bonding)하는 것이다. 스태킹 된 DRAM 다이와 인터포저, 그리고 그들을 연결하는 마이크로 범프(micro bump) 위치는 모두 1-2 um 이내로 위치 오차가 조정되어야 한다. 만약 이 범위를 넘어 살짝 미끄러지기라도 하면 다이들의 수평 위치도 안 맞으려니와, 고속으로 동작하는 와중에 미끄러진 바로 그 영역으로 전류가 불균일하게 흘러 결국 소자 수명이 짧아지거나 작동 오류 확률이 높아진다. 인터포저는 더더욱 어렵다. 기본적으로 로직칩 전공정과 사실상 다를 바 없는 RDL 공정을 수십 단계씩 반복하면서 배선 공정까지 완벽하게 감당해야 하기 때문이다. 이렇게 열심히 다이 쌓고 연결하고 인터포저와 붙여도, 막상 패키징 단계에서 온도나 압력 변동 조건이 조금이라도 뒤틀리면 열팽창계수 차이, 열전도율 차이, 기계적 물성 차이 등으로 인해 애써 쌓은 소자에 구조 변형이 일어난다. 즉, stress field 분포 제어가 정말 어렵다.
한국의 메모리 업체들은 위에서 일단 DRAM die를 균일하게 고수율로 만드는 것에 노하우가 있다. 또한 웨이퍼를 얇게 가공하는 것, tsv를 반복하는 것, 범핑 하는 것도 나름 일가견이 있다. 그렇지만 패키징과 어셈블리부터는 딱히 경쟁력이 있는 것은 아니다. 만약 TSMC가 맘먹고 하이닉스든 삼성이든 마이크론이든, 심지어 CXMT든 DRAM 다이를 공급받아서 본격적으로 2.5D/3D 패키징을 하겠다고 마음먹으면 못 할 것도 없다. 예를 들어 TSV 채움, RDL 형성, 마이크로 범프 본딩과 몰딩, 최종 테스트와 칩렛 모듈화까지 지구상에서 이 공정을 종합적으로 제일 잘하는 회사는 TSMC다. 물론 애초에 외부에서 공급받아야 하는 DRAM die 자체를 TSMC가 직접 만들지는 못 하므로, 현재로서는 엔비디아 GPU의 최종 제조를 함에서 있어 TSMC는 GPU 제조와 하이닉스의 HBM을 같이 패키징 하는 수준에서 더 진도를 나가지 않는다.
젠슨 황 입장에서 메모리가 여전히 아쉬운 부분일 것이라고 했는데, 이는 대만 기업들이 메모리를 못 만들어서 혹은 대기업이 없어서 아쉽다기보다는, 소위 메모리 장벽(memory wall)을 좀처럼 좁히기 어렵다는 하드웨어 아키텍처 특징에서 오는 근본적인 아쉬움이다. 흔히 메모리장벽(memory wall)은 폰노이만 격차(von Neumann bottleneck)이라고도 불리는데, 사실 두 개념은 비슷하긴 하나 엄밀히 말하면 다른 개념이다. 둘 다 CPU-메모리 간 데이터 전송 속도가 전체 시스템 성능을 좌우한다는 기본 원칙을 강조하지만, 폰노이만 격차는 주로 구조적 병목 현상, 즉, CPU-메모리 사이를 잇는 버스 자체의 성능 한계에 초점을 맞추는 반면, 메모리 장벽은 CPU와 DRAM의 멱함수 성능 개선 속도 차이가 벌어지는 현상에 초점을 맞춘다. 물론 메모리 장벽이 나타날 수밖에 없는 근본적 원인 중 하나로서 폰노이만 격차가 있음을 잊지 말아야 함은 물론이다.
엔비디아가 고성능 GPU를 아무리 잘 만들어도, 일단 GPU 코어와 DRAM 셀이 물리적으로 떨어져 있으면 그 지점부터 한계가 시작된다. 어쨌든 DRAM에 있는 데이터를 코어로 가져오고, 코어에서 처리된 데이터를 다시 메모리로 보내는 i/o 과정에서 물리적 시간이 소요될 수밖에 없기 때문이다. 지난 수십 년간 급속도로 발전해 온 코어 성능 지표(P)를 시간(t) 축에 대해 log-log 함수로 표현했을 때, P~t^S의 멱함수(power-law) regression이 관찰되는데, 이때 그 멱함수 지수(power law exponent)인 S는 메모리의 그것에 비해 훨씬 크다. 이러한 차이가 관측되는 이유는 코어는 주로 로직 트랜지스터의 물리적 크기 (예를 들어 채널 길이)만 줄여도 그 집적 효과가 빠르게 나타나는 반면, 메모리는 트랜지스터뿐만 아니라 커패시터까지 신경 써야 하기 때문이다. 메모리의 근본적 역할은 데이터 처리보다는 데이터의 보존(리텐션)과 주고받음이며, 그를 담당하는 것은 주로 커패시터다. 그래서 무작성 채널 길이나 산화막 두께를 축소하는 것이 능사가 아니다. 집적도 올리겠다고 무리해서 물리적 크기를 너무 줄여버리면 커패시터가 불안정해져서 데이터가 작은 충격에도 쉽게 날아가기 때문이다. 이로 인해 그토록 오랜 시간이 지났건만, DRAM의 랜덤 액세스 주기는 수십 ns 이하로 줄어들기 어려운 상태에 봉착했다. 또한 로직 코어에 들어가는 트랜지스터는 상대적으로 짧은 펄스 스위칭 방식으로 작동하기 때문에 동작 전력을 낮출 수 있지만, DRAM은 셀을 주기적으로 리프레시(즉, 새로고침) 해야 하고, 셀 전용 커패시터는 주기적으로 충-방전해줘야 하니까 전력 소모율도 더 높은 데다가, 높은 전력 소모에 따른 열 발생이라는 귀찮은 문제가 추가적으로 따라온다. 이로 인해 DRAM은 로직 공정처럼 전압을 대폭 낮추거나 전류 구동 능력을 높이기 어려워 속도 개선 여지가 훨씬 작다. 병렬화 여부도 큰 차이를 만든다. 90년대 말부터, CPU나 GPU 코어는 수천 개의 병렬 warp/스레드 등으로 연산량의 곱하기 방식을 파이프라인 병렬화를 통해 기술적으로 구현하기 시작했지만, 메모리 액세스는 늘 단일 채널-단일 비트라인 구조를 채택하기 때문에 병렬화 자체가 구조적으로 구현되기 어렵다. 데이터 i/o 대역폭도 마찬가지다. 코어는 상대적으로 훨씬 많은 i/o 채널을 설계할 수 있어서 TB급 대역폭 구현이 어렵지 않지만, 메모리에서 그렇게 많은 채널을 만들기도 어렵고, DRAM과 맞닿는 인터커넥트의 패키지(PCB) 수준에서는 수십 GB/s 내는 것도 결코 쉬운 기술이 아니다.
이러한 구조적 원인에 따른 메모리 장벽으로 인해, HBM이 등장했을 때 그간 상대적으로 너무 느렸던 DRAM (GDDR)에 비해 체감상으로 훨씬 개선된 속도감이 보고되었던 것이고, 아쉬우나마 GPU-메모리 사이의 레이턴시가 꽤 줄어든 것처럼 보이기도 했다. 그렇지만 엔비디아 같이 GPU 극한 성능 끌어올리는 것에 몰두하는 업체들 입장에서는 여전히 현재의 HBM만으로는 만족하기 어렵다. 그래서 더 크고 아름다운(즉, 더 채널이 많고, 더 TSV를 고밀도로 뚫고, 더 높이 적층하여 용량을 높이고, 더 높은 인터커넥트 대역폭으로 무장한) HBM을 요구할 수밖에 없으나, 메모리 메이커들 입장에서는 기본적으로 메모리 하드웨어 규격을 정하는 JEDEC의 표준을 벗어나기 어렵다. 비유하자면 아파트 건물 자체의 높이는 법으로 정해져 있는데, 시행사가 자꾸 시공사에게 15층짜리 말고 25층짜리, 25층짜리 말고 40층짜리로 만들라고 압박하는 것이다. 그러면 어떻게 되겠는가? 시공사 입장에서는 높이를 건드릴 수 없으니, 아파트 한 세대의 층고는 더 낮추고, 세대 간 벽은 더 얇게 만들 수밖에 없을 것이다. 얇은 벽은 얇은 절연층을 의미하는데, 이러면 세대 간 얇은 벽이 층간소음의 원인이 되듯, DIMM 모듈 간 신호 전달 과정의 열 발생을 통제하기 위한 방열 효율이 떨어지는 문제가 생긴다. 거기에 심지어 아파트에 엘리베이터를 2대가 아니라 20대, 50대, 100대를 설치하라고 요구한다. 그러면 한 세대의 전용 면적은 훨씬 줄어들 것이다. 또한 그 엘리베이터를 급행으로 운행하라고 요구한다. 심지어는 그 엘리베이터를 지하 5층까지 멈추지 말고 운행하라고 한다. 세대에 거주하는 사람들은 곡예하듯 엘리베이터에 타이밍 맞춰 타야 한다. 정말 이토록 어려운 요구 조건이 HBM에게 점점 더 힘들게 고조되며 누적되고 있다. 그렇게 요구 조건을 맞춰준다고 해도 엔비디아 입장에서는 여전히 메모리 장벽 문제가 딱히 실질적으로 해결되는 것은 아니기에 불만이 해소될 리 없다.
이제 엔비디아 입장에서 생각해 보자. 엔비디아 심정은 이렇다.
"답답해서 내가 찬다."
가만 보니 지금 방식으로 계속 메모리 메이커 닦달하면서 HBM 성능을 극한으로 밀어붙여봐야, 솔직히 메모리 메이커들이 요구하는 원가만 높아지면서 사실 'incremental technology' 정도로 밖에 안 되어 보일 것이다. 8층 했던 거, 16층 32층으로, tsv 100개 뚫었던 거, 200개, 400개로, 대역폭도 1TB/s에서 2TB/s, 4TB/s 등으로 곱하기 방식으로 쭉쭉 나가고 싶은데, 메모리 메이커들이 만드는 HBM은 그러한 곱하기 지수는 솔직히 너무 느려 보인다. 그냥 곱하기도 아니고 선형함수나 마찬가지다. 엔비디아는 슬슬 근본적 고민을 한다. 이대로 가면 진짜 AI를 구현하기 위한 하드웨어 성능 진보는 자신들이 원하는 타임 스케일에서 이루기 어려울 것이라는 (혹은 훨씬 더 많은 자본과 에너지가 소모되는 것을 피하기 어렵다는) 예상을 할 것이다. 메모리 메이커들의 기술력은 인정하나, 그들 방식에 따라 피할 수 없는 incremental tech의 속도에 발목 잡히기는 정말로 싫을 엔비디아는 자신들이 잘하는 기술을 다시 들여다보기 시작한다.
일단 DRAM cell에서의 가장 기본인 랜덤 액세스 타임을 얼마나 줄일 수 있을지부터 시뮬레이션해본다. 현재 DRAM은 앞서 언급했듯 랜덤 액세스 타임이 10-20 ns에서 정체되어 있는데, 엔비디아는 이를 어떻게 해서든 한 자릿수로, 예를 들어 5 ns 이하로 줄이고 싶다. 물론 물리적으로는 DRAM 말고 MRAM이나 PCRAM, ReRAM 같은 비휘발성 소자를 쓰면 가능하긴 하다. 그런데 이들 비휘발성 소자들은 하나같이 다 소재 의존도가 높다. 소재 의존도가 훨씬 강해지면 그에 비례하여 메모리 셀 비용이 5배 이상으로 증가되는데, 엔비디아는 딱히 이러한 시나리오를 원하지는 않는다. 엔비디아는 다시 생각한다. 왜 굳이 메모리가 수십 년 된 폰노이만 방식을 계속 따라야 하는가? 폰노이만이 뭐 예수인가? 그냥 온-칩 SRAM을 좀 늘리면 안 되나? 그러나 생각해 보니 SRAM을 무작정 늘리는 것은 트랜지스터가 6개나 필요하므로 수율 변화에 굉장히 민감하고, 다이 사이즈도 커져서 부담스럽다. TSMC가 웨이퍼 가격을 무진장 올릴 것 같다. 그럼 대신 GPU 공유 메모리(shared memory)나 scratchpad처럼 하드웨어 보다, SW 상에서 전략적으로 데이터 사이즈 관리하는 온-칩 메모리 방식은 어떨까? 그건 엔비디아가 원래 잘했던 것이니 충분히 가능할 것 같다. 특히 캐시 일관성 오버헤드를 줄여서 워크로드 변동에 유연하게 대처할 수 있는 배치는 엔비디아가 제일 잘하는 최적화 중에 하나이니 가능할 것 같다는 생각이 들 것이다. 즉, AI 연산 특성에 맞게 메모리 접근 패턴 자체를 실시간으로 재구성(blocking, tiling)할 수 있는 알고리즘을 코어 어딘가에 임베딩하고, 액세스 히트율을 높여서 대역폭 활용도 알뜰하게 할 수 있을 것만 같다. 이러면 진짜 한 자릿수 랜덤 액세스도 가능하고, 실질적으로 레이턴시 팍팍 줄일 수 있을 것이라는 계산이 선다.
일단 엔비디아는 이를 구현해 보기 위해 온-로직 내장 DRAM (eDRAM) 캐싱이 가능한지 타진해 본다. 즉, 메모리 메이커들이 잘하는 일반적 DRAM 대신, 로직 프로세서 다이 위에 직접 eDRAM 셀을 통합하여 온-칩(on-chip) 대용량 캐시를 구성해 보자는 생각을 해 본다. 온-칩 캐시는 당연히 오프-칩보다 전기적으로, 물리적으로 코어와 훨씬 가깝게 연결되므로 레이턴시가 1-2 ns 수준으로 확 단축될 수 있다는 시뮬레이션 결과를 얻는다. 엔비디아는 그 결과에 일단 만족한다. 자체적으로 그런 설계를 해본 노하우가 있지만, 필요하면 인텔이 10년 전에 했던 128 MB 짜리 eDRAM L4 캐시 기술을 조금 차용하면 될 것 같다. 다만 이렇게 하려면 코어와 온-칩 DRAM을 직접 연결할 수 있는 공정 전용 설계가 필요한데, 그건 엔비디아 영역 밖이다. 이는 칩과 공정을 모두 잘해본 회사가 있어야 한다. 그런데 딱 보니 옆에 TSMC가 있다. 맞춤 맞게 자신의 고향 대만 회사고, 원래도 오랜 기간 비즈니스 하며 술 같이 마신 형제 회사다.
엔비디아는 여기서 이제 한 단계 더 나아간다. HBM처럼 TSV로 DRAM 다이를 로직 위에 스택 하고, 스택 된 DRAM 뱅크 안에 가벼운 RISC 코어나 벡터 유닛을 배치하여, 데이터 이동을 최소화하며 메모리 내부에서 연산을 수행할 수 있지 않을까 라는 생각이다. 이는 이미 메모리 메이커들이 몇 년 전 핫칩 등에서 선보인, 이른바 PIM(process-in-memory) 기술과 원리적으로 다를 바 없다. 그러나 기존 메모리 메이커들은 로직 위에 스택을 직접 하지는 않았다. 다만 한국 회사들 하는 거 보니까 아직 프로토타입임에도 불구하고 1 TB/s나 대역폭이 나왔고 이야기도 하고, 여기에 AI 커널에 맞게 최적화하면 추가 가속도 가능함이 엔비디아의 눈에 띄었다. 특히 GPU 내부의 공유메모리나 스크래치패드 최적화에 일가견이 있는 엔비디아는 SW 단계부터 메모리 관리를 직접 최적화하여 액세스 대기시간을 심지어 SRAM보다 더 짧게 가져갈 수 있을 것 같다는 계산 결과를 얻는다. 아마 1 ns 보다 짧게 가져갈 수 있을 것이라는 결과가 나왔을 것이다. 그러면 굳이 L1, L2 등으로 세분화되는 메모리 하이어라키 필요 없다. 엔비디아는 이미 Hopper나 Ada에서 공유메모리를 다수 뱅크로 확장하는 스케일업 경험이 있고, 여기에 텐서 코어에 올리는 작업량의 볼륨 맞춤형으로 메모리 명령어 셋도 추가할 수 있으니(엔비디아는 이런 명령어 셋 최적화에 도가 텄다.), 자동화는 별 문제도 아니고, 사용자를 위한 편리한 툴킷도 제공할 수 있을 것 같다.
자. 이렇게 대략 자신들이 잘하는 메모리 관리 SW와 TSMC 등이 잘하는 패키징, 그리고 TSMC 고유의 하드웨어+공정 DTCO 노하우를 종합해서 생각해 보니까, 메모리 레이턴시를 1/10 심지어 1/20 이하로 낮추는 것도 가능하겠다는 생각이 드는 것이다. 이렇게 레이턴시가 확 줄어들면 GPU-to-GPU 연계 성능에서도 여유가 더 생기니까 일석이조다. 엔비디아는 TSMC를 만나 조심스레 이러한 전략을 타진해 본다. TSMC는 이미 CoWoS로 엔비디아의 까다로운 조건을 다 만족해 본 경험이 있다. CoWoS의 칩렛 모듈에서 맞춤형 network-on-chip(NoC)를 통해 메모리 액세스 경로를 최적화하는 것은 원리상 가능하다. 그렇지 않아도 슬슬 자사의 브랜드로 재미난 칩을 만들 계획을 소리소문 없이 추진하던 TSMC는 역으로 엔비디아에게 제안한다. 일단 실리콘 인터포저 TSV 링크 개선을 통해 레이턴시를 대충 0.14-0.15 ns까지 맞출 수 있을 것 같다고. 그리고 CoWoS의 RDL과 Cu microbump 최적화를 통해 보드 레벨에서 발생하는 traversal 딜레이도 10-20 ns에서 2 ns까지 낮출 수 있을 것 같다고. 그리고 인터포저 상에 GPU 코어, 메모리 스택, 가속전용 칩렛을 최대한 다닥다닥 배치하면 칩렛 간 홉(hop) 당 발생하는 0.2-0.3 ns 내외의 지연이 1-2 hop 수준에서 통제되므로, 길어봐야 1 ns 이내에서 hop delay를 통제할 수 있을 것 같다고 계산을 공유한다. 엔비디아는 한국의 H나 S가 제시한 PCB-DIMM 구성 스펙을 다시 살펴본다. 이 한국 녀석들은 시대가 어느 시대인데 아직도 20-30 ns을 이야기하고 있다. 그나마 괜찮게 봤던 H사도 계속 HBM 층수 높이기 전략을 자랑스럽게 이야기하고, tsv 구멍 더 뚫을 수 있는 HARC 장비 더 샀다고 자신감만 오버하며 피력하는 것 같아 별로 마음에 안 든다. 이 녀석들, 반도체 만든다는 녀석들이 근본적인 문제는 정작 자꾸 회피하는 중이다. 마음에 안 든다. 엔비디아는 TSMC와 한 3-4년 정도 이 문제를 터놓고 이야기했고, 대충 이리저리 테스트해보니 한국 메모리보다 메모리 인터커넥트 레이턴시를 1/20 이하로 만들 수 있음을 확인했다.
다음 수순은 주요 메모리 셀 공급 업체를 어떻게 이 구도에 들어오게 하되, 병목 지점이 되지 못하게 하느냐이다. 일단 젠슨 황은 고향을 빈번히 찾아 마피아 조직 점검하는 두목이라도 된 듯, 대만에서 타이완 섬 이미지를 가운데 띄워 놓으며 언론 홍보를 대대적으로 하면서 대만의 주요 IT 업체들을 모두 초청하여 제대로 AI 반도체 공급망 다시 만들겠다는 선언을 했다. 여기에 한국 메이커들이 들어올지 여부는 불확실하나, 일단 대만에 있는 메모리 메이커들, 심지어 중국의 메이커들에게도 기회가 이제 돌아가기 시작하는 것은 예상할 수 있다. 엔비디아와 TSMC는 이 바닥에 제대로 들어오고 싶은 메이커들에게 '제대로 메모리파운드리' 역할할 준비 하라고 주문을 넣을 것이다. 한국 애들처럼 그냥 공장에서 찍어내듯 만들고 파는 전략 말고, 우리와 먼저 상의하고 우리 제품으로 라인 제대로 꾸며서 우리가 원하는 메모리를 우선적으로 만들고 거기에 자원을 쏟으라고 주문할 것이다. 그러면 엔비디아와 TSMC도 그에 상응하는 리워드를 줄 것이고, 자원을 기꺼이 나누겠다고 매칭 약속을 할 것이다. 그러면 무엇을 주문할 것인가? 일단 메모리 업체들더러 한국 애들이 지배하는 JEDEC 감옥에서 나오라고 할 수도 있다. JEDEC은 소자 신뢰도와 표준 유지를 위해, DRAM 사양에 일종에 족쇄를 채워두었다. 그러나 엔비디아와 TSMC는 풀 튜닝된 5백 마력짜리 빨간색 짐승 같은 슈퍼카를 원하지, 고장 안 나고 적절한 승차감만 제공하는 중년의 아빠 차 같은 일제 검은색 세단을 원하지 않는다. 일단 지연이 최소화된 DRAM 다이 설계를 다시 하라고 요구할 것이다. 온-다이 버퍼, 즉, 다이 내부에 가벼운 리피터와 프리앰프를 내장하여 패키지 연계 과정의 딜레이를 최소화하라고 할 것이다. 그래서 단일 홉 지연을 0.2-0.3 ns 수준으로 무조건 통제하라고 요구할 것이다. 필요하다면 같이 설계해 주겠노라고 할 것이다. TSMC도 메모리 메이커들에 대한 요구는 가혹해질 것이다. 인터포저에 최적화된 다이 레이아웃을 만들고, 특히 TSV 패드 배열과 마이크로 범프 피치를 무조건 TSMC CoWoS 규격에 강제로 맞추라고 요구할 것이다. 이는 다이-인터포저 딜레이를 최소화하기 위함이다. 특히 TSMC가 쓰는 패키징 공정과 소재의 열물성, 기계적 물성과 호환되는 공정 조건을 요구할 것이고, 이는 사실상 TSMC에게 공정과 소재 종속될 준비를 하라는 뜻이기도 하다. (아니면 메모리 메이커들의 IP를 TSMC에게 조건 없이 개방하여 TSMC가 그 IP에 맞춰 다시 DTCO 해주든지.)
엔비디아-TSMC는 경쟁 메모리 메이커들에게 점프할 기회를 몇 번 더 준다. PIM 그거 뭐 멋지다고들 하는데, 그러면 이왕 하는 거 제대로 해보고 싶지 않아?라고 제안할 것이다. 그래서 메모리 메이커들에게 엔비디아-TSMC는 PIM 인스트럭션 세트와 메모리 맵을 맞춰 주고, 대신 DRAM 다이에 레지스터 파일과 간단한 선형연산을 할 수 있는 전용 ALU 로직을 추가할 수 있도록 설계 IP를 넘기라고 요구하거나, 엔비디아-TSMC가 요구하는 로직이 메모리 메이커 IP에 확장되어 연계될 수 있는 IP 공유를 요구할 것이다. 대신 이들 메모리 메이커들의 PIM 내 전용 ALU 명령어 셋을 CUDA 컴파일러와 연동시키기 위해 엔비디아가 외부로 공개하지 않던 몇 가지 핵심 기술 문서를 기꺼이 공유할 수도 있을 것이다. 이는 물론 엔비디아 생태계에 메모리 메이커들을 자의반타의반 종속시키기 위한 밑작업이기도 하다.
자 그러면 기존의 3등 이하 메모리 메이커들 입장에서는 점령군 같이 구는 엔비디아-TSMC들이 과연 매력적인 비즈니스 상대로 인식될까? 일단 만년 3위인 마이크론부터 알아보자. 이들은 3위이긴 하나, 어쨌든 DRAM 바닥에서 오래 버텨서 살아남은 강자다. 지연이 최소화된 DDR5, GDDR7도 있고, CoWoS 호환성 경험도 많이 있다. DRAM도 1b까지는 무난하게 왔다. TSMC가 요구하는 DRAM 다이 튜닝에 알아서 맞춰질 수 있다. 무엇보다 마이크론은 대만에 팹이 있다. 존재감은 약하지만 대만의 난야는 어떤가. 이미 TSMC 팹과 지리적으로 그야말로 붙어 있는 데다가, 애초부터 전략적 협업 관계를 유지해 온 사이이므로, CoWoS 맞춤형 DRAM 설계를 기꺼이 받아들일 것이다. 여기에 이 바닥의 존재감을 보이려 애쓰는 중국의 CXMT는 어떤가? 이들은 언더독으로서 의당 단가-용량에서 타협할 준비가 되어 있고, 중국 정부도 히든 비용을 기꺼이 감내할 준비가 되어 있을 것이다. 무엇보다도 이들은 글로벌 무대에서 당당히 HBM 벤더로 인정받으며 존재감을 드러내고 싶을 것이기 때문에, TSMC 패키징 고객사 제안이 들어오면 기술을 배우기 위해서라도 입장료 내고 들어오려 할 것이다.
물론 한꺼번에 갑자기 기존의 한국의 메모리 메이커들을 이런 방식으로 축출할 수는 없다. 아무리 마이크론, 난야 등이 성장해도 DRAM을 수십 년 깎아 온 한국의 양대 메이커들의 업력을 무시할 수는 없기 때문이다. 그럼에도 불구하고 한국의 메이커들에게도 엔비디아-TSMC는 똑같은 요구를 할 것이다. 메모리 장벽 제대로 해결할 의지가 있다면 무조건 무릎 꿇고 내 밑으로 들어오라는 이야기를 신사적으로 할 것이다. 하닉, 삼성의 HBM3E, HBM4에 황 회장이 직접 사인해줘 가며 웃으며 동시에 살벌한 제안을 건넬 것이다. 하닉보다 삼성은 사실 현재로서는 사정이 더 급하므로, 어쨌든 이 제안을 진지하게 고민할지도 모르겠고, 반면 하닉은 안정적 1st 벤더로서 상황을 이리저리 재단하기 시작할 것이다. 한국의 메모리 메이커 양사가 새롭게 개편되는 AI 반도체 바닥에서의 위상 추락을 감내하고서라도 계속 있을 것인지, 아니면 아예 새로 판을 짜고 메모리를 탈피하여 PIM을 위시로 제대로 로직 다이와 붙여서 만들 것인지 사이에서 고민이 깊어질수록, 엔비디아-TSMC는 시간을 번다. 세컨드 벤더가 될 마이크론, 난야, 그리고 보험용으로 끼워 준 CXMT에게 이러한 시간은 매우 값진 시간이다. 기술 격차를 줄일 수 있기 때문이다.
한국의 메모리 메이커들이 만약 대만 반도체 생태계, 즉, 대만 중심의 AI 반도체 공급망 재편에 하나의 키플레이어도 아니고, 사실상 하청으로 편입되는 것을 자존심상 도저히 못 받아들이겠다 선언하면 현실이 크게 달라지는가? 당분간 아주 크게 달라지지는 않을 것이다. 여전히 앞서 언급했듯, 한국의 양사가 점유하는 메모리는 시장에서 몇 년 간 계속 수요가 생길 것이고, 메모리가 HBM만 있는 것도 아니며, HBM 자체도 다음 JEDEC 표준이 업데이트될 때까지는 시장의 1위를 수성할 것이며, 당분간 JEDEC은 한국이 지배력을 미칠 것이기 때문이다. 그런데 갑자기 어느 날 엔비디아는 완전히 새로운 방식의 딜레이 1 ns 짜리, 뭐, 일명 브랜드 붙여서 'NRAM'을 선보인다고 CES나 GTC, 컴퓨텍스 등에서 선언할 것이고, 이를 TSMC-마이크론-난야-CXMT와 공동 출시하며, NRAM의 표준도 공개하고, 기술 스펙을 핫칩 같은 데서 갑자기 터트리며 생태계를 개방한다고 선언할 것이다. 이렇게 해야만 엔비디아의 다음 세대 GPU가 완성될 수 있다고, 어쩔 수 없는 disruption이었다고 선언할 것이다. NRAM은 NVLINK와도 완벽호환되게 만들고, CXL보다 상위 개념의 NXL 같은 전용 express link 도 뭐 GTC 같은 데서 또 공개할지도 모른다. 한국 메이커들은 그게 무슨 소리냐! NVLINK과 CXL은 근본적으로 다른 개념의 기술이다! NVLINK는 GPU-to-GPU 통신인데, CXL은 캐시 일관성 버퍼링 제어 기술이란 말이다! 바보들아!라고 외치겠지만, 젠슨 황은 이제 NVLINK은 사설 고속도로가 아니라 공용 고속도로가 된 지 오래며, 대역폭도 훨씬 늘어났고 레이턴시가 1-2 ns으로 대폭 절감된 초고속 도로인 NXL로 완벽 연계되기 때문에, CXL만 계속 고집하는 것은 매우 불행한 일이라고 슬픈 표정을 지을 것이다. 물론 분위기를 이렇게 만들려면 이미 엔비디아가 캐시 일관성에서 압도적인 퍼포먼스를 가진 인터커넥트 기술을 자신의 생태계와 공유했어야 하지만 (예를 들어 메모리 메이커나 서버 업체들이 모두 라이선스를 취득하고 NVLink 인터페이스 구현에 동참해야 함), 지금 분위기로는 충분히 그렇게 할 것 같다. 적어도 NXL 등으로 통합이 안 되면, NVlink + CXL 듀얼 지원이 되는 (즉, DGX 시스템처럼 내부적으로는 NVlink로 GPU 클러스터를 묶고, 외부적으로는 메모리 풀링이나 가속기 확장을 CXL로 처리하는 하이브리드 방식) 방법을 찾을 수도 있을 것이다.
그러면 엔비디아가 이렇게 다소 무리를 해서라도 대만 중심, 혹은 나아가 정말 greater china 중심의 AI 반도체 새판을 짜려고 하는 것처럼 보이는 동기는 무엇인가? 분명 이렇게 막 나가다가는 그렇지 않아도 반도체와 AI국가 명운을 걸고 있고, 그를 국가 기술안보 핵심 아이템으로 설정한 미국 정부에 찍힐지도 모르고, 심지어 그래서 화웨이 같은 강력한 기술제재 대상 기업이 될지도 모르는데? 미국이 아무리 예전에 비해 힘이 빠지고 있다지만, 구글, MS, 메타, 오픈AI, Applied Mater, LAM rsch, 시놉시스, 케이던스 등이 쟁쟁하게 버티는데 제 아무리 대만-중국 연합이 공급망 어쩌고 저쩌고 한답시고 힘써봐야 얼마나 쓴다는 것인가?
사실 그에 대해서는 다 그럴만한 이유가 있다고 보인다. 이는 2부에서....