내가 1년차때 평택에서 했었던 4LPX공정의 퀄컴 Snapdragon 8Gen1, 이 제품을 1년간 하면서 주변 라인 골조가 막 올라가고 있던 차에 매번 흙먼지를 마시면서 막차셔틀을 타고 집을 오고갔던 기억이 있다. 이듬해에 갤럭시 S22의 AP로 탑재가 되었고 이 칩은 발열문제를 해결되지 못해서 무선사업부에선 스로틀링 컨트롤을 위해 궁여지책으로 GOS라는 악수를 두어버렸다. 지극히 개인적인 생각이지만 AP 단가 상승으로 기구적으로 방열 설계 원가에 제약을 두어 SW로 제어하려던게 아닌가 싶다. 대다수의 대중은 S22와 GOS를 질타했다. 초기에는 고객사(퀄컴)의 설계 결함이지 않을까 하는 의심이 나왔지만 8Gen1+ 로 거의 비슷한 floorplan으로 TSMC에 생산을 맡겼고 머지않아 TSMC의 월등한 전성비로 결국파운드리의 유의차로 SF의 열세가 증명되는듯 했다.
2021년 삼성전자 평택캠퍼스 P3 공사현장.
이처럼 지속적으로 소자는 작아지고 트랜지스터의 개수를 늘리기 위해 chip or chiplet이 적층되는 구조에서 열 문제는 반도체 산업의 bottle neck이다.
개인적으로 아폴로 우주왕복선이나 제입스웹 망원경만큼의 파급력이 큰 엔지니어링의 집약체가 올해 엔비디아에서 나온 GB200 NVL72 서버시스템이라고 생각된다. AI칩의 최강자라고 불리는 블랙웰 B200 2대에 Grace CPU 1대와 HBM3E 16대(Hynix꺼)를 결합하면 GB200(2080억개 TR)이 된다.
36개 Grace CPU와 72개의 Blackwell GPU로 이루어진 GB200 NVL72. 가격은 300만 달러 (48억원)라고 한다.
이 GB200을 72개를 병렬로 엮어서 만든게 GB200 NVL72라는 20PetaFlops 연산이 가능한 괴물인데 발열 이슈가 있다. 이를 해결하기 위해 7가지 종류의 칩을 처음부터 설계하고, 동시에 생산에 투입 해야 했었다. 이 서버렉은 120kW의 에너지를 먹는데 일반 가구 120곳이 사용할 전기량이다. 높은 전력소모는 엄청난 발열로 이어진다. 퍼포먼스를 유지하면서 칩이 정상 작동하려면 발열 제어가 되어야 한다. GB200 NVL72에는 너무 많은 칩이 들어있고 서로 얽히고 설켜 연결돼 있다 보니 발열이 나타났다. 단순히 랙의 설계 때문은 아니였고 system level, package level까지 설계가 전면 변경되었다.
IMEC에서 발표한 liquid cooling 패키징. 칩이 더 작아지고 2.5D, 3D로 적층되면서 여러 발열 관리 패키징이 고안되고 있다.
MS의 해저 데이터센터 Project Natick. 2024년, 11년만에 프로젝트를 종료했다. 에너지 절감과 데이터센터 냉각을 위해 바닷물에 서버를 수장시키는 방법을 택했다.
잠깐 기사로 나왔던 TSMC-엔비디아 불화설은 이 GB200 NVL72의 발열에 관한 클레임 때문이었고 (이것이 마치 삼성의 호재처럼 썼던 한국의 기레기들이 있었는데 전혀 그럴일 없다) 가죽점퍼를 좋아하는 우리 황 아저씨는 이 갈등을 바로 불식시켰다. 이 GB200 NVL72의 공급 지연 소식에 SOXX가 휘청였던 이유가 여기 있다. 발열 발생 -> GPU 서버 공급 차질 -> HBM 공급 차질 -> 반도체주 둔화로 이어졌다.
2024년 올해로 93세인 모리스 창. 세기의 인물이라 불릴만하다.
삼성의 HBM도 결국 후공정(패키징)에서 발열을 포함한 이슈로 계속 퀄 통과를 못하고 있는걸로 알고있다. 그래서 작년에 TSMC에서 린준청 아저씨를 영입했다. TSMC의 설립자 모리스 창은 알고보니 MIT 기계공학과 학,석사를 나온 양반이다. 책을 읽어보니 모리스 창은 졸업하자마자 입사한 실바니아라는 회사에서 처음 한 일이 남땜의 열이 트랜지스터를 손상시키는걸 알아내고, 간접 열로 와이어를 연결하는 방법을 찾아내서 수율을 올린 업무였다. 이때부터 열과 반도체에 대한 이해 덕분이였을까, 93세가 된 그의 회사 TSMC가 왜 오늘날 블랙웰 GPU를 생산을 통해 AI시대의 반도체 패권을 쥘 수 있었는지 알 수 있는 대목이다.