A brave new world right now.
한국 메모리 반도체의 서바이벌 게임: 현실의 생존 너머 새로운 세계에서 살 준비가 되어 있는가?
앞서 1-2부에서 엔비디아가 대만-중화권을 중심으로 메모리 장벽을 근본적으로 자사의 기술 밸류체인 하에서 재조정하며 극복하겠다는 의도, 그리고 이를 현실로 만들기 위해 기술적으로 어떻게, 그리고 전략적으로 어떠한 밸런싱으로 할 수 있을 것인지 탐색해 보았다. 사실 1-2부 이야기를 그렇게 길게 했던 것은 '한국 메모리 반도체 산업 이제 정말 큰일 났다!'라는 식상한 이야기만 하려던 목적은 아니었고, 어쨌든 정말 활로를 찾아야 하는 상황에서 가만있으면 안 될 것 같다는 생각이 들었기 때문이었다. 문제는 현실의 극심한 경쟁 구도에서 살아남는 것만으로는 이제는 충분하지 않다는 것이다. 경쟁은 1회성으로 끝나지 않기 때문이다. 그리고 가장 큰 경쟁자는 이제 미국도, 일본도 아니고, 섬 전체가 마치 실리콘 아일랜드가 되어 버린 것 같은 대만, 그리고 거대 내수시장과 공산당 정부의 엔진 달린 톱니바퀴 같은 집중 지원을 받는 중국의 반도체 산업 전체다. 이러한 상황은 아마 당분간 앞으로 바뀌지 않을 것이다. 아마 적어도 한 세대 이상은 한국 반도체 산업은 초격차의 영광은 이제 뒤로 하고, 생존게임을 벌어야만 하는 처지가 될 것이다.
생존게임은 그 어감에 내포된 것처럼, 마냥 스트레스 풀하기만 할 것 같지만, 사실 생존게임만이 가져다줄 수 미덕(?)과 장점이 있다. 가만있으면 절대 변하려 하지 않는 공룡 같은 조직도 움직이게 만드는 절박함을 안겨주는 것은 기본적인 미덕이고, 반복되는 생존게임에서 일단 계속 살아남는 데 성공하면 그때마다 생존을 위한 노하우가 쌓이는 것은 덤이다. 또한 어쨌든 계속 살아남는 데 성공한다면, 다음번 생존게임에서는 더 큰 대미지를 입기 전에 알아서 가드를 올릴 줄 알게 된다. 학습효과가 생기기 때문이다. 물론 그러한 미덕과 노하우를 놓치면 결국 어느 단계에서는 생존에 실패하여 역사의 뒤안길로 사라질 것이다. 그런 케이스를 찾기 위해서는 멀리 갈 필요 없이 불과 한 세대 전 옆나라 일본의 반도체 산업 몰락을 보면 된다. 한국은 그간 그 이웃 나라의 불행한 산업사를 반면교사 삼아야 한다고, 우리는 그 전철을 밟으면 안 된다고 내부적으로 나름 단속도 하고 경계도 했지만, 반복되는 산업사의 잔인한 서바이벌 게임의 피해자가 될 수 있는 상황에서 한국도 예외는 아니라는 것은 이제 현실로 드러나고 있다.
냉철하게 말하면, 한국의 메모리 반도체 제조사들은 자칫 하면 죽을 수도 있는 생존게임의 상황에 처해 있음을 정말 명확히 인지해야 한다. 10년 전만 해도 잘 나가던 디스플레이 산업이 생존게임에서 점점 밀려나고, 20년 전만 해도 글로벌 수위를 다투던 석유화학이 쇠락하고, 한 세대 전 한국의 철강 생산량을 탑 3으로 만들었던 제철 산업이, 이제 쪼그라드는 기색이 만연한 반도체에서, 특히, 한국이 자랑하던 DRAM 같은 메모리 반도체에서 재현되지 말라는 법이 없다. 다행히 아직 메모리 반도체는 그간의 극심한 경쟁에서 체득한 요령이 생겨 가드를 올릴 수 있는 여력이 아직은 있고, 생존게임에서 살아남을 수 있는 방법을 몇 개 정도는 시도해 볼 시간적 여유도 조금은 남아 있다. 하지만 이 노하우와 여유를 제대로 활용하지 못하면 한국의 메모리 반도체 산업도 결국 하청으로 전락하여 겨우겨우 명맥만 잇는 처지가 될 가능성은 높아질 것이다.
거두절미하고 그러면 이제부터 생존 방안을 모색해 보자.
1-2부에서 알아보았듯, 엔비디아 같은 GPU 설계 업체 입장에서는 메모리 장벽은 넘어야 할 골칫덩이고, 그래서 이 문제를 메모리 메이커들에게만 맡겨두기가 갑갑한 상황이다. 그래서 '답답하니까 내가 뛴다' 모드로 가려는 것이다. 그렇지만 반대로 메모리 장벽을 제일 잘 이해하는 것은 결국 메모리 업체들이다. 엔비디아의 기술적 솔루션이 충분히 메모리 장벽 완화에 도움이 될 것임은 확실해 보이지만, 그러한 솔루션을 모두 메모리 제조 공정에 다 담을 수는 없다. 원가 문제, 공정 재배치 문제, 그리고 무엇보다 수율 문제가 걸리기 때문이다. 아무리 HBM 단가가 DRAM의 6배, 12배로 높게 쳐준다고 해도, 여전히 메모리 제조의 제1 미덕은 원가 방어와 수율 관리다. 한 때 일본 메모리 메이커들처럼 95% 이상의 극악의 수율까지 방어할 필요는 없겠지만, 상식적으로 80% 이상은 방어해야 한다. 그러니 이러한 제한 조건에서는 엔비디아가 시도하는 기술적 솔루션을 전부 반영하기 어렵다.
메모리 메이커들 입장에서 현실적으로 먼저 시도해야 할 기술적 솔루션은 이른바 하이브리드 메모리다. 하이브리드라는 개념은 이제 이곳저곳 너무 많이 쓰여서 식상해진 지 오래지만, 의외로 메모리에서는 사실 그 개념을 기술적으로 제대로 정립하는 것이 쉽지 않다. 그 대표적인 개념은 PIM(process-in-memory) 일 것이다. 이제 꽤 많은 사람들이 메모리 셀 내에 코어에서 하던 계산의 일부를 가져올 수 있다는 개념 자체는 무리 없이 받아들이는 것 같다. 문제는 과연 어떤 계산을 어떻게 가져와서 처리할 것이냐는 것, 그리고 그것이 그래서 도대체 얼마나 메모리 장벽을 완화할 수 있냐는 것이다. 여기서부터는 사실 전문적 업계나 학계 밖에서는 잘 논의되지 못하는 주제다.
삼성전자나 하이닉스는 이미 몇 년 전부터 PIM 개념을 라인에서 구현할 수 있는지 테스트 중이다. PoC 단계는 이미 지났고, 양산성이 있는지의 테스트 단계에 돌입한 셈이다. 한국의 메모리 양사는 DRAM 셀 구현 기술과 TSV, 인터포저 공정 역량을 오랜 시간 쌓았기 때문에, PIM용 경량 연산 유닛(ALU, 벡터 엔진)을 메모리 다이에 내장하는 방식의 하이브리드 기술을 구현할 능력이 있다. 여기서 언급하는 경량 연산은 대략 ALU 기준으로는 1,000 게이트 내외 수준의, 8 혹은 16비트 정수 처리 전문 ALU을 의미한다. 따라서 이들이 차지하는 다이 면적은 별로 크지 않다 (대략 0.001-0.003 mm^2 정도). 이들 ALU는 8, 16비트 정수의 더하기/곱하기 혹은 32비트 FP 가/감산(fadd/fsub) 반복 연산을 담당할 수 있다. 사실 ALU 추가보다 더 플러스알파가 되는 것은 바로 벡터 엔진이다. 이들은 하나의 명령으로 다수의 데이터 (예를 들어 16-by-16 같은 정사각 블록 행렬 수백-수 천 개) 연산을 수행할 수 있으므로, 메모리 왕복에 따른 latency를 여러 연산에 분산시켜 줄일 수 있다. 16-by-16 행렬은 하드웨어로서는 16 lane-by-16 bit MAC 배열로 환산할 수 있고, 이는 대략 수백 TOPS/s per PIM의 성능으로 구현될 수 있다. 벡터 엔진을 잘만 배치하면 큰 행렬 곱셈 (GEMM) 등을 효율적으로 미리 처리해 둘 수 있는 셈이다. 이는 웬만한 인공신경망 기반 학습에서 CNN(convolution neural network) 같은 행렬 곱하기가 얼마나 반복이 많이 되는지 생각해 보면 큰 장점이 될 수 있다. 이뿐만 아니다. 벡터 엔진은 행렬 연산 별로 따로 미리 설계해 둘 수도 있다. CNN용, sparse 행렬용, 스칼라-벡터 혼합 연산용 등으로 따로 설계가 가능한 것이다. 한 번에 처리할 수 있는 행렬 크기도 PIM 다이 크기에 따라 얼마든지 조절이 가능하다. 예를 들어 위에서 언급한 다이 크기라면 8-by-8부터 64-by-64 수준까지도 조절 가능하다. 여기서 더 큰 행렬은 별 의미 없다. 사이즈가 너무 큰 행렬이라고 해도, 이렇게 미리 크기가 재단된 작은 정방 행렬로 나누기만 하면 되기 때문이다. 특히 행렬 연산 중에서 연산량 소요가 많은 행렬 대각화나 역행렬 계산, 행렬식 계산 등의 과정은 Jacobi, Gauss-Seidel 형태로 변환되어 반복적으로 계산되어야 하는데, 벡터 엔진을 효과적으로 배치하면 이러한 반복 연산 특화 유닛을 포함한 PIM이 사실상 행렬 연산 전용 코어처럼 활용될 수도 있다.
이게 어떤 뜻인가?
엔비디아가 메모리를 GPU에 포함시키는 방식으로 온-칩 최적화를 하는 것과는 달리, 메모리 메이커들은 메모리 장벽을 메모리 내에서의 데이터 사전 처리로 메꿀 수 있다는 것이다. 어차피 메모리에서 코어로 가는데 오랜 시간이 걸리는 것이 문제라면, 그 기다리는 동안 작업을 미리 더 하겠다는 뜻이다. 예를 들어 코인 세탁실에서 1시간 동안 빨래 건조를 기다려야만 하는 상황인데, 어차피 식사도 해야 하는 상황이라면, 그 1시간 동안 근처 식당에서 빨리 끼니를 해결하면 시간을 절약할 수 있는 개념이다. 물론 엔비디아도 이러한 PIM 개념을 모르는 것은 아니지만, 애초에 이미 최적화된 GPU의 작업을 굳이 또 분배하여 메모리 스케쥴링까지 신경 쓰고 싶지는 않을 것이다. 그 귀찮은 작업을 메모리 메이커들이 수고하며 메모리 다이 변경을 감내하면서 최적화할 수 있다면, 이제 메모리 메이커들에게 조금씩 기회가 열리기 시작한다.
PIM 주도권을 메모리 메이커들이 가져오기 시작한다면, 주도권 유지를 위해서라도 하드웨어 상에서의 구현과 제조로만 그치면 안 된다. 메모리 메이커들은 마치 로직 LSI 설계 팹리스들처럼 '고객'을 생각하기 시작해야 한다. 예를 들어 PIM 다이얼로그 API/런타임을 고객사에게 제공할 준비를 해야 한다. 즉, 고수준 API와 LLVM 백엔드를 오픈소스화 할 수 있어야 하고, 이를 AI HW 설계 팹리스들이 스택으로 활용할 수 있게 잘 다듬어 두어야 한다는 것이다. LLVM은 C++/python 등의 상위 언어를 타깃 ISA(PIM 명령어 세트)로 번역하는 역할을 하므로, 최적화 패스(loop tiling, vectorization)를 통해, PIM 벡터 엔진이나 ALU 활용성이 극대화될 수 있다. 이를 오픈소스화 해야 하는 이유는 명확하다. 기본적으로 오픈소스 화함으로써 생태계 확산은 물론, AI HW 설계사나 컴파일러 커뮤니티나 학계가 직접 패치, 확장할 수 있는 권한을 부여할 수 있기 때문이다. 이를 위해 PIM 명령어 셋은 무조건 심플하고 직관적으로 만들어야 하며, 이미 잘 돌아가고 있는 pytorch 같은 API에도 매핑이 쉽게 될 수 있도록 프레임워크 친화적으로 만들어져야 한다. 엔비디아 CUDA가 괜히 AI 가속기 설계 업체들의 생태계에서 핵심 tool이 된 것을 잊지 말아야 한다. 특히 다양한 정수 precision에 유연하게 대응할 수 있도록 (이미 이것의 중요성은 딥시크 사태에서 확인한 바 있다.) sparse, quantization에 대비할 수 있는 확장 슬롯(reserved opcodes)도 확보해 두어야 한다. 특히 AI HW 설계 과정에서 1.1 V 리피터, 프리앰프 공정과 호환되는 고속 CMOS 모듈 설계도 메모리 메이커들이 미리 최적화해두어야 한다. 이를 위해 공정 기술력에서 얻은 노하우를 활용하여 , TSV 간선 길이 최적화, PIM 로직과의 배치 최적화 등의 구체적인 솔루션을 제공해야 한다. 이는 메모리 메이커들이 주도적으로 PIM을 넘어, PIM SI (stack integration)까지 커버하는 수준까지 가야 함을 의미한다. 이렇게 하면 로직사에 의존하던 IP 가치의 일부를 내재화할 수 있는 효과까지 덤으로 확보할 수 있다.
엔비디아의 주력은 앞으로 physical AI가 된다고 했는데, 이를 위해 엔비디아가 다양한 수준에서 메모리를 튜닝하여 자사의 플랫폼에 맞추는 시도를 할 것이라는 이야기를 앞서 1-2부에서 했다. 만약 이 전략을 엔비디아가 아니라 메모리 메이커들이 시도한다면 매력적인 차별점이 나올 수 있을까? 예를 들어, NPU나 TPU, 혹은 다양한 데이터 셋에 맞는 형태의 학습과 추론에 최적화된 온-칩 전용 메모리가 중요한 이슈가 될 것인데, 어떠한 칩 구조(아키텍처)를 설계하고 만들어야 할까?
일단 다목적 AI 엔진 통합 메모리 설계가 필요하다. NPU, TPU, GPGPU, AI ASIC 마다 워크로드는 제각각이므로(예를 들어 벡터 행렬, sparse 연산, 벡터-스칼라 혼용, graph NN, CNN 등), 메모리 블록의 모듈화가 필요하다. 여기서 말하는 모듈화는 다이 내에서 기능 별로 물리적 논리적 블록을 강제로 만드는 것을 의미하는데, 이렇게 블록화 해두면 각 블록을 각 연산에 특화시켜 작업 분배가 가능해진다. 즉, 모듈화 해두면, GNN용으로는 인덱스-포인터 캐시를 배치할 수 있게 되고, CNN용으로는 행렬 곱하기 연산 전용 버퍼도 마련할 수 있는 등의 효과를 누릴 수 있는 것이다. 특히 PIM과 scratchpad를 동일 다이 내에 논리적 영역으로 분리하여 배치하는 것도 중요하다. 이들을 분리해야 하는 이유는 명확하다. 일단 scratchpad는 캐시 일관성 오버헤드 없이 운영이 가능한 반면, PIM은 그렇지 않기 때문에, 이들이 분리되어 있지 않으면 추가적인 coherence 자원이 소모된다는 문제가 생기기 때문이다. 또한 분리해 두면 워크로드도 최적화될 수 있는데, 특히 PIM 블록은 메모리 셀 바로 근처에서 대규모 행렬 연산에 집중시킬 수 있는 동시에, scratchpad는 제어에 초점을 맞추되, 지연에 민감한 연산 (분기, 테이블 조회 등)에 집중시킬 수 있다.
이렇게 다목적 AI 엔진 특화형 메모리가 설계되면, 각 머신러닝 프레임워크에 직접 integration 될 수 있는 메모리가 구현될 수 있다. 이러한 개념의 메모리는 사실 지금까지 제대로 구현된 적이 한 번도 없다. 이를 위해 그에 특화된 메모리 명령어 셋이 필요할 것이고, 고객사를 위해 이 명령어 셋은 앞서 언급한 것처럼 단순하고 표준화되어야 한다. 로직사에 비해 경쟁력을 가질 수 있는 부분은 메모리-연산 통합 과정에서 이러한 작업 맞춤형 하드웨어 최적화를 메모리 셀 내부에 미리 해둘 수 있다는 것임을 메모리 메이커들은 다시금 되새겨야 한다.
개론이 끝났으니, 그러면 이제 한국의 각 회사들은 어떻게 하면 좋을지 살펴보자.
우선 삼성전자는 하이닉스와 달리, System LSI, 파운드리, 메모리를 각각 다 가지고 있고, 나름 글로벌 수준에서 기술과 양산 능력을 유지하고 있다. 예를 들어 삼성은 파운드리를 이용하여 SF4, 3 공정을 이용하여 VFET을 기반으로 고전압, 고밀도 PIM 공정을 구현할 수 있다. 이를 통해 삼성 시스템 LSI의 LSI(SoC) IP와 메모리 PIM IP를 원스톱 패키징(3D HIT 같은 삼성의 AVP 기술 이용)으로 구현할 수 있다. 보다 구체적으로는 삼성의 단일 인터포저에 TSV를 결합하고, 그 위에 엑시노스 AI SoC + PIM-DRAM 스택킹을 할 수 있다는 것이다. 여기서 한 발 더 나아가서, 삼성이 자랑하는 CXL을 CXL-Memory module 하이브리드화 (CMM-H)까지 할 수 있다면 금상첨화다. 왜냐하면 이렇게 되면 DRAM + NAND + PIM 로직이 하나의 스택으로 결합되기 때문이고, 결합된 스택은 그대로 서버 칩에 결합되어 chip-to-server로 가는 최적화 과정을 많이 단축할 수 있기 때문이다. 이러한 메모리-로직 통합 패키징은 TSMC나 엔비디아, 인텔, 하이닉스 등이 쉽게 흉내내기 어렵다. 삼성만의 해자가 될 수 있다는 뜻이다.
로직은 상대적으로 약하고 파운드리는 아예 없는 하이닉스는 그러면 어떻게 해야 하나?
물론 하이닉스는 상대적으로 HBM에서 훨씬 유리한 위치를 점하고 있으므로 삼성전자에 비하면 다소 덜 절박할 수는 있겠으나, 몇 년 후 확실히 극심해지게 될 경쟁 상황과 근본적인 메모리 장벽 한계, 그리고 공정 기술 자체의 한계(예를 들어 패터닝 한계)를 생각하면 사실 도토리키재기 상황이다. 하이닉스도 일단 기본적으로 PIM 모델을 구축해야 하고, 이를 위해 전문화된 PIM 파운드리 개념을 도출해야 한다. 하이닉스에 파운드리 팹이 없다고 알려져 있지만, 사실 미니 팹은 꽤 있다. 이를 활용하여 예를 들어 제3의 회사가 만드는 ASIC(NPU 등) 특화 형태로 PIM-DRAM 커스터마이징 서비스를 제공할 수 있을 것이다. 즉, 하이닉스는 삼성에 비해, 이른바 '메모리 파운드리' 개념을 제대로 실현할 수 있는 위치를 선점하고 있다. 이 과정에서 하이닉스는 ASIC 고객사들이 설계한 칩에 대응한 공정 기술을 쌓으면서 PIM-IP 포트폴리오를 강력하게 구축할 수 있을 것이다. 그렇게 구축된 포트폴리오는 다시 외부 ASIC 팹리스 업체들에게 강력한 매력 포인트가 된다. 마치 로직 전문 파운드리인 TSMC가 고객사의 다양화를 통해 경쟁력을 획득한 것처럼 말이다.
어쨌든 이렇게 기술의 변화 방향을 시도했다고 쳐보자. 그 효과는 무엇인가?
우선 삼성은 이렇게 통합된 PIM-IP 포트폴리오를 추가적인 비즈니스 모델로 연결시킬 수 있다. 예를 들어 PIM '메모리 가상화'를 시도해 볼 수 있다. 이렇게 하는 이유는 결국 PIM-IP를 일종의 클라우드 SaaS 모델로 만들 수 있기 때문이다. 고객은 초기에 고가의 PIM 장착 메모리 대량 구입대신, 사용량 기반 과금 모델을 더 매력적으로 느낄 수 있고, 특히 수요가 몰리는 피크 시간에 더 유연하게 대처할 수 있는 가상 메모리 모델이 더 합리적이라고 느낄 것이다. 또한 마치 AI 데이터서버처럼, PIM-IP 하이브리드 메모리 서버는 패치와 업그레이드가 중앙 집중화될 수 있으므로, 에너지 비용이나 운영 비용이 절감되고 운영 난도도 간소화되므로, 고객이 부담해야 하는 운영비가 절감되는 효과를 줄 수 있다. 이는 고객사들, 특히 대형 AI 학습과 추론 모델에 집중하는 고객사들에게 꽤나 매력적인 SaaS 모델로 다가올 것이다. 하이닉스도 이러한 비즈니스 전략을 취하는 것에 무리가 없을 것이다.
이를 삼성전자나 하이닉스는 아예 Memory-as-a-service (MaaS)라고 이름 붙이고 제대로 브랜드화해야 할 것이다. 이런 시장은 이미 2026년에 30억 달러 규모로 성장이 예상되며, 2030년에는 100억 달러 규모 이상, 2035년에는 300-400억 달러 까지도 성장할 것으로 보인다. 여기에 더해 MaaS를 SaaS처럼 이용하려는 글로벌 고객을 타깃으로, 고객 별로 자주 요구되는 연산 IP와 최적화 알고리즘을 마치 파운드리 회사가 공정 IP 제공하는 것처럼 일괄 제공하여 최적화까지 해주는 모델 제공까지 생각할 수 있다. 물론 이는 꽤나 고부가가치 비즈니스가 될 것이다. 이는 메모리 메이커들에게 일석이조다. 기본적인 수익 파이프라인이 추가적으로 생기는 것에 더해, 자체적으로도 꾸준히 PIM-IP 라이브러리를 확장할 수 있게 되어, 자체적인 메모리 서버 성능을 개선할 수 있는 기술적 솔루션 경쟁력이 생기기 때문이다.
비즈니스적 측면에서, 사실 하이닉스의 고민은 PIM 최적화보다는, 당장 범용 메모리와 HBM의 비중 조절을 어떻게 앞으로 밸런싱할 것이냐에 있을지도 모른다. 범용 DRAM은 아마도 몇 년 내로 중국 업체들과의 처절한 치킨게임을 해야 하는 상황에 처할 것이므로, 수익률이 떨어질 것임을 각오해야 한다. 그렇다고 범용 DRAM이나 낸드를 쉽게 포기할 수는 없다. 기업용 서버 시장이 크기도 하고 계속 메모리를 교체하는 상황이 이어질 것이기도 하려니와, PIM이든, HBM이든, 일단 DRAM 셀 공정의 캐파와 경쟁력이 살아 있어야 그다음 단계로 갈 수 있기 때문이다. 범용 시장에서는 캐파를 일정 수준 유지하되, 수익성 강화를 위해 기술 라이선스 사업을 확대하고, 생산 캐파를 전략적으로 조정해야 할 것이다.
위의 한국 메모리 양대 메이커를 위한 맞춤형 전략 외에도, 한국 반도체 산업이 생존게임을 위해 반드시 고민해야 하는 지점은 제조업 AI, 즉, AIX 혹은 요즘에는 줄여서 AX(AI transformation)이라 부르는 영역이다. 한국의 각 제조업 도메인에서 지난 반세기 넘게 쌓인 업력과 노하우를 이제는 다음 단계로 업그레이드해야 함은 주지의 사실이지만, 그 방법이 여전히 불확실하고, 그 공백을 AI가 메꿀 수 있다고 많은 이들이 제안하지만, 구체적 실행 방안은 더더욱 불확실하다. 기술적으로 하나마나 한 이야기들이 반복되는 상황에서, 정말 고민해야 할 지점을 짚어보자. 일단 제조업을 하나로 퉁치는 것부터 피해야 한다. 제조업은 각 산업 도메인의 특성이 확실하게 차이나고, 어떤 산업은 내수가 더 중요한 반면, 어떤 산업은 수출이 더 중요할 정도로 성격부터 다르다. 어떤 산업은 사람이 많이 필요 없을 수도 있지만, 어떤 산업은 여전히 자동화가 어려운 영역도 있다. 이렇게 각 도메인 별로 차이가 확연한 제조업의 업그레이드에 AI를 도입하려면, 그 도메인 특화 알고리즘 개발, 그 알고리즘이 구현될 수 있는 전용 HW가 필요하다. 메모리 업체들은 위에서 언급한 PIM 메모리를 경량화된 고에너지 효율 온-칩 형태로 바꿀 수 있을 것이다. 이렇게 엣지화된 칩들은 예를 들어 석유화학 공정의 전기화를 위한 전환 과정에서, 신재생에너지 발전 단지의 발전량 제어 관제소에서, 스마트그리드의 stability 제어 과정에서, 로봇의 자율 작업을 위한 구동칩으로서, 자율주행차에서, 자율주행선박에서, 자동화된 건설 관리 시스템에서 각각의 수요처를 찾을 수 있을 것이고, 한국의 업력에서 검증된 맞춤형 칩들은 그 자체로 수출 경쟁력이 생길 수 있을 것이다. 이때 중요한 것은 각 산업 협회와 관계자들과 오랜 시간 전략을 마련하여 일종의 표준화된 API를 만드는 것이다. 컨소시엄을 구성하여 각 산업을 보호할 수 있으면서 업그레이드할 수 있는 interface를 만드는 것으로 보면 된다.
사실 한국의 양대 메이커를 포함하여, 글로벌 메모리 반도체 업체들이 PIM을 넘어, 근본적으로 엔비디아 등의 로직 설계 업체들의 하청으로 전락하는 신세를 피하기 위해서는 대체 불가능한 새로운 개념의 메모리 기술을 갖출 수 있어야 할 것이다. 특히 고질적 한계인 메모리 장벽은 물론, 앞으로 더 에너지 소모가 늘어날 것임에 대비하여, 초저전력으로 구동 가능한 개념들이 양산 수준으로 나와주어야 한다. 이미 이러한 후보군이 없는 것은 아니다. 예를 들어 PCRAM은 latency가 10-20 ns 정도로서 DRAM과 비슷하거나 살짝 낮지만, 에너지 효율은 여전히 열 공정을 필요로 하므로 낮은 편이다. 대신 빠른 읽기와 쓰기가 가능하다. ReRAM은 latency를 DRAM의 절반 수준으로 낮출 수 있지만, 에너지 효율은 여전히 불만족스럽다. 대신 대기전류가 낮은 편이고, 스케일업에 유리하므로 양산성은 좋은 편이다. MRAM은 latency를 더 낮출 수 있고, 3 ns까지 떨어뜨릴 수 있다. 에너지 효율은 낮은 편이지만, 일단 안정성이 좋다. 마지막으로 memristor는 제일 latency를 작게 할 수 있다. 1 ns까지 떨어뜨릴 수 있다. 에너지 효율도 제일 낮은 편이라는 것이 문제지만, 멤리스터 아키텍처 특징 상, sparse 연산에 매우 유리하다.
이들 새로운 메모리는 각각 DRAM을 대체할 수 있을지 여부가 계속 테스트 되고 있는데, 메모리 메이커들이 해야 할 일은, 이제 연구개발 단계를 넘어, 우선순위를 latency 축소에 두되, 에너지 효율을 DRAM 수준 혹은 그를 능가할 수 있는 수준으로 끌어올리고, 양산 수율까지 보장하는 소재와 공정을 표준화하여 확립하는 것이다. 이를 위해 결국 각 회사는 아마도 수천-수조 원 규모의 파일럿 팹을 꽤 많이 건설하고 돌려야 할 것이고, 수율 안정화에도 상당히 많은 시간이 소요될 것이다. 그렇지만 어쨌든 그러한 시도도 지금 다소 간의 여유가 있을 때나 가능한 것이지, 시간이 더 지나면 시도조차 어려워진다.
어쨌든 메모리 파운드리, 하이브리 메모리, SaaS 같은 MaaS 같은 새로운 시도는 주로 commodity chip에 치중하던 메모리 메이커들에게는 매우 부담스러운 변신 결정일 수 있고, 또 매우 두려운 변화일 수도 있는데, 사실 이러한 부담과 두려움을 제대로 선제적으로 감내하지 못하면 시간이 지나 엔비디아 주도의 새로운 밸류체인에서 하청 업체가 되는 신세를 면하기 어려워지게 되는 예정된 현실도 군말 없이 받아들여야 한다.
메모리 업체들이 한 단계 더 나아가고 싶다면, 고객을 아예 찾아 나서야 한다. 영업 마인드를 제대로 가지고 마치 파운드리 회사처럼 고객을 적극 찾고, 만나고, 소통하고, 그들의 문제를 해결해 줄 수 있는 솔루션을 공급할 수 있어야 한다. PIM-IP-로직 스태킹 서버를 누가 제일 원할 것 같은가? 의외로 금융기관들이 꽤 큰 잠재적 고객이 될 수 있다. 특히 금융권은 성능도 성능이지만, 고신뢰성, 고보안성이 중요한데, 이를 위해 하드웨어 제조사들의 특장점을 살려, 예를 들어 물리적복제불가(PUF) 등을 덧입힌 개념도 제시할 수 있다. 금융기관에서 필요로 하는 신뢰도는 FIPS 140-3 level-4 또는 Common criteria EAL 5+ 급 정도인데, 이는 금융 데이터 불법 복제, 사전 공격 방어 실패율을 10^-12 이하로 통제하는 수준을 의미한다. 정말 혹독한 수준이다. 메모리 메이커들은 이러한 고신뢰성, 고보안성을 위해 PUF를 TSV 공정 특유의 randomization 패턴이나, 추가적인 신소재 random pattern을 이용하여 달성할 수 있다. TSV 배열 만으로 구현될 수 있는 SRAM-PUF는 일단 BER(bit error rate) 0.1 % 이하가 가능하며, 고유성도 hamming distance 0.5로 보장될 수 있다.
업계뿐만 아니라, 결국 정부도 현실을 인정하고 그에 맞춤형 산업 정책을 선진화하여 개발해야 한다. 단기적으로는 현재의 범용 메모리 반도체 경쟁력이 유지될 수 있도록 세제 혜택과 R&D 지원폭을 늘려야 할 것이며, 중기적으로는 메모리 메이커들이 사업의 근본적인 변화를 감내할 수 있도록 용인 메가클러스터 등에 파일럿 팹 건설 등을 지원할 수 있어야 할 것이다. 이 과정에서 다양한 신소재들이 테스트될 것인데, 이왕이면 국산 반도체 소재 업체들이 자생할 수 있는 기회가 더 열리면 좋을 것이다. 특히 정부 입장에서는 제조업 AI를 위해 메모리 반도체 업체들에서 스핀오프 될 수 있는 기술 아이템을 적극 산업화 할 수 있는 채널을 활성화하고, 각 도메인 산업 담당 협회들, 관계자들과 적극 컨소시엄을 이룰 수 있도록 정책적 인센티브를 제공해야 할 것이다. 메모리가 하이브리화 되면서 결국 국제 표준 이슈도 불거질 것이므로, 정부 기관, 예를 들어 산자부나 KATS 등은 IEC, JEDEC 등에서 활동하는 한국 위원들을 적극 지원하고, 국내 기업들의 기술 솔루션이 TG, WG, PG 등에서 더 활발하게 논의되고 제정에 이를 수 있도록 작전을 더 적극적으로 벌여야 할 것이다.
사실 현재로서는 삼성이나 하이닉스 입장에서 엔비디아가 꿈꾸는 거대한 AI-반도체-physical AI로 이어지는 밸류체인 재편에 1:1로 맞서는 것은 버거운 것이 사실이다. 이미 컨벤션 효과는 엔비디아에게 뺏겼고, 쌓인 자본도 엔비디아에 비하면 부족하다. 그렇지만, 어떤 산업이든 진입 장벽은 있게 마련이고, 그 장벽이 아직 메모리 메이커들을 보호하고 있을 때, 새로운 솔루션을 더 많이, 더 매력적으로 제시해고 변신을 감내해야 할 것이다. 과거의 성공 공식과 고정관념은 초개와 같이 버려야 할 것이고, 선배들의 조언도 한 귀로 듣고 한 귀로 흘려야 할 것이며, 과거의 치킨게임에서 때로는 운이 따라서, 때로는 경영자가 무모해서, 때로는 타이밍이 기가 막히게 맞아서 살아남을 수 있었던 것을 다시 재현하겠다는 우를 범하면 안 될 것이다. 치킨게임으로 범용 반도체 시장이 독과점으로 정리되던 문법은 이제 끝나가고 있고, 메모리 파운드리, 하이브리드 메모리, 맞춤형 메모리, beyond DRAM, 메모리-로직 스택킹, 그리고 MaaS 시대가 오고 있음을 먼저 읽고 먼저 대응해야 할 것이다. 삼성이나 하이닉스 자사 중심으로 이 판을 다시 끌고 올 수 있다면 엔비디아의 시장 자체를 다 뺏는 방식보다는, 엔비디아가 굳이 진입하지 않아도 되겠다는 영역부터 확실하게 점유하는 것이 그 시작점이 되어야 할 것이다.
반도체는 어차피 기술적으로, 물리적으로 점점 한계에 봉착한다. 새로운 시도는 엔비디아는 물론, 그 어떤 강자들이 와도 무조건 피할 수 없는 생존게임의 시대가 도래했고, 한국의 반도체 산업은 현재의 생존게임에서 생존하는 차원을 넘어, 아예 새로운 세계에 발을 내디딜 각오를 해야 한다. brave new world right now.