brunch

You can make anything
by writing

C.S.Lewis

AI 반도체 시장과 미래: NVIDIA와 HBM

[방구석5분혁신. AI반도체]

[방구석5분혁신=안병민] 세계는 지금 인공지능(AI) 전쟁 중이다. 더 빠르고 더 정확한 AI를 개발하려는 경쟁이 치열하다. 그 중심에 AI 반도체가 있다. AI 반도체는 AI의 두뇌 역할을 담당한다. 초고속 데이터 처리를 가능하게 한다. 인공지능의 성능을 극대화한다. AI 반도체의 수요가 급증하는 이유다. GPU와 고대역폭 메모리(HBM)는 AI 연산을 지원하는 핵심 요소다. 미래는 AI 반도체에 달려 있다. 리벨리온의 박성현 대표의 안내로 들여다본, AI 반도체 시장에 대한 거친 스케치다.


1. S&P 500은 미국에서 중요한 주가지수다. 미국의 500개 주요 기업 주가를 모은 것이다. 이를 따라가는 ETF(Exchange-Traded Fund)는 중요한 펀드다. ETF는 정기적으로 리밸런싱(포트폴리오 재조정)을 한다. 리밸런싱은 주식 비율을 맞추는 과정이다. 주가가 오른 주식을 팔고, 떨어진 주식을 산다. 리밸런싱 날에는 많은 매수/매도 명령이 나온다. 이 명령을 AI 알고리즘으로 처리한다. AI는 주식을 얼마나 사고 팔지 결정한다. 중요한 건 거래 속도다. 1초라도 빨리 주문을 내야 한다.

 


2016년, 콜롬비아 대학교 교수들이 새로운 머신러닝 방법을 제안했다. CNN(Convolutional Neural Network, 컨볼루션 신경망)을 사용해 모델을 만들어 백테스팅(과거 데이터를 이용한 모의 투자)을 실시했다. 백테스팅 결과, 기존 퀀트 알고리즘(수학적 모델과 컴퓨터 프로그램을 활용한 투자 전략)보다 우수한 성과를 보였다. 그러나 실제 트레이딩에서는 성과가 낮았했다. 명령 수행 상의 시간 지연(Latency) 때문이었다. 머신러닝 모델은 다양한 데이터를 분석해 매도 및 매수 호가와 수량, 가격을 결정한다. 하지만 시간 지연으로 인해 성과가 떨어졌다. 마켓 메이커들 간의 경쟁과 헤지펀드의 빠른 주문 때문이다. AI 알고리즘의 속도를 높여야 했다. 이를 위해 '전용 칩을 통한 가속' 아이디어가 제안되었다. 칩부터 소프트웨어까지 최적화하여 오더를 빠르게 처리하고, 더 높은 알파(Alpha, 초과수익률)를 확보하기 위함이었다.


2. 'AI 반도체'라는 용어는 주로 한국에서 사용된다. NPU는 뉴럴 프로세싱 유닛(Neural Processing Unit)의 약자다. NVIDIA는 NPU라는 용어를, 구글은 TPU(Tensor Processing Unit), 그래프코어는 IPU(Intelligence Processing Unit)라는 용어를 사용한다. 이는 특정 브랜드가 사용하는 용어들이다. 정확한 용어는 AI 하드웨어 엑셀러레이터(AI Hardware Accelerator)다. 요컨대, AI 가속기다.


2014년은 알고리즘의 시대였다. 그 당시에는 물리학이나 수학 전공의 퀀트들이 알고리즘 개발을 주도했다. 지금은 컴퓨터 사이언스의 시대다. 어떤 알고리즘을 사용하는지뿐만 아니라, 그 알고리즘을 어떻게 가속화할 것인지가 더 중요해졌다. ‘정확한’ 결정과 함께 ‘빠른’ 결정도 필수다. 이를 반도체 레벨에서 해결해 보자는 게 AI 반도체다.


최근 오픈AI가 발표한 대형언어모델(Large Language Model)을 보면, 사람과 대화하는 것처럼 느껴진다. 지연 시간을 줄인 덕분이다. AI와 대화를 나눌 때 딜레이가 생기면 짜증이 난다. 사용자 경험(UX)에서 중요한 문제다. 지연 시간을 줄이기 위해 필수적인 것 중 하나? 하드웨어 혁신이다.


***[콘텐츠 박스1]

반도체는 조건에 따라 전기가 흐르기도 하고 안 흐르기도 하는 실리콘 같은 물질임. 요즘은 컴퓨터의 '두뇌' 역할을 하는 부품을 뜻하는 말로 많이 쓰임. 반도체는 크게 메모리 반도체와 비메모리 반도체로 나뉨. 메모리 반도체는 데이터 저장, 비메모리 반도체는 데이터 처리 및 연산을 담당함. 비메모리 반도체는 시스템 반도체, 로직 반도체라고도 불림.

메모리 반도체는 다시 단기 기억(D램)과 장기 기억(낸드플래시)으로 나뉨. 비메모리 반도체는 훨씬 더 다양함. 데이터를 처리하는 CPU(중앙 처리 장치), 스마트폰에 들어가는 AP(애플리케이션 프로세서), 그래픽을 처리하는 GPU(그래픽 처리 장치) 등이 있음.


3. AI 반도체를 논할 때, 반드시 기억해야 할 회사가 있다. NVIDIA다. NVIDIA는 AI 반도체의 시작이자 끝이다. NVIDIA를 이해하지 못하면 AI 반도체를 이해할 수 없다. 자본 시장에서는 NVIDIA를 과소평가하는 경향이 있다. NVIDIA를 단순한 상품을 파는 회사로 여기곤 한다. 커다란 오해다.


NVIDIA는 AI 인스턴스(클라우드 컴퓨팅에서 특정한 AI 작업을 처리하기 위해 제공되는 가상 서버 환경) 기준, 아마존 웹 서비스(AWS), 구글 클라우드 플랫폼(GCP), 마이크로소프트 애저(Azure) 등 주요 하이퍼스케일러(대규모 데이터 센터 운영업체)에서 94%의 시장점유율을 갖고 있다. 가상 머신 인스턴스(VM) 기준이다. 실제 물리적 하드웨어 배송 인스턴스, 즉 GPU나 서버 장비를 고객에게 직접 배송하여 사용하는 인스턴스는 포함되지 않는다. NVIDIA의 시장 지배력이 그만큼 높다는 얘기다.


한국의 D램과 낸드 플래시 시장을 예로 들어보자. 세계 메모리 반도체 시장에서 주요한 역할을 하는 삼성과 SK하이닉스. 두 회사의 시장점유율을 합쳐도 70%가 되지 않는다. NVIDIA는 혼자서 AI 반도체 시장의 90% 이상을 점유한다. 엄청난 일이다.


2010년 즈음의 인텔은 서버 시장에서 70-80%의 점유율을 차지했다. 혁신이랄 건 없었다. 카니발라이재이션(Cannibalization) 때문이다. 새로운 제품을 출시하면 기존 제품 판매가 줄어 들어서다. 반면, NVIDIA는 ‘넘사벽’의 1등 지위임에도 불구하고 끊임없이 진화한다. 없어서 못 파는 기존 제품을 단종시키고 신제품을 출시한다. AI 컴퓨팅 플랫폼을 주도하겠다는 의지다. NVIDIA는 단순한 기술 회사가 아니다. AI 혁신을 이끌어가는 회사다. 젠슨 황 CEO는 단순히 돈을 벌기 위해 이 게임에 참여하는 것이 아니다. 세상을 바꾸고자 한다.


투자자로서 AI 반도체를 이해하려면, NVIDIA의 역할과 현재 위상, 그리고 미래 가치를 읽어내는 것이 중요하다. 주식 시장에서의 단편적이고 지엽적인 이해를 넘어서야 한다


4. AI 시장의 주요 문제는 AI 인프라에서 발생한다. AI 제품의 기술적 한계와 높은 운영 비용 때문이다. 예컨대, GPT-4가 등장했을 때 마이크로소프트 애저의 데이터 센터는 막대한 전기 비용을 지출해야 했다. 이 전기 비용에는 GPU 운영과 냉각, 네트워크 유지 비용 등이 포함된다. GPU 구매 비용을 제외하고도 이렇게 많은 돈이 필요하다. 아무리 돈 많은 기업이라도 이런 비용을 무한정 감당할 수는 없다. 결국 AI 인프라를 얼마나 효율적으로 구축하고 운영하느냐가 경쟁력의 핵심이다.


AI 반도체 시장에서 중요한 역할을 하는 NVIDIA지만, 이들의 기술과 공급망에도 한계가 있다. 그래서 많은 대형 클라우드 서비스 제공업체들이 NVIDIA에 의존하지 않고 자체 칩을 개발한다. 반도체 설계 전문 회사들(팹리스)이 주목을 받는 이유다.


사실 AI는 새로운 개념이 아니다. 1958년에 처음 등장했다. 2000년대 초에 NVIDIA의 GPU 덕분에 르네상스가 일어났다. 알고리즘 자체는 새로울 게 없었다. 컴퓨팅 파워 덕분이다. 당시의 GPU는 게임용으로 개발되었지만 이를 AI 훈련에 사용했다. 지금의 GPGPU(General-Purpose GPU)는 이름 그대로 다양한 용도로 사용된다.


H100을 예로 들면, 게임도 가능하다. 가격이 5천만 원 정도로 매우 비싸다. 네 대면 2억이다. NVIDIA는 이를 DGX 시스템으로 4억 5천만 원에 판매한다. 그런데도 고객이 줄 서서 기다린다. 마진이 80%다. NVIDIA는 GPU를 대형 클라우드 서비스 제공업체들에게 직접 공급하지 않는다. 중소 클라우드 서비스 제공업체를 통해 우회적으로 공급함으로써, 이들이 가격 차익을 볼 수 있게 하고 있다. 지금까지 고객이었던 대형 클라우드 서비스 제공업체들이 자체 칩을 만들고 있어서다. 사실상 NVIDIA와 대형 클라우드 서비스 제공업체들 간의 전쟁이다. 대형 업체들은 구글, 마이크로소프트, 아마존 같은 거대 기업들이다. 하지만 지금까지는 NVIDIA의 완승이다.


***[콘텐츠 박스2]

원래 GPU는 게임이나 동영상에서 더 좋은 그래픽을 보여주기 위해 만든 반도체였음. 그런데 GPU가 AI를 구동하는 데 매우 적합하다는 점이 드러남. GPU는 계산 속도가 매우 빠름. AI가 많은 데이터를 빠르게 학습하는 데 유리함. GPU를 가장 잘 만드는 회사가 바로 NVIDIA임. 특히 '쿠다(CUDA)'라는 프로그래밍 언어를 개발했는데, AI 프로그래머들이 주로 사용하는 언어가 됐음.

GPU를 설계해서 다른 회사에 생산을 맡기는 NVIDIA 같은 회사를 팹리스라고 부름. 반면, 주문을 받아 반도체를 실제로 만드는 회사를 파운드리라고 함. 대표적인 파운드리 회사가 대만의 TSMC와 한국의 삼성전자임.


5. AI 인프라 문제를 완벽하게 해결하지 못하는 이유는 무엇일까? 대중성 때문이다. 너무 많은 사람들이 이용하기 때문이란 얘기다. 과거의 AI는 바둑을 두거나 개와 고양이를 구별하는 등의 기술적 성과는 있었지만, 대중적이지 않았다. 그러나 챗GPT는 출시 5일 만에 백만 명의 사용자를 모았다. 오픈AI 직원들도 챗GPT라는 이름이 뜨악했다. 고객친화적 브랜드라기 보다는 딱딱한 제품 번호 같은 느낌이었다. GPT라는 알고리즘도 경쟁사인 구글에서 나온 개념이었다. 하지만 수많은 유저를 확보했다. 덕분에 현재의 AI는 과거와 다른 양상을 보인다.

 


AI 서비스가 대중성을 확보함으로써 트래픽이 늘어났다. AI 반도체의 높은 수요는 공급망의 한계와 제조 능력 부족으로 인해 일부 병목 현상이 발생하기도 한다. NVIDIA조차도 이 수요를 완전히 충족시키기에는 부족하다. 특히, 고성능 AI 칩은 제조 공정이 복잡하다. 생산 설비가 제한적이다. 가격 상승과 공급 부족으로 이어지는 요인이다. 새로운 아키텍처와 공급망 관리가 필요하다.


6. AI 컴퓨테이션에는 두 가지 주요 과정이 있다. 첫 번째는 AI 모델을 만드는 트레이닝(훈련) 과정이다. 이는 빅데이터를 활용해 유용한 모델을 만드는 것이다. 두 번째는 만들어진 모델을 실제로 사용하는 인퍼런스(추론) 과정이다. 최종 사용자가 AI를 활용하는 단계다.


AI 트레이닝과 인퍼런스는 계산량과 방식이 다르다. 이를 구매하고 관리하는 하이퍼스케일러(대규모 데이터 센터 운영업체)들의 의사 결정 방식도 다르다. 트레이닝과 인퍼런스의 차이를 명확히 이해하고 각각의 요구 사항에 맞는 반도체를 선택하는 것이 중요하다.


트레이닝은 메타, 구글, 오픈AI 같은 빅테크 기업들이나 한국의 KT, 네이버, SK 같은 대기업들이 수행한다. 트레이닝은 매우 비용이 많이 드는 작업이다. 예를 들어 AWS에서 175억 매개변수 모델을 트레이닝하는 데는 200억에서 300억 원이 소요된다. 개인이나 소규모 기업이 감당할 수 없는 금액이다. 그래서 트레이닝 과정은 주로 빅테크 기업들이 주도한다.


AI 반도체에 대해 논의할 때, 가장 먼저 해야 할 질문은 "이 반도체가 트레이닝용인가, 인퍼런스용인가?"다. 또는 두 가지를 모두 지원하는지 확인하는 것이 중요하다.


트레이닝 반도체에 있어서는 NVIDIA가 최고의 선택이다. NVIDIA는 칩 성능뿐만 아니라 소프트웨어와 시스템, 특히 CUDA에서 큰 강점을 가지고 있다. CUDA(Compute Unified Device Architecture)는 NVIDIA가 개발한 병렬 컴퓨팅 플랫폼이자 프로그래밍 모델이다. CUDA는 단순히 프로그래밍 라이브러리가 아니다. NVIDIA GPU(그래픽 처리 장치)의 강력한 성능을 활용하여 복잡한 계산 작업을 빠르게 처리할 수 있도록 해준다. CUDA를 사용하면 10줄의 코드를 한 줄로 줄일 수 있을 정도로 효율적이다. 트레이닝 작업에서는 이러한 CUDA 라이브러리들이 큰 역할을 한다.


트레이닝과 인퍼런스의 차이는 피드 포워드와 피드백 루프의 차이로도 설명할 수 있다. 트레이닝 과정에서는 백프로파게이션(역전파)이 필요하다. 이는 데이터를 입력하여 결과를 얻은 후, 그 결과를 다시 뒤로 전달하여 다른 GPU로 보내는 과정을 말한다. 이 과정에서 NVLink와 인피니밴드와 같은 기술이 필요하다. CUDA 라이브러리도 사용된다. 반면 인퍼런스는 피드 포워드만 있으면 된다. 이미 모든 가중치가 트레이닝된 상태에서 새로운 데이터가 입력되면 그 데이터를 통해 바로 결과를 도출한다. 이 과정에서는 피드백 루프가 필요 없다. 계산량도 트레이닝에 비해 1천분의 1 수준이다. 인퍼런스에는 CUDA가 필요 없는 이유다. 오픈AI가 전 세계에서 가장 큰 규모로 서비스를 제공하면서도 CUDA를 사용하지 않는다는 점을 보면 이해하기 쉽다. 오픈AI는 주로 PyTorch와 TensorFlow를 기반으로 서비스를 제공한다.


트레이닝은 시스템 통합(SI) 성격의 비즈니스에 가깝다. 반면, 인퍼런스는 더 일반적인 소프트웨어 스택을 필요로 한다. 각 비즈니스에 맞도록 최적화된 소프트웨어가 필요하다. 트레이닝과 인퍼런스는 기술적 요구 사항뿐만 아니라 이를 구매하고 관리하는 사람들도 다르다. 트레이닝용 칩을 구매할 때는 모델을 만드는 연구자들, 주로 머신러닝 리서치 사이언티스트와 논의해야 한다. 이들은 보통 박사 학위를 갖고 있다. 모델을 만들고 연구하는 데 집중하는 사람들이다. 반대로 인퍼런스용 칩을 구매할 때는 ML Ops(머신러닝 운영) 담당자들과 논의해야 한다. 이들은 실제로 비용 효율을 고려한다. 전체 서비스 파이프라인을 관리하는 사람들이다.


7. AI 시장도 트레이닝과 인퍼런스로 나뉜다. 트레이닝 시장은 AI 모델을 만드는 과정이다. 이 시장은 트래픽이 크게 증가하지 않는다. KT, 네이버, 카카오 같은 회사들이 계속해서 파운데이션 모델(기초 모델)을 만들지 않기 때문이다. 트레이닝 모델을 만드는 주요 업체는 빅테크 기업들이다. 주요 빅3는 오픈AI, 앤트로픽, 미스트랄이다. 이들은 구글보다 앞서 있다. 구글이 따라가는 입장이다. 소프트웨어 플랫폼에서는 1등만이 살아남는다. 마이크로소프트의 워드와 엑셀처럼 말이다. AI도 결국 상위 2개 또는 3개가 시장을 지배하게 될 것이다. 트레이닝 모델을 만드는 것은 빅테크들의 영역이 될 것이다. 소수의 빅테크들이 게임을 주도할 것이다.


반면, 인퍼런스 시장은 다르다. 모델은 빅테크들이 만들지만, 그 모델을 사용하는 것은 다른 이야기다. API를 통해 사다 쓰든 오픈 소스를 통해 사용하든, 인퍼런스 분야는 사용자 수가 늘어날수록 시장도 커진다.


요컨대, 트레이닝은 주로 빅테크 기업들이 모델을 만드는 과정이다. 반면, 인퍼런스는 사용자가 모델을 사용하는 과정이다. 우리가 그 모델을 더 많이 사용할수록 인퍼런스 트래픽은 자연스럽게 증가한다. 인퍼런스 트래픽은 앞으로도 계속 증가할 것이다.


8. AI 반도체 시장은 빠르게 성장하고 있다. 현재 DRAM(디램, Dynamic Random-Access Memory) 시장과 비슷한 크기다. 인퍼런스 시장은 챗GPT 등장 이후 급격히 성장했다. 블룸버그에 따르면, AI 인퍼런스 시장은 인류 역사상 가장 큰 시장이 될 것이다.


두 번째 포인트는 AI 반도체 시장이 트레이닝에서 인퍼런스로 옮겨가며 더욱 커지고 있다는 거다. 중요한 것은 새로운 솔루션이 기존 GPU를 대체할 수 있어야 한다는 점이다. 예를 들어, 데이터센터의 A100 GPU가 오래되면 새로운 솔루션으로 교체해야 한다. 이 솔루션은 기존 A100 GPU의 모든 기능을 제공해야 한다. 그러나 실제로는 다르다. 전기차가 가솔린차를 대체하는 것과 달리 데이터센터는 계속 새로 생긴다. AI 전용 데이터센터도 생기고 있다. 기존 GPU를 대체할 필요가 없다. 스타트업에게는 큰 기회다. 인퍼런스 시장이 새롭게 형성되고 있다. 우리의 솔루션이 기존 GPU를 완전히 대체할 필요가 없다. 매우 중요한 포인트다.



세 번째 포인트는 생성형 AI 모델의 크기와 시스템 요구사항이 매우 복잡하다는 점이다. 각 모델은 도메인에 따라 크기와 요구사항이 다르다. 예를 들어, 최근 모델은 400억 파라미터를 가지고 있다. 모델 크기뿐만 아니라, 요구사항도 다양하다. 어떤 모델은 속도가 중요하고, 어떤 모델은 에너지 효율성이 중요하다. NVIDIA가 잘하고 있지만 스타트업들에게도 기회가 있을 수 있다는 얘기다.


향후 5년간은 춘추전국 시대가 열릴 것이다. 로컬 위너와 버티컬 위너가 생길 것이다. 각 세그먼트마다, 예를 들어 자율주행, 의료 AI, 온디바이스 AI 등에서 각기 다른 승자가 나올 것이다. 각 지역 별로도 강자가 나올 것이다. AI 반도체 시장은 매우 다이나믹하고, 큰 기회가 될 것이다.


9. AI 반도체 시장의 주요 이슈 중 하나는 고대역폭 메모리(HBM, High Bandwidth Memory)다. HBM은 AI 연산에 필요한 대량의 데이터를 빠르게 처리할 수 있는 능력을 제공한다. AI 반도체의 성능을 극대화한다. 한국의 SK하이닉스는 HBM3와 HBM4를 개발하고 있다. 향후 3년간 이 제품들을 NVIDIA가 전량 사용할 예정이다.


향후 5년 내에 AI 반도체 시장은 춘추전국시대를 맞이할 것이다. 여러 회사 간의 합종연횡이 예상된다. 이러한 변화는 소프트뱅크가 주도할 가능성이 크다. 소프트뱅크는 대규모 펀드를 통해 많은 AI 반도체 회사를 인수할 계획을 가지고 있다. ARM(Advanced RISC Machines)을 소유하고 있는 소프트뱅크의 강점이 돋보이는 대목이다. ARM은 저전력 고성능 프로세서 설계로 잘 알려진 회사다. AI 반도체 개발에 중요한 역할을 한다. 한국은 HBM과 파운드리(반도체 제조 공정)에서 강점을 가지고 있다. 하지만 소프트뱅크는 자본 시장에서 큰 영향력을 발휘할 수 있다. 손정의 회장은 AI 반도체 시장의 통합을 통해 NVIDIA와 경쟁하려 한다. AI 반도체 시장에 큰 변화가 예상되는 배경이다.


하이퍼스케일러(대규모 클라우드 서비스 제공업체)들은 non-NVIDIA 제품을 늘리기 위해 노력하고 있다. 예컨대, 그록(Groq) 같은 회사의 제품을, 사용하지 않더라도 사서 비축해둔다. 그록은 미국 내에서 설계부터 제조까지 모든 과정을 수행한다. 파운드리도 삼성이나 TSMC가 아니라 글로벌 파운드리를 사용한다. 메모리도 사용하지 않는다. 그러니 한국에서 메모리를 사올 필요도 없다. 심지어 보드 제조도 미국 내에서 한다. 그러면서 내셔널리즘을 내세운다. 인텔 파운드리와 유사하게 미국 정부의 지원을 받고 있다. 만약 트럼프가 대통령이 된다면, 이러한 상황은 더욱 강화될 것이다. NVIDIA 제품이 한국에 들어오지 않는 상황까지 대비해야 한다.


***[콘텐츠 박스3]

GPU만으로는 AI가 제대로 돌아가지 않음. AI가 빠르게 학습하려면 데이터를 빠르게 저장하고 꺼낼 수 있는 반도체가 필요함. 그게 바로 HBM임. HBM은 방대한 데이터를 빠르게 GPU에 전달해 AI의 연산 속도와 학습 속도를 높여줌. 데이터가 빠르게 전달되지 않으면 병목 현상이 발생하는데, HBM이 이 문제를 해결해 줌. 그래서 HBM이 들어간 GPU 반도체 세트를 'AI 가속기'라고 부름.

HBM의 핵심은 메모리 반도체인 D램에 데이터 '도로'(TSV)를 만들어 데이터가 빠르게 오가게 하는 거임. 일반 D램의 '도로'가 32~64차선이라면, HBM은 1024차선 이상으로 확대한 거라고 보면 됨. 그리고 이런 D램을 여러 층으로 쌓아서 AI에 필요한 방대한 데이터를 저장하고 쉽게 오가게 만듦.

2013년 SK하이닉스가 세계 최초로 개발한 후 HBM은 계속 발전해 왔음. 특히 2020년 AI 시대가 열리자, HBM도 빠르게 발전함. SK하이닉스는 올해 3분기에 최고 12단 'HBM3E'를 양산할 계획임. 또한, GPU 옆에 HBM을 배치하던 기존 방식 대신 HBM 아래 간단한 연산 기능을 수행하는 반도체를 놓는 HBM4 양산도 준비 중임. 메모리와 비메모리 반도체의 거리를 줄여 데이터 운반 효율성을 높이려는 전략임.


10. HBM(High Bandwidth Memory)은 매우 중요한 메모리 기술이다. HBM이 중요한 이유는 일반적인 메모리와는 다르게 특별한 특성을 가지고 있기 때문이다. 일반적인 메모리는 교환 가능한 상품(커머더티)다. 브랜드가 달라도 쉽게 교체할 수 있지만, HBM은 그렇지 않다.



가령, GDDR(Graphics Double Data Rate)은 그래픽카드에 쓰이는 고성능 메모리다. GDDR6만해도 커머더티다. 즉, 삼성 GDDR6를 사용하다가 SK GDDR6로 바꿔도 큰 문제가 없다. 호환이 가능하다. 하지만 HBM은 다르다. HBM은 단순히 기판에 붙이는 것이 아니라, 칩 내부에 통합되어야 한다. 삼성의 HBM을 빼내고 다른 회사의 HBM을 넣으면 제대로 작동하지 않는다. HBM의 복잡한 구조와 성능 최적화 때문이다. 따라서, HBM을 공급하는 회사의 제품을 교체하는 것은 기술적으로 어렵다. 성능 저하나 호환성 문제를 일으킬 수 있다. NVIDIA가 단일 공급업체(Single Vendor)로부터 HBM을 공급받는 건 그래서다. 보통 여러 업체에서 부품을 공급받아 가격을 낮추고, 위험을 분산시키려 하지만, HBM은 예외다. NVIDIA의 B100 제품은 삼성 HBM만 사용한다. A100부터는 SK하이닉스 제품만 사용한다. NVIDIA가 단일 공급업체로부터 HBM을 공급받는 이유는 HBM의 특성과 복잡한 기술적 요구사항을 고려한 전략적 선택이다. 최적의 성능을 유지하고, 안정적인 공급을 보장할 수 있어서다.


삼성은 파운드리(반도체 제조)와 메모리 생산 모두에서 강점을 가지고 있어 HBM4에서 승부를 걸어볼 좋은 기회가 있다. 하지만 리스크도 있다. 삼성은 메모리는 잘하지만, 로직 다이(반도체의 핵심 회로)와 파운드리에서 문제가 생기면 큰 타격을 받을 수 있다. 그럼에도 삼성은 세계에서 유일하게 파운드리, 메모리, 패키징(반도체를 보호하고 연결하는 과정)을 모두 할 수 있는 회사다. 삼성이 제대로만 한다면 충분히 시장에서 성공할 수 있다. 물론 SK하이닉스도 매우 잘하고 있다. 한국은 HBM 관련해서 원투 펀치를 모두 가지고 있는 셈이다.


***[콘텐츠 박스4]

AI 반도체 시장에서 HBM의 중요성이 커진 것은 한국 기업들에 좋은 소식임. SK하이닉스는 HBM을 처음 개발한 회사임. 하지만 HBM4용 베이스 다이를 혼자서 만들 수 없다는 문제가 있음. 파운드리가 없는 SK하이닉스는 엔비디아 'AI 가속기'에 들어가는 HBM을 만들어 TSMC로 공급하고, TSMC가 이를 받아 GPU와 결합. 그러나 이제 TSMC가 HBM 제조 단계까지 진출하려고 함.

삼성전자는 메모리 반도체 설계·제조와 파운드리를 모두 운영해 GPU부터 HBM까지 모두 만들 수 있음. 삼성전자는 엔비디아 반도체를 일부 주문받기도 했음. 그러나 엔비디아·TSMC·SK하이닉스의 협력에 맞서 이길 수 있을지가 관건임.


11. HBM에 있어 중요한 네 가지 요소가 있다. 첫 번째는 디자인이다. HBM의 디자인은 고성능 컴퓨팅에서 중요한 역할을 한다. NVIDIA 같은 회사들은 GPU(그래픽 처리 장치)를 설계할 때 HBM을 사용하여 더 높은 데이터 처리 속도를 달성한다. HBM은 칩과 가까이 배치되어 데이터 전송 거리를 줄이고, 이를 통해 전력 소모를 줄이며 성능을 높인다.


두 번째는 HBM 메모리다. 디자인과 서로 짝을 이루는 요소다. HBM 메모리는 전통적인 DRAM(동적 랜덤 접근 메모리)보다 훨씬 높은 대역폭을 제공한다. 이는 동시에 더 많은 데이터를 읽고 쓸 수 있음을 의미한다. 예를 들어, HBM은 게임, 인공지능(AI), 머신러닝, 고성능 컴퓨팅(HPC) 등에서 필수적인 역할을 한다. HBM이 없다면 이러한 분야에서 요구하는 데이터 처리 속도를 달성하기 어렵다.


세 번째는 클라우드 서비스 제공업체(CSP)들이다. 클라우드 서비스 제공업체는 HBM을 사용하여 데이터 센터의 효율성을 높인다. AWS(아마존 웹 서비스), 구글 클라우드, 마이크로소프트 애저와 같은 CSP들은 HBM을 통해 더 빠른 데이터 처리와 더 낮은 지연 시간을 제공하여 고객들에게 더 나은 서비스를 제공할 수 있다. AI와 머신러닝 작업을 클라우드에서 실행할 때 특히 중요한 부분이다.


네 번째는 전체를 묶어주는 데이터센터 인프라다. 데이터센터 인프라는 HBM을 사용하여 전체 시스템 성능을 향상시킨다. 데이터센터는 수많은 서버로 구성되어 있다. HBM은 이러한 서버들이 데이터를 빠르게 처리하고 전송할 수 있도록 돕는다. 또한, HBM은 전력 효율성이 높아 데이터센터의 운영 비용을 줄일 수 있다. 파운드리(반도체 제조)와 메모리를 보유한 우리나라는 이 부분에서 경쟁력을 갖고 있다.

 


AI 쪽에서 투자할 곳을 찾는다면, AI 인프라 쪽에 배팅해야 한다. 우리가 GPT와 같은 AI 서비스를 만들어서 경쟁하기는 어렵지만, AI 인프라에서 승부를 걸어볼 수 있는 기회는 있다.


12. 대한민국은 기존의 강점을 잘 살려야 한다. 우리는 반도체의 민족이다. 반도체 산업은 우리 경제의 중요한 부분이다. 블룸버그에서도 대한민국을 "세미컨덕터 샵"이라고 부를 정도다. 우리나라는 반도체와 깊은 연관이 있다.


하지만 우리나라에는 반도체를 만드는 공장(파운드리)과 메모리는 있지만, 반도체 설계 전문 회사(팹리스)가 부족하다. 반도체 산업이 제대로 돌아가려면 꼭 필요한 부분이다. 이 문제를 누가 해결할 수 있을까? 스타트업이 도전해야 한다. 기존 대기업들이 하지 못한 새로운 시도를 통해 문제를 해결하고 혁신을 일으킬 수 있다.


파운드리와 메모리에 팹리스까지 모두 함께 작동하면 한국만큼 좋은 테스트베드가 없다. 한국은 AI 관련 데이터 처리량에서 세계 6위다. 영국과 비슷한 수준이다. 대한민국은 AI에 관심이 많은 나라다. 많은 얼리 어댑터들이 있어서 좋은 생태계가 형성되어 있다. 따라서 AI 인프라 분야에 많은 기회가 있다. 투자할 만한 가치가 있다. AI 인프라의 핵심인 반도체에 더욱 주목해야 하는 이유다. ⓒ혁신가이드안병민




매거진의 이전글 [간략 리포트] ChatGPT-4o의 성능과 전망
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari