HBF에서 큰 기회가 올 것 같다 (1편)

by Glenns Glance

https://blog.naver.com/jopk1234/224117862778


2025년은 AI 트렌드가 훈련에서 추론으로 넘어가는 해였고, 그 점에서 추론 ASIC 설계역량이 탁월했던 브로드컴이 연간 저점 대비 150%까지 상승했었음


‘엔비디아 대항마’로 떠오른 브로드컴…ASIC이 뭐길래

HBF_1.브로드컴 주가.png


여기서 기술트렌드의 핵심변화는 “AI모델을 만드는것(=훈련) 만큼이나, 만들어진 AI모델이 사용자 요구에 맞춰서 output을 만들어내는 것(=추론)”임. 이 추론 과정이 효율적으로 이뤄져야(=최소 토큰으로 user 요청 처리, 전력 소모 최소화, 실시간 응답(low latency)) 유저들의 AI 사용시간이 증가하면서 본격적인 AI시대가 개화함.


따라서 향후 인프라 투자의 방향성을 이해하기 위해서는 AI 훈련과 추론이 어떻게 다른 컴퓨팅 과정을 거치는지 이해해야 함.


스토리지, 메모리, 프로세서

컴퓨팅은 기본적으로 “스토리지(HDD, SSD) → 메모리(DRAM) → 프로세서(CPU, GPU)”의 순으로 진행됨. 데이터는 스토리지에 저장돼있는데, 이를 프로세서에 전달해줘야 컴퓨팅이 될 수 있음. 이때 메모리는 ‘프로세서가 바로바로 써야 하는 데이터를 들고 있어주는‘ 주방보조 역할임.


대신 메모리는 1)스토리지 대비해서 가격이 비싸기 때문에 모든 데이터를 들고 있게 하기엔 비용이 너무 비싸고(=경제적 비효율성), 2)전원이 차단되면 데이터가 날아가기 때문에 장기 저장장치로 기능하지 못함(=데스크탑 전원 꺼지면 작성 중이던 문서가 날아가는 이유). 그래서 메모리는 단기기억, 스토리지는 장기기억이라고 표현함.


훈련 vs 추론 - ① 훈련

훈련은 ‘AI 모델을 만드는’ 과정으로 직렬공정임. 이 과정(Training Loop)은 ‘데이터 로딩 → 순전파 → 역전파 → 가중치 업데이트’의 순서로 이뤄지는데, 특히 순전파→역전파 과정에서 7~80%의 시간이 소요됨.


데이터 로딩(Data Ingest): 데이터셋을 스토리지에서 꺼내와서 메모리에 등록

순전파(Forward Pass): 데이터를 최초 모델에 넣고 결과값을 예측(ex. “100개 중 80개가 강아지 사진이다”)

역전파(Backward Pass): 예측값을 실제 데이터와 비교해서 모델을 일부 수정하고, 정답률이 더 높은 모델을 선택

가중치 업데이트(Weight Update): 수정된 공식을 저장하고 다음 데이터 배치로 넘어감

HBF_2.Forward,Backward Pass.png

이렇기 때문에 AI 모델 훈련이 ‘지식노동자의 노가다’를 대체하는 것이고, 전기만 있으면 365일 24시간 학습할 수 있는 AI의 발전이 빠른 것임.


훈련 시에는 스토리지(정확히는 고속 스토리지)와 메모리의 부담이 그렇게 크지 않음. 데이터셋이 크더라도 일단 한번 갖다주면 프로세서가 무한 반복연산하기 때문에 스토리지, 메모리는 응원만 하면 됨. 한 사이클이 끝나면(=며칠씩 걸리기도 함) 바로 다음 학습을 시작하도록 그 다음 데이터셋만 들고 있어도 됨.


그렇기 때문에 초기 AI훈련 단계에서의 가장 큰 병목은 프로세서의 연산량이었고, 그래서 프로세서 회사인 엔비디아가 주목받은 것임 → 2023년~2024년 주가 10배 상승


그런데 프로세서 연산량이 극도로 개선되면서 AI 모델이 고도화됐고, 점점 더 대량, 고용량 데이터까지 훈련에 사용할 수 있게 됐음. 문제는 프로세서가 풀 문제를 바로바로 갖다 줘야 하는 메모리 용량의 한계가 병목으로 기능함. 2023년에는 H100의 실제 가동률이 7~80% 수준이었고, 나머지는 메모리로부터 데이터를 기다리는 대기시간이었음.


이에 메모리를 수직으로 쌓아서 전달가능한 메모리 대역폭을 넓히는 HBM의 중요성이 각광받기 시작함 → 하이닉스 주가가 2025년 한해 동안 3배 상승


훈련 vs 추론 - ② 추론

추론은 ‘만들어진 AI 모델을 활용해서 사용자의 요청에 따라 결과물을 산출하는 과정’으로, 표현하자면 병렬공정임. 사용자가 무슨 질문을 할지 미리 알 수 없기 때문에 일단 AI모델을 들고 있어야 함.


문제는 AI모델이 너무 복잡(=수천억개의 파라미터로 결과산출)해지다보니 용량이 너무 커졌음. 예를 들어 Llama-3 405B 모델은 모델 파일 크기만 800GB(FP16 기준)임. 엔비디아 최신 GPU인 B200의 메모리 용량(192GB)를 4배 초과함.


여기다 사용자의 질문이 길어질수록 이전 대화의 맥락을 저장해야 하는데, 이 저장된 맥락 데이터(=KV(Key-Value) Cache)의 크기도 기하급수적으로 커지며, 추론을 요청하는 이용자의 숫자에 따라 그대로 증가함. KV Cache만 수백GB에 달하기도 함.


상황에 맞춰서 이 데이터(모델+Cache)가 메모리와 스토리지를 오고가야(On/Offloading) 하기 때문에 스토리지의 용량+속도부담이 커짐.

HBF_3.Storage-InterConnect-GPU 구성도.png

여기에 기존에 AI모델에 학습된 데이터 뿐만 아니라 외부의 최신 데이터까지 가져와야(=RAG) 하기 때문에 스토리지와의 연결성은 더욱 커짐. 특히 이 과정에서 수백만 개의 데이터 조각을 스캔한뒤 필요한 데이터만 정확히 가져와야 AI의 검색성능이 고도화되기 때문에 매우 빠른 데이터 Read 성능이 필수적임.


거기다 최근엔 AI가 발전해서 텍스트 데이터만 분석(LLM)하는게 아니라 이미지, 영상 등 고용량 데이터가 입출력되는 멀티모달 확장이 이뤄지기 때문에 레거시 스토리지로는 원활한 컴퓨팅이 불가능해짐. 그래서 고속 고용량 스토리지에 대한 니즈가 커지고 있는 것임.


이에 하이닉스(NAND 2위)가 Sandisk(NAND 컨트롤러 설계 강점)와 2025년 8월 HBF 관련 협업 MOU를 체결하고, 12월에는 엔비디아와 ‘차세대 SSD’ 개발에 나선다고 발표함.


2편에서 계속

매거진의 이전글2022년 신년맞이 목표