2026년 현재 반도체 시장이 HBM(학습용)과 HBF 혹은 추론용 칩으로 나뉘는 근본적인 이유는 AI가 작동하는 방식인 학습과 추론의 성격이 완전히 다르기 때문이다.
쉽게 비유하자면 학습은 고시 공부라면 추론은 실제 시험이다.
1. 학습 (Training) 지능을 만드는 과정
학습은 아무것도 모르는 AI 모델에게 방대한 데이터를 주입하며 세상의 법칙과 패턴을 가르치는 단계이다.
수조 개의 단어나 이미지를 보고 사과는 빨갛다. A다음에는 B가 온다라는 확률적 관계를 스스로 깨닫게 하는 과정이다.
데이터가 워낙 방대해서 수천 대의 GPU(엔비디아 H100등)가 몇 달 동안 동시에 작동해야 한다.
데이터를 넣고 결과를 확인한 뒤 틀린 부분을 고치기 위해 다시 돌아가서 칩의 설정 값을 수정하는 복잡한 계산이 반복된다.
데이터를 한꺼번에 쏟아부어야 하므로 HBM처럼 속도가 압도적으로 빠른 부품이 필수적이다.
2. 추론 (Inference) 지능을 사용하는 과정
학습이 끝난 AI가 실제 서비스에 투입되어 사용자의 질문에 답을 내놓는 단계이다.
챗GPT에 오늘 날씨 어때라고 물었을 때 AI가 이미 공부한 내용을 바탕으로 답변을 생성하는 순간이 바로 추론이다.
사용자는 답변을 기다려주지 않는다. 밀리초 단위의 빠른 응답 속도가 생명이다.
학습과 달리 이미 배운 지식을 꺼내기만 하면 되므로 계산 구조가 상대적으로 단순하다.
연산량 자체는 학습보다 적지만, 수억 명의 동시 접속자를 감당해야 하므로 가성비와 대용량이 중요하다.
여기서 HBF( 고대역폭 플래시)나 추론 전용 칩(NPU)이 주목받는 것이다.
학습(training)은 전공 서적을 수천 권 공부하는 것을 말하고 추론(Inference)은 공부를 바탕으로 질문에 대한 진단이나 답을 해주는 단계이다.
학습에서는 대규모 데이터 셋(과거 데이터)가 필요하고 추론에서는 단일 입력 (현재 사용자의 질문)이면 된다.
이 때문에 컴퓨팅에서도 초고성능 GPU/TPU 클러스터가 있어야 하고 추론에서는 GPU, NPU, 스마트폰 칩이면 된다.
학습은 처리량이 얼마나 많이 배우냐에 있고 가끔 업데이트 시에만 버전을 올리면 된다.
추론은 얼마나 빨리 답을 하는가에 달려있고 24시간 내내 전 세계 사용자가 쓰고자 할 때에 답을 주어야 한다.
AI 시장의 중심은 학습에서 추론으로 넘어가고 있다.
처음에는 AI를 만드는 것(학습)이 중요해서 엔디비아와 HBM이 독주했지만 이제는 만들어진 AI를 저렴하고 빠르게 서비스하는 것(추론)이 기업들이 최대 숙제가 되었다.
그래서 빅테크들이 값비싼 HBM대신 저렴한 추론 전용 칩을 만들려고 하는 것이다.
추론 시장의 주도 가치 사슬에 대해서 정리해 보자.
먼저 엔비디아는 GPU제국을 수성하기 위해 노력 중이다.
그동안 학습용 칩 시장을 독점했던 엔비디아는 추론 시장에서도 주도권을 놓지 않기 위해 2026년 GTC에서 추론 전용 칩을 공개했다.
범용 GPU의 비싼 가격과 높은 전력 소모를 해결하기 위해 최근 인수한 그록의 기술(LPU)을 접목한 초고속 추론 솔루션을 내놓았다.
학습은 엔비디아, 추론은 자체 칩이라는 공식을 깨고 추론 시장까지 장악하겠다는 의지이다.
빅테크 하이퍼스케일러인 MS, 구글, 아마존, 메타는 ASIC 독립 전쟁을 진행하고 있다.
자사 서비스를 운영하는 데 드는 천문학적인 전기료와 칩 비용을 줄이기 위해 자체 추론 칩 도입을 가속화하고 있다.
구글, 아마존은 이미 전 세계 AI 추론 수요의 상당 부분을 자체 칩으로 처리하고 있다.
이들이 엔비디아 칩 구매를 줄이고 자체 칩 비중을 높이면서 반도체 가치사슬에서 브로드컴이나 마벨 같은 맞춤형 설계 지원 기업들의 위상이 급상승했다.
에지 AI 및 온디바이스 기업인 애플, 퀄컵, 삼성은 내 손 안의 추론에 집중하고 있다.
클라우드 서버로 데이터를 보내지 않고 기기 자체에서 추론을 처리하는 온디바이스 AI가 대세가 되었다.
스마트폰이나 PC용 프로세서 내부에 강력한 NPU (신경망 처리 장치)를 탑재하여 보안성과 응답 속도를 극대화한다.
2026년형 스마트폰은 반도체 면적의 상당 부분이 NPU에 할당될 만큼 그 중요성이 커졌다.
결론적으로, 추론 단계는 반도체 산업을 최고 성능 경쟁에서 최고의 효율 경쟁으로 바꾸어 놓았다.
이제는 단순히 빠른 칩이 아니라 전기를 적게 쓰면서 수억 명의 질문에 동시에 답할 수 있는 칩을 가진 기업이 시장의 주인공이 되고 있다.