Cerebras라는 회사가 WSE-3라는 AI가속기를 만들어 엔비디아를 위협하고 있다고 한다.
이 회사가 엔비디아를 대체할 것이므로, 엔비디아의 미래가 암울하다고 주장하는 유튜버들도 있다.
나는 엔비디아를 13주밖에 가지고 있지 않아 그다지 큰 타격은 없겠지만, 궁금하니 조사를 좀 보았다.
연산장치는 CPU든 GPU든 APU든 TPU든 NPU든 (헉헉) 메모리의 도움을 받아야 한다.
메모리는 크게 봐서 on-chip 아니면 off-chip이다.
on-chip 메모리는 연산장치와 한 몸, 즉 물리적으로 같은 칩 위에 있기 때문에 액세스 속도가 빠르다.
대신, 칩 위 공간이 한정적이므로 대용량은 조금 어렵다.
off-chip 메모리는 그 반대, 즉 대용량이지만 액세스 속도가 느릴 수밖에 없다.
전선을 타고 갔다 와야 하니 당연하다.
Cerebras라는 회사는 일종의 역발상을 한 것인데, 칩을 그냥 크게 만들면 되지 않느냐는 생각을 한 것이다.
얼마나 크냐 하면, 반도체 공정에 사용하는 실리콘 웨이퍼에서 최대로 잘라낼 수 있는 정사각형 크기다.
면적이 넓으니 그 위에 on-chip 메모리를 가득 넣을 수 있고,
따라서 off-chip 메모리가 거의 필요없다는 것이 Cerebras의 논리다.
대단한 것은, 이게 그냥 논리가 아니라 정말로 제품을 만들었으며, 심지어 실제로 사용되고 있다는 것이다.
위 사이트에서 직접 시연해 볼 수 있는데, 추론 엔진은 메타의 라마인 듯하다.
메모리 대역폭이 엄청난데, 이 회사의 홍보자료에 따르면, 21PB/s라고 한다.
단순 계산으로 엔비디아의 H200(4.8TB/s)과 비교해서 약 4000배 정도다.
더하여, 쓸데없는 연결이 생략되어 연산량 대비 전력 소모도 훨씬 낮고, 따라서 발열도 상대적으로 적다.
그렇다고 장점만 있을까?
반도체 공정은 수율을 생각하지 않을 수 없다.
수백만 달러 짜리 웨이퍼에 먼지라도 떨어지면 손해가 나는 차원이 다르다.
물론 불량 소자를 우회하는 기술적 대응책을 마련하고 있다고는 하지만,
그건 결과적으로 칩의 성능을 타협하는 셈이다.
(아무튼, 이런 걸 실제로 만들어낸 TSMC가 대단하다.)
발열문제도 생각해 봐야 한다.
엔비디아 칩도 발열 문제가 크지만, 이건 칩이 한 덩어리라는 점에서 좀 성격이 다르다.
칩과 칩 사이에는 공간이 있지만, WSE-3는 그렇지 않다.
발열로 실리콘이 팽창하는 경우, off-chip 메모리와는 차원이 다른 문제가 발생할 수 있다.
냉각 방식을 다르게 접근해야 하는 것 아닌가 하는 생각이 든다. (다르게 접근하고 있다고 한다.)
현재 이 회사가 시연 중인 WSE-3와 엔비디아 칩을 단순비교하면, 이 회사의 압승이 분명하다.
가격이 훨씬 비싸더라도, 성능 차이가 워낙 압도적이라 오히려 가성비 면에서 엔비디아를 압살할 수 있다.
https://www.youtube.com/watch?v=wRaxOshul5Y
그러나 이 제품이 과연 엔비디아 칩들을 대체할 수 있을까?
수많은 병목이 있는 AI 산업에서, TSMC 역시 하나의 커다란 병목이다.
TSMC가 이 칩을 상업적으로 의미 있는 수율로 대량 생산할 수 있을지 생각해 봐야 한다.
또한, 작년 말 마이클 버리가 제기했던 엔비디아 칩 실효수명(감가상각기간) 논란에서 밝혀졌듯,
A시리즈 등 오래된 칩들도 아직 현역에서 뛰고 있는 것이 사실이다.
다시 말해, Cerebras 칩이 상용화 되더라도, 칩은 모자란다.
엔비디아가 입는 매출 타격은 제한적일 것이다.
큰 그림에서 볼 때, Cerebras의 도전은 매우 훌륭하다.
연산 속도의 차원이 달라지면, AI가 할 수 있는 일의 성격 자체가 달라질 수 있다.
4000배 대역폭까지는 필요 없으니, 토큰 생성에는 40배만 쓰고,
나머지 100배는 연산 정확도에 몰아넣을 수도 있다.
그럼에도, on-chip 메모리 연산장치가 엔비디아를 시장에서 몰아낼 것이라는 주장은 과해 보인다.
AI 하드웨어 시장은 지금도 한 회사가 장악하기에는 너무 크다.
앞으로도 마찬가지라고 생각한다.
Cerebras는 초대형 AI 모델 훈련이라는 특정 니치에서 NVIDIA를 압도할 잠재력을 가지고 있지만, 가격·양산·생태계가 현재 수준에서는 전체 AI 가속기 시장을 완전히 몰아내기엔 아직 멀었으며, 현실적인 시장 점유 확대는 5‑7년 정도의 시간이 필요할 것으로 보입니다. (내 질문에 대한 Cerebras.ai의 대답)