<한계를 키우는 대신, 칩을 키워버렸다>
“더 작게, 더 촘촘하게.” (무어의 법칙, Moore’s Law)
10nm에서 7nm로, 5nm에서 3nm로... 트랜지스터는 계속 작아졌고, 같은 면적 안에 더 많은 연산을 담을 수 있었으며, 성능은 꾸준히 향상되었습니다. 하지만 어느 순간부터 이 공식은 더 이상 ‘진보의 엔진’이 아니라 부작용을 동반한 관성이 되기 시작했습니다.
미세 공정으로 갈수록 발열은 급격히 증가했고, 제조 장비와 공정 비용은 감당하기 어려운 수준으로 치솟았으며, 물리적 한계로 인해 트랜지스터를 더 줄이는 것 자체가 점점 어려워졌습니다. 이 시점에서 또 하나의 변화가 겹칩니다. AI 모델이 인간의 예상을 뛰어넘는 속도로 기하급수적으로 커지기 시작한 것입니다.대규모 언어 모델과 멀티모달 모델은 더 이상 단일 GPU, 심지어 수십 개의 GPU로도 처리하기 어려운 규모가 되었습니다. 결국 반도체 산업은 이런 역설적인 상황에 놓이게 됩니다.
“칩은 계속 작아지는데,
칩이 감당해야 할 일은 점점 더 커진다.”
바로 이 지점에서 어느 미국 스타트업이 기존의 공식을 정면으로 뒤집는 선언을 합니다.
“칩이 너무 작아서 문제라면,
그냥 전부 크게 만들어버리면 되지 않을까요?”
반도체 업계 전체가 잠시 말을 잃었던 순간이었습니다. 이 팀이 바로 Cerebras Systems입니다.
2015년 설립된 Cerebras Systems는 실리콘밸리 안에서도 가장 상식을 거부한 팀으로 알려져 있습니다. 기존 반도체 제조의 기본 구조는 다음과 같습니다.
지름 300mm의 실리콘 웨이퍼를 만들고, 이를 여러 조각으로 잘라(cut) 각각을 독립된 칩(die)으로 사용합니다. 이 방식은 수율 관리에 유리하고 대량 생산에 적합합니다. 그러나 Cerebras는 이 질문을 던졌습니다.
“왜 반드시 잘라야 할까요?”
연산이 하나의 모델에서 일어난다면, 칩도 하나여야 하지 않을까요?”
이 발상은 반도체 업계에서는 오랫동안 이론적으로는 가능하지만, 현실적으로는 불가능한 영역으로
분류되어 왔습니다. 그 불가능을 그대로 밀어붙인 결과물이 바로 WSE(Wafer-Scale Engine)입니다. 웨이퍼 전체를 하나의 칩으로 사용 일반 칩 대비 약 56배에 달하는 면적, 85만 개 이상의 연산 코어, 2.6조 개의 트랜지스터, 칩 전체에 분산된 초고속 온칩 SRAM 메모리, GPU 대비 수십 배 높은 내부 대역폭..이 칩은 실험실 데모가 아니라 세계 최초의 웨이퍼 스케일 상용 반도체로실제 고객 환경에서 사용되고 있습니다.
<왜 이런 미친 실험을 했을까요?>
1) AI 모델의 크기가 GPU 구조를 이미 넘어섰기 때문입니다
GPU는 본래 그래픽 연산을 위해 설계된 칩입니다. AI 연산에 잘 맞도록 진화했지만, 여전히 범용 구조라는 한계를 가집니다. 초대규모 AI 모델을 학습하기 위해서는 수천 개의 GPU를 묶어야 하고, 이 과정에서 막대한 통신 오버헤드가 발생합니다.
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠