brunch

Grok 3: 또 한 번 증명된 ‘스케일링의 힘’

xAI와 DeepSeek이 보여준 AI 개발의 미래

by 유니콘정글

I. 스케일링 법칙은 여전히 유효한가?

최근 공개된 xAI의 신형 AI 모델 Grok 3가 업계에 큰 파장을 일으키고 있다. 이전 버전인 Grok 2 대비 비약적인 성능 향상을 이루며, 이미 OpenAI·Google DeepMind·Anthropic 등 주요 연구 기관들이 내놓은 최첨단 모델과 견줄 만한 수준이라는 평가를 받았다. 일부 영역(수학, 코딩, 과학 질문 등)에서는 동등하거나 뛰어넘는 성적까지 보였다는 분석도 나오고있다.

0*cBQZQPbee6GTabfX.jpeg
0*PgiHZEIwWt2Et_dz.jpeg
0*NgQBLzRLD7pSkbtk.jpeg

무엇보다 “Bitter Lesson(쓴 교훈)”이라 불리는, “컴퓨팅 파워를 늘리면 성능 향상은 뒤따른다”라는 스케일링 기반 접근법이 이번에 또다시 유효함이 드러났다는 점이 크게 주목받고 있다.


II. DeepSeek: 예외로 드러난 또 다른 증거

DeepSeek 역시 상대적으로 적은 GPU(약 5만 장의 Nvidia Hopper)를 활용해 상위권 모델과 경쟁할 수 있다는 사실을 입증해 주목받았다. 이 성과로 일각에서는 “이제 스케일링보다 정교한 최적화나 알고리즘 개선이 더 중요하다”고 주장했다.

하지만 이는 Bitter Lesson의 핵심을 제대로 이해하지 못한 해석에 가깝다. 이 법칙은 “알고리즘 개선이 필요 없다”가 아니라, “컴퓨팅 능력을 통한 확장성이 궁극적으로 더 큰 성과를 낸다”는 관찰에 기반한다. DeepSeek은 어쩔 수 없이 제한된 자원을 극도로 최적화해 좋은 결과를 냈지만, 만약 훨씬 더 많은 GPU를 쓸 수 있었다면 더욱 빠르고 안정적으로 고성능 모델을 확보했을 것이다.

DeepSeek 최고경영자(CEO) 역시 해외 수출 규제로 인해 더 많은 GPU를 확보하지 못하는 현실을 ‘가장 큰 장애물’로 꼽았다. 이는 “GPU가 중요하지 않다”는 주장이 아니라, 오히려 “충분한 스케일링 리소스가 있었다면 훨씬 앞서갔을 것”이라는 점을 방증한다.


III. xAI의 Grok 3: 스케일링이 최적화보다 앞선 사례

반면 xAI는 10만 장 규모의 H100 GPU로 구성된 초대형 슈퍼컴퓨터(Colossus)를 확보했다. 이 대규모 인프라를 활용해 Grok 3을 훈련시킨 결과, 가장 앞서 있는 모델들과 어깨를 나란히 하는 수준에 올라섰다.

물론 xAI도 어느 정도 최적화 작업을 병행했을 것이다. 하지만 DeepSeek처럼 모든 부분을 직접 수정하거나 리스크가 큰 미검증 기법을 시도할 필요는 없었다. “규모의 힘”을 우선적으로 활용한 것이다. 그리고 이 선택이 Grok 3을 빠른 시일 내에 최상위권 모델로 끌어올리는 데 결정적 역할을 했다.

이는 단순히 AI 업계뿐 아니라 일반 원칙으로도 적용된다. 자원이 한정되면 필연적으로 ‘최적화’가 강조되지만, 충분한 자원이 주어진다면 조금 덜 정교한 설계로도 훨씬 높은 성능을 낼 수 있다는 사실이 반복해서 증명되고 있다.


IV. xAI와 DeepSeek가 성공할 수 있었던 전환점: ‘포스트 트레이닝’

최근 AI 업계에서는 과거와 달리 ‘포스트 트레이닝(post-training) 스케일링’이 핵심 경쟁력으로 부상하고 있다.

프리 트레이닝 시대(2019~2024년) GPT-2부터 GPT-4에 이르는 모델들은 매번 파라미터 수가 기하급수적으로 늘어나는, ‘더 큰 모델’을 만드는 전략을 택했다. 모델 크기가 커지고 훈련 데이터가 방대해질수록, 실제 훈련에는 막대한 자원과 시간이 필요했다. 선발 주자들은 이미 대규모 GPU 인프라와 노하우를 축적해 후발주자들이 따라가기 어려웠다.

포스트 트레이닝 시대(2024년 이후) 무작정 파라미터를 늘리는 방식이 점차 한계에 부딪히면서, “모델 실행 단계에서의 컴퓨팅 확장”이 중요해졌다. 특히 수학·코딩처럼 명확한 정답과 보상 함수를 정의하기 쉬운 영역에서, 모델에 추가적인 추론 능력을 부여하는 강화학습(RL)과 지도학습(FT)이 큰 효과를 발휘했다. 트레이닝 규모 자체를 무제한으로 키우기보다는, 기존 모델을 효율적으로 ‘생각’하도록 만드는 접근이 떠오른 것이다.

이런 패러다임 전환은 DeepSeek과 xAI 모두에게 유리하게 작용했다. 초기부터 이 ‘포스트 트레이닝’ 기법을 적극적으로 도입해, 상대적으로 빠른 속도로 상위 모델 수준까지 도달할 수 있었다.


V. 두 스타트업의 성과, 그리고 그 배경

DeepSeek은 제한된 GPU 환경에서 극도로 정교한 최적화에 성공해, 일시적으로 주요 모델 수준을 따라잡는 모습을 보였다.

xAI는 더 많은 자원을 보유한 상태에서 대규모 스케일링을 통해 Grok 3을 빠르게 고성능으로 끌어올렸다.

이처럼 양사의 사례는 서로 다른 접근 방식을 취했지만, 결국 스케일링 패러다임 안에서 각각의 최적 전략을 구사했기에 가능했다.

오해하지 말아야 할 것은, 컴퓨팅 자원만 많다고 저절로 이기는 것은 아니라는 점이다. xAI와 DeepSeek 모두 훌륭한 인재와 기술력을 기반으로 적절한 선택을 했기에 성공할 수 있었다. 다만 결과적으로 볼 때, 규모의 이점은 부정하기 어려운 차이를 만들어낸다는 사실이 다시금 확인되었다.


VI. 포스트 트레이닝 시대, ‘더 큰 투자’로 귀결될 가능성

포스트 트레이닝 방식이 효과적이라는 사실이 증명되면서, 기업들은 이 부분에 막대한 투자를 시작하고 있다. 과거 프리 트레이닝 시절에는 모델 크기를 키우는 데 많은 비용이 들었지만, 이제는 “모델이 문제 해결 과정에서 사용할 수 있는 계산량을 늘리는” 쪽으로 전략이 옮겨가고 있다는 분석이다.

이는 “포스트 트레이닝에도 대규모 GPU가 필요해진다”는 뜻이기도 합니다. 자금력과 GPU 수급 능력이 뒷받침되지 않으면 한계가 분명해질 수밖에 없다. xAI가 미리 10만 장 이상의 H100 GPU를 확보해둔 것은 이러한 경쟁 구도에서 결정적 우위를 차지하기 위한 전략적 투자라고 볼 수 있다.

반면 DeepSeek처럼 당장은 규모 확장이 쉽지 않은 기업들은, 어느 순간부터는 “가혹한 물리적 한계”에 부딪혀 최적화만으로 성능을 올리기 어려워질 수 있다.


VII. 1년 후, 누가 선두를 달릴까?

OpenAI, Google DeepMind, Anthropic 등 선발 주자들도 계속해서 업그레이드된 모델(GPT-4.5/5, Claude 4 등)을 선보일 예정이며, 구글 역시 Gemini 2.0의 ‘Thinking-model’을 개선 중이다. 이들의 축적된 경험과 인프라, 제품 운용 능력은 무시할 수 없는 강점이다.


다만 “포스트 트레이닝 시대”는 새로운 패러다임 덕분에, 후발주자들도 빠른 속도로 따라잡거나 심지어 앞서나갈 수 있는 길이 열렸습니다. xAI의 Grok 3가 그 대표적 예시이다. 앞으로 1년 뒤 AI 판도는 더욱 치열하게 변할 것이다.


무엇보다 이번 Grok 3의 등장은 “계산 자원을 늘리는 스케일링이야말로 AI 성능을 획기적으로 높이는 열쇠”라는 사실을 다시 한번 각인시킨다. 모델 설계의 정교함과 알고리즘적 창의성도 물론 중요하지만, 궁극적으로 규모의 힘을 이길 카드는 여전히 찾아보기 어렵다.

keyword
매거진의 이전글DeepSeek만 있나? 중국 AI ‘6호랑이’가 온다