쿠버네티스가 AI의 집이 되기로 결심한 한 달
# 동네 식당이 호텔이 되던 4월
며칠 전 동료가 농담처럼 한마디를 던졌어요.
"그거 알아? AI의 모든 인프라가 사실상 쿠버네티스 위에서 돈다더라."
농담이 아니라 사실이었어요. OpenAI도, Anthropic도, 메타도, 한국의 SKT와 네이버도. 신규 GPU 인프라의 80퍼센트 이상이 쿠버네티스 위에서 돌아가고 있어요.
그런데 이 녀석은 원래 AI를 위해 만들어진 것이 아니에요. 짧게 살고 빠르게 죽는 웹 서비스, 이른바 마이크로서비스를 위한 도구였어요. 동네 백반집이 어느 날 VIP 코스 요리를 주문받기 시작한 것과 비슷해요.
2026년 4월, 그 백반집이 간판을 바꿨어요.
AI 워크로드는 쿠버네티스의 원래 철학과 정면으로 충돌해요.
대형 모델 학습은 수일에서 수주가 걸려요. GPU는 공유가 거의 불가능하고요. 분산 학습은 NVLink로 묶인 GPU와 일반 버스로 묶인 GPU를 구분해야 하는데, 쿠버네티스는 그 차이를 몰랐어요. 모델 파일은 수백 기가바이트짜리예요.
그런데도 모두가 쿠버네티스를 썼어요. 이미 모든 인프라가 거기에 있었으니까요. 팀도, 도구도, 파이프라인도. 지난 10년간 백반집 주방에 철판구이대를 들이고, 테이블 옆에 와인 셀러를 쌓아올리는 식의 임시방편이 계속됐어요.
4월에 그 시대가 끝났어요. 한 달 동안 네 가지 발표가 한꺼번에 쏟아졌거든요.
첫째, GPU를 주문하는 문법이 바뀌었어요.
지난 10년간은 "GPU 네 개 주세요"가 전부였어요. 어떤 GPU인지, 메모리가 얼마인지 말할 방법이 없었어요. 같은 네 개라도 A100과 H100은 학습 속도가 세 배에서 다섯 배 차이 나는데 말이에요.
DRA라는 새 문법이 이 한계를 깼어요. 이제 "암페어 아키텍처, 메모리 20기가 이상, 연산 능력 8.0 이상"이라고 구체적으로 말할 수 있어요. 카탈로그에서 "노트북 네 대"만 주문하던 고객이 원하는 사양을 지정할 수 있게 된 거예요. NVIDIA가 이 도구를 사내에서만 쓰다가 커뮤니티에 기증했어요.
둘째, GPU 전용 스케줄러가 표준이 됐어요.
AI 학습 잡은 독특해요. GPU 여덟 개가 필요하면 여덟 개를 동시에 받아야 하고, 모든 워커가 한꺼번에 시작해야 하고, 우선순위에 따라 GPU를 회수할 수도 있어야 해요. 합창단 전원이 동시에 첫 음을 내야 노래가 시작되는 것처럼요. NVIDIA가 사내에서 쓰던 KAI 스케줄러를 CNCF 샌드박스 프로젝트로 기증했어요. 기존 스케줄러 옆에 앉는 두 번째 두뇌 같은 존재예요.
셋째, 분산 추론 시스템을 한 줄로 표현할 수 있는 Grove API가 나왔어요. 과거에 수십 개의 설정 파일을 엮어야 했던 복잡한 추론 서빙이, 코스 요리를 주문하듯 단일 선언으로 가능해졌어요.
넷째, 구글이 "AI에 준비된 쿠버네티스"의 공식 정의를 발표했어요. AI 적합성 프로그램이에요. 이 인증을 통과하지 못하면 더 이상 "AI-ready"라고 주장할 수 없게 됐어요.
네 가지가 한 달 안에 모인 건 우연이 아니에요. 백반집이 리모델링을 한꺼번에 돌린 거예요.
흥미로운 질문이 하나 있어요.
NVIDIA는 데이터센터 GPU 시장에서 점유율 90퍼센트가 넘는 독점 기업이에요. 그런데 왜 자기 도구들을 모두 풀어주는 걸까요. 성을 지키던 군주가 자기 무기고를 열고 동네 사람들에게 무기를 나눠주는 것과 비슷해 보여요.
답은 GPU 활용률 위기에 있어요. 지금 AI 데이터센터의 평균 GPU 활용률은 30에서 40퍼센트 사이예요. 수십억 달러어치를 사놓고 절반도 못 쓰는 거예요. 이러면 "지금 있는 H100도 30퍼센트밖에 못 쓰는데 새 모델을 또 사야 해?"라는 질문이 나와요.
NVIDIA는 이 질문을 막아야 해요. 활용률을 끌어올려야 다음 세대 GPU를 팔 수 있으니까요. DRA도 KAI도 Grove도 모두 이 활용률을 끌어올리는 도구예요. 무기를 나눠주는 군주는, 사실 더 큰 전쟁을 준비하고 있는 거예요.
다시 처음의 이야기로 돌아와요.
"AI의 모든 인프라가 쿠버네티스 위에서 돈다." 이건 이미 현실이에요. 그런데 그 쿠버네티스가 어떤 모습이어야 하는지에 대한 합의는 4월 이전에는 없었어요. 이제는 있어요.
10년간 마이크로서비스를 위한 플랫폼이었던 아이가, AI의 집이 되기로 결심했어요. 우리가 매일 쓰는 ChatGPT와 Claude와 Gemini의 밑바닥에는, 지금 이 순간에도 수많은 GPU가 빈 채로 돌고 있고, 수많은 엔지니어가 그 빈 자리를 채우려 애쓰고 있어요.
동네 식당이 호텔이 되던 4월은, 조용히 그렇게 지나갔어요.