클라우드의 미래,
그리고 생태계의 저편 (1)

by Yameh

안녕하세요.

우리는 지금까지 클라우드가 어떻게 작동하는지, 왜 복잡한지, 누가 책임을 져야 하는지를 살펴봤습니다.

그런데 이 모든 논의의 전제에는 하나의 가정이 깔려 있었습니다. 클라우드는 계속 발전할 것이고, 하이퍼스케일러는 우리의 인프라를 더 잘 관리해 줄 것이며, 생태계는 점점 더 성숙해질 것이라는 믿음입니다.

하지만 2024년을 지나 2025년의 끝을 향해가는 지금, 클라우드 산업은 근본적인 방향 전환을 겪고 있습니다. 하이퍼스케일러들은 더 이상 '인프라 공급자'로 남아 있지 않습니다. 그들은 AI 플랫폼 제공자가 되고 있습니다. 그리고 이 전환의 한가운데서, 기업들이 진짜 궁금해하는 질문에 대한 답은 점점 더 희미해지고 있습니다.

"지금 우리가 클라우드에 올려둔 인프라는 앞으로 어떻게 되는 걸까요?"


이제부터는 클라우드가 어디로 가고 있는지, 생태계가 어떻게 재편되고 있는지, 그리고 우리는 무엇을 준비해야 하는지에 대해 이야기할 예정입니다. 먼저 클라우드 진화의 큰 흐름을 이해하고, 하이퍼스케일러의 전략 변화를 들여다본 뒤, 생태계 재편의 방향을 짚어보겠습니다.


1. 클라우드 진화의 구조 – 정·반·합

클라우드의 역사를 돌아보면, 헤겔의 변증법처럼 '정·반·합'의 흐름이 보입니다.

온프레미스 시대가 '정(正)'이었다면, 퍼블릭 클라우드는 그에 대한 '반(反)'이었습니다. 그리고 지금 우리가 목격하는 하이브리드와 분산 클라우드는 '합(合)'의 과정입니다.


정(正): 온프레미스 시대

온프레미스 시대의 핵심 가치는 세 가지였습니다.

물리적 근접성, 완전한 통제, 그리고 안정성입니다.

데이터센터는 회사 건물 지하에 있었습니다. 서버는 손으로 만질 수 있었고, 문제가 생기면 직접 가서 확인할 수 있었습니다. IT 팀은 하드웨어부터 네트워크까지 모든 것을 통제했고, 보안 정책도 자신들이 직접 정의했습니다. 느렸지만 예측 가능했고, 비쌌지만 확실했습니다.

하지만 이 안정성에는 대가가 따랐습니다. 새로운 서버를 추가하려면 몇 달이 걸렸고, 트래픽이 급증하면 그저 서버가 버텨주기를 바랄 수밖에 없었습니다. 비용은 고정적이었기에, 쓰든 안 쓰든 전체 인프라를 유지해야 했습니다.


반(反): 퍼블릭 클라우드 시대

퍼블릭 클라우드는 온프레미스의 모든 제약을 정면으로 반박했습니다.

"물리적 근접이 필요하다고요? 전 세계 어디서든 API 호출 하나로 서버를 만들 수 있습니다."

"통제가 중요하다고요? 우리가 인프라를 관리해 드리겠습니다. 당신은 비즈니스에만 집중하세요."

"안정성을 원한다고요? 우리는 99.99% SLA를 제공합니다."

확장성, 민첩성, 서비스화.

퍼블릭 클라우드는 온프레미스가 해결하지 못한 모든 문제를 해결하는 것처럼 보였습니다.

실제로 많은 부분에서 그랬습니다. 스타트업은 몇 분 만에 글로벌 서비스를 시작할 수 있었고, 대기업은 피크 시간대의 트래픽을 유연하게 처리할 수 있었습니다.

하지만 반(反)은 정(正)의 장점까지 함께 부정했습니다.

데이터는 어느 나라에 저장되는지 알기 어려워졌고, 통제권은 CSP에게 넘어갔으며, 비용은 예측 불가능해졌습니다. 락인이 심화되었고, 클라우드를 옮기는 것은 거의 불가능에 가까워졌습니다.


합(合): 하이브리드와 분산의 시대

그래서 등장한 것이 하이브리드 클라우드입니다.

온프레미스의 통제와 퍼블릭 클라우드의 확장성을 동시에 취하려는 시도였습니다.

중요한 데이터는 온프레미스에 두고, 트래픽 급증은 클라우드로 처리하는 식이었죠.

하지만 합(合)은 단순히 정(正)과 반(反)을 더한 것이 아닙니다. 새로운 질서입니다.

그리고 이 새로운 질서를 만드는 힘은 네 가지입니다.


첫째, 데이터 주권과 규제입니다.

GDPR은 EU 밖으로의 개인정보 이전에 매우 엄격한 조건을 부과합니다. 중국의 사이버보안법은 중요 정보 인프라 운영자의 중요 데이터에 대해 강한 로컬라이제이션을 요구합니다. 한국은 공공기관이 국내에 위치한 인증된 클라우드 서비스를 사용하도록 규제합니다. 데이터는 더 이상 자유롭게 흐를 수 없습니다.


둘째, AI 워크로드의 특성입니다.

AI 모델 훈련은 엄청난 컴퓨팅 파워를 필요로 하지만, 추론은 지연 시간에 민감합니다.

자율주행차가 클라우드에 데이터를 보내고 판단을 받아오기까지 1초가 걸린다면, 사고는 이미 일어난 뒤입니다. 엣지에서의 추론, 클라우드에서의 훈련이라는 분산 구조가 필연적입니다.


셋째, 비용 최적화의 압박입니다.

클라우드는 처음에는 싸 보였지만, 시간이 지날수록 예상치 못한 비용이 늘어났습니다.

데이터 전송 비용, 스토리지 비용, 예약하지 않은 인스턴스 비용. 기업들은 워크로드를 분류하기 시작했습니다. 예측 가능한 워크로드는 온프레미스나 코로케이션으로, 가변적인 워크로드만 클라우드로 보내는 식입니다.


넷째, 지연 시간의 물리적 한계입니다.

빛의 속도는 유한합니다. 서울에서 버지니아까지 패킷이 왕복하는 데는 약 200ms 이상 걸립니다. 실시간 게임, 원격 수술, 산업용 IoT는 이 지연을 견딜 수 없습니다. 컴퓨팅은 데이터가 생성되는 곳 가까이로 내려와야 합니다.

합(合)의 핵심은 이겁니다. 모든 것을 한 곳에 두지 않는다는 것.

워크로드의 특성에 따라, 규제 요구사항에 따라, 비용 구조에 따라, 지연 시간 요구사항에 따라 인프라를 배치한다는 것입니다. 이것이 진정한 하이브리드이고, 진정한 분산입니다.


2. 하이퍼스케일러의 전략 변화 – AI 중심 전환

2024년 AWS re:Invent를 보셨습니까?

키노트의 대략 80%는 AI였습니다. Amazon Nova foundation models, Trainium2, NVIDIA H200 기반 P5en 인스턴스. EC2나 RDS 개선 사항은 슬라이드 한 장으로 지나갔습니다.

Microsoft Ignite 2024도 마찬가지였습니다.

키노트의 대략 90%는 Blackwell GB200, Maia AI accelerator, Azure AI Foundry였습니다. VM이나 데이터베이스 개선은 발표 자료 말미에 작은 글씨로 적혀 있었습니다.

Google Cloud Next 2024는 대략 85%가 Vertex AI, Gemini 1.5 Pro, AI Hypercomputer 이야기였습니다. Compute Engine이나 Cloud SQL은 "그건 당연히 개선되고 있죠"라는 뉘앙스로 지나갔습니다.


2025년에도 이 흐름은 계속됐습니다.

AWS는 OpenAI와 7년간 380억 달러 규모의 계약을 맺었습니다. 수십만 개의 NVIDIA GPU를 제공하고, GB200과 GB300을 클러스터링해서 최대 성능을 뽑아내는 UltraServer를 구축합니다. Amazon Bedrock AgentCore를 통해 기업용 AI 에이전트 플랫폼을 만들고, Amazon EKS는 클러스터당 10만 노드까지 확장해서 160만 개의 Trainium 가속기나 80만 개의 NVIDIA GPU를 지원합니다.

Microsoft Azure는 Foundry Control Plane으로 AI 에이전트 플랫폼의 보안, 생명주기 관리, 가시성을 통합합니다. GitHub Copilot은 단순한 페어 프로그래머를 넘어 전략적 팀원이 되고, 차기 SQL Server는 AI 벡터 네이티브 지원으로 "AI 준비 완료 엔터프라이즈 데이터베이스"가 됩니다.

Google Cloud는 Agentspace로 기업 전문성을 AI로 잠금 해제한다고 선언합니다. GKE Inference Gateway와 Quickstart로 AI 모델 배포를 단순화하고, RayTurbo on GKE로 데이터 처리를 4.5배 빠르게 만듭니다. BigQuery continuous queries로 스트리밍 데이터를 실시간으로 분석하고, Looker는 자연어로 대화하는 분석 플랫폼이 됩니다.


그렇다면 기존 인프라는 어떻게 됐을까요?

개선은 계속됐습니다.

2025년에도 AWS는 Graviton4 기반 R8g 인스턴스로 최대 30% 성능 향상을 발표했고, Azure는 Boost 차세대 버전으로 수십만~백만 IOPS 수준의 고성능 스토리지를 제공하며, Google은 SAP 워크로드용 M4 VM으로 최대 65% 가격 성능 개선을 선보였습니다.

하지만 모두 '더 빠르게, 더 싸게'만 말할 뿐입니다.

'AI 시대에 기존 ERP는 어떤 역할을 하는가?'에 대한 답은 여전히 없습니다.

CSP는 더 이상 인프라 공급자가 아닙니다. 그들은 AI 플랫폼 제공자입니다.

GPU를 확보하고, 자체 AI 칩을 개발하고, LLM을 서빙하며, 기업용 AI API 생태계를 구축합니다.

그리고 기존 워크로드 – ERP, CRM, 레거시 애플리케이션, 데이터베이스 – 에 대해서는 침묵합니다.


3. AI 시대, 클라우드는 더 중요해진다

CSP가 AI에 집중하는 것은 과장이 아닙니다. 실제로 AI 시대에 클라우드의 중요성은 그 어느 때보다 높아졌습니다.


GPU 확보의 현실

2024년 NVIDIA H100 GPU 한 장 가격은 3만 달러를 넘었습니다.

그리고 2024년 초중반 기준으로 주문 후 수개월에서 최대 1년 가까운 리드타임이 보고되었습니다.

개별 기업이 AI 훈련용 GPU 클러스터를 구축하는 건 매우 어려우며 극소수 기업만 가능합니다.

예산이 문제가 아닙니다. 공급이 없습니다.

NVIDIA의 GPU 생산량은 한정되어 있고, 하이퍼스케일러들이 대량 선주문으로 물량을 선점합니다.

남은 GPU는 극소수이고, 가격은 프리미엄이 붙습니다.

반면 AWS는 수십만 개의 H100, H200을 확보했고, OpenAI에게만 수십만 개의 GB200/GB300을 제공합니다. Azure는 NVIDIA로부터 Blackwell을 우선 공급받고, 자체 Maia 칩을 수만 개 배치했습니다. Google은 TPU v5p를 10만 개 이상 클러스터링했습니다.

대부분의 기업에게 클라우드는 가장 현실적인 선택지입니다.


AI 플랫폼의 복잡성

GPU를 확보했다고 끝이 아닙니다. LLM 훈련은 엄청나게 복잡합니다.

수백 대의 GPU를 InfiniBand나 RoCE로 클러스터링하고, 데이터를 분산 처리하며, 모델 파라미터를 동기화해야 합니다.

Gradient checkpointing, mixed precision training, pipeline parallelism 같은 기법들을 적용해야 하고, 장애가 나면 체크포인트에서 복구해야 합니다.

그리고 LLM 훈련만이 아닙니다. RAG(Retrieval-Augmented Generation)는 벡터 데이터베이스, 임베딩 모델, LLM을 통합해야 합니다. 멀티모달 모델은 텍스트, 이미지, 비디오를 함께 처리해야 합니다. AI 에이전트는 계획, 도구 호출, 메모리 관리를 orchestration 해야 합니다.

이 모든 것을 직접 구축하려면? 수십 명의 ML 엔지니어와 몇 년의 시간이 필요합니다. 그리고 그사이에 기술은 또 바뀝니다.

Bedrock, Azure AI Foundry, Vertex AI 같은 관리형 플랫폼이 필요한 이유입니다.

API 몇 줄로 LLM을 호출하고, 클릭 몇 번으로 RAG 파이프라인을 구축하며, 관리형 서비스로 에이전트를 배포합니다. 복잡성을 추상화하고, 모범 사례를 내장하며, 지속적으로 업데이트됩니다.


탄력적 확장의 필요성

AI 워크로드의 특성은 극단적으로 가변적입니다.

모델 훈련은 며칠에서 몇 주간 수백~수천 개의 GPU가 필요합니다.

하지만 훈련이 끝나면? GPU는 놀립니다. 온프레미스로 구축했다면, 수억 원짜리 장비가 대부분의 시간 동안 유휴 상태입니다.

추론도 마찬가지입니다.

사용자 트래픽에 따라 초당 10개에서 10만 개까지 요청이 들어옵니다. 피크 시간대에 맞춰 인프라를 구축하면, 평상시에는 90%가 낭비됩니다. 평균에 맞추면, 피크 때 서비스가 다운됩니다.

클라우드의 탄력적 확장 없이는 이 워크로드의 경제성이 나오지 않습니다. 필요할 때만 GPU를 쓰고, 끝나면 반납합니다. 트래픽이 늘면 자동으로 확장하고, 줄면 축소합니다. 사용한 만큼만 비용을 냅니다.


데이터 근접성

많은 기업이 상당한 양의 데이터를 이미 클라우드에 두고 있습니다.

S3에 쌓인 10년치 로그 데이터, Azure Blob에 저장된 수백만 장의 이미지, Cloud Storage의 비디오 아카이브. 수십 페타바이트의 데이터가 이미 클라우드에 있습니다.

AI 모델을 훈련하려면, 데이터가 있는 곳에서 해야 합니다. 네트워크를 통해 페타바이트를 옮기는 건 비현실적입니다. 10 Gbps 전용선으로 1 PB를 옮기는 데만 몇 주가 걸립니다. 그리고 데이터 전송 비용만 수천만 원입니다.

데이터를 온프레미스로 가져올 것인가, 아니면 컴퓨팅을 데이터가 있는 클라우드로 가져갈 것인가?

답은 명백합니다.


역설의 탄생

그래서 역설이 생깁니다.

클라우드는 AI 시대의 필수 인프라입니다. GPU를 확보하려면 클라우드가 필요하고, AI 플랫폼을 쓰려면 클라우드가 필요하며, 탄력적으로 확장하려면 클라우드가 필요하고, 데이터가 이미 클라우드에 있습니다.

그런데 정작 고객들이 이미 클라우드에 올려둔 시스템의 미래는 불투명합니다.

CSP는 AI 플랫폼의 비전을 제시하지만, 기존 ERP, CRM, 데이터베이스가 그 비전 안에서 어떤 역할을 하는지는 말하지 않습니다. 새로운 AI 애플리케이션을 만드는 방법은 알려주지만, 10년간 쌓아온 레거시 시스템을 어떻게 연결할지는 침묵합니다.

클라우드 의존도는 높아지는데, 전략적 방향성은 흐려지고 있습니다.


4. 고객이 진짜 궁금해하는 것

고객들은 이 침묵이 불편합니다.

제가 최근 만났던 고객분들은 비슷한 질문을 합니다.

"우리 회사 SAP는 AWS에서 잘 돌아가고 있어요. 그런데 AWS 영업 담당자는 AI 이야기만 하더라고요. 우리 SAP는 앞으로 어떻게 되는 건가요?"

"Azure에 Oracle Database를 올렸는데, Microsoft는 자꾸 Cosmos DB로 마이그레이션하라고 해요. 우리 Oracle은 10년 넘게 쌓인 데이터와 로직이 있는데, 그걸 다 버리고 옮기라는 건가요?"

"Google Cloud에서 VM으로 레거시 애플리케이션을 돌리고 있어요. 그런데 담당자가 '이제 컨테이너화하고 AI 기능을 추가해야 합니다'라고만 말해요. 우리가 왜 그걸 해야 하는지, 안 하면 어떻게 되는지는 설명이 없어요."

이들이 궁금한 건 기술적 로드맵이 아닙니다. 전략적 방향입니다.

"지금 우리가 클라우드에 올려둔 인프라는 어떻게 되는가?"

하이퍼스케일러가 AI에 집중한다는 건, 기존 워크로드는 덜 중요해진다는 뜻일까요? 성능 개선과 비용 절감이 계속된다는 건, 그냥 현상 유지만 하겠다는 뜻일까요? 우리가 지금 쓰는 서비스가 언젠가 레거시로 분류되어 단종될까요?

고객이 느끼는 건 기술적 회의가 아닙니다. 전략적 단절감입니다.

CSP는 AI 미래를 이야기하는데, 고객은 현재 운영 중인 시스템의 미래가 궁금합니다.

CSP는 새로운 플랫폼을 제시하는데, 고객은 기존 투자의 연속성이 중요합니다.

CSP는 혁신을 강조하는데, 고객은 안정성을 원합니다.

이 간극은 점점 커지고 있습니다.


5. 왜 하이퍼스케일러는 침묵하는가

하이퍼스케일러가 기존 워크로드에 대해 침묵하는 이유는 간단합니다. 전략적으로 덜 중요하기 때문입니다.


첫째, 전통적인 워크로드는 성장 여력이 약합니다.

이미 클라우드로 옮길 기업은 대부분 옮겼습니다. 남은 온프레미스 워크로드는 규제, 레거시 종속성, 또는 경제성 이유로 옮기지 못하는 것들입니다. EC2 인스턴스를 10% 더 빠르게 만들어도, 신규 고객이 급증하지 않습니다. RDS 가격을 15% 낮춰도, 시장 점유율이 크게 바뀌지 않습니다.

반면 AI는 폭발적으로 성장하고 있습니다. 모든 기업이 AI 전략을 수립하고, 모든 애플리케이션에 AI 기능을 넣으려 합니다. GPU 수요는 공급을 압도적으로 초과하고, AI API 호출량은 매 분기 2배씩 늘어납니다. 여기에 투자하는 것이 훨씬 더 큰 수익을 가져옵니다.


둘째, 차별화 요소가 없습니다.

EC2, Azure VM, Google Compute Engine은 본질적으로 같습니다. 성능 차이는 몇 퍼센트 수준이고, 가격도 비슷합니다. 고객은 이미 익숙한 플랫폼을 선택하지, 몇 퍼센트 나은 성능 때문에 갈아타지 않습니다.

반면 AI 플랫폼은 차별화 여지가 큽니다.

AWS의 Trainium vs Azure의 Maia vs Google의 TPU는 각각 다른 성능 특성을 가집니다. Bedrock vs Azure AI Foundry vs Vertex AI는 서로 다른 생태계를 제공합니다. 여기서 우위를 점하면, 고객을 락인할 수 있습니다.


셋째, 마진이 줄어들고 있습니다.

VM과 스토리지는 이미 상품화(commoditization)됐습니다. 가격 경쟁이 치열하고, 고객은 예약 인스턴스와 스팟 인스턴스로 비용을 최소화합니다. AWS의 전체 매출 중 EC2가 차지하는 비중은 여전히 크지만, 성장률과 마진률은 계속 하락하고 있습니다.

반면 AI API는 고마진 사업입니다. GPT-4 API 호출 한 번에 몇 센트를 받지만, 원가는 훨씬 낮습니다. AI 모델 훈련 서비스는 GPU 비용에 프리미엄을 얹어 판매합니다. 여기서 나오는 마진이 훨씬 매력적입니다.


넷째, 락인 효과가 약합니다.

기업이 AWS EC2에서 Azure VM으로 옮기는 건 어렵지만, 불가능하지는 않습니다. VM 이미지를 변환하고, 네트워크를 재구성하고, 자동화 스크립트를 수정하면 됩니다. 힘들지만 할 수 있습니다.

반면 AI 플랫폼은 락인이 훨씬 강합니다. Bedrock으로 만든 AI 에이전트를 Azure AI Foundry로 옮기려면, 전체 워크플로우를 재설계해야 합니다. Vertex AI로 훈련한 모델을 AWS SageMaker로 옮기려면, 데이터 파이프라인부터 다시 구축해야 합니다. 사실상 불가능에 가깝습니다.

CSP의 전략은 명확합니다.

기존 인프라는 '유지보수' 모드로 두고, AI 인프라와 플랫폼에 모든 리소스를 집중하는 것입니다.

고객의 현재를 조용히 지원하면서, 고객의 미래를 AI로 락인하는 것입니다.


하이퍼스케일러가 침묵하는 동안, 기업들은 스스로 답을 찾아야 합니다.


다음 화에서는 인프라를 전략적으로 분류하는 방법과, 분산화가 왜 다시 돌아오는지 이야기해 보겠습니다.

그리고 클라우드 생태계가 어떻게 재편되고 있는지, 우리는 무엇을 준비해야 하는지를 살펴보겠습니다.


이전 18화클라우드 생태계, 다시 설계되어야 한다