AI 생태계의 완전한 지도:
공급에서 순환까지

by Yameh

안녕하세요, 지난 번에는 GPU에 대해 4화에 걸쳐 이야기해보았습니다.

여기서 그런 생각이 들 수 있습니다.

현재 지금 열심히 가동 중인 GPU, 즉 이미 시장에 풀린 A100, H100 같은 GPU가 조만간 B100 같은 신형 GPU에 밀려 학습용 GPU의 위치에서 내려와야 할텐데, 그럼 시장에 풀린 이 많은 GPU들은 어디로 가는 걸까?

폐기처리 되는지 아니면 Second Hand 수요가 있어서 어디선가 재활용이 되는지에 대한 궁금증이 생길 수 있습니다.

그래서 GPU를 중심으로 한 AI 생태계 전체에 대해 간략하게 한 번 정리해 보았습니다.

쓰다 보니 좀 길어졌지만 즐겁게 읽어주시기 바랍니다.


개요

우리가 흔히 "AI 생태계"라고 부를 때 떠올리는 장면은 대개 공급자의 풍경이다. 반짝이는 데이터센터, 새로 나온 가속기, 거대한 모델을 맡고 있는 연구조직, 그리고 그 위에 올라가는 화려한 앱들. 하지만 실제 생태계는 그보다 넓다. AI를 받아 쓰는 주체인 기업과 개인이 오른쪽에 버티고 있고, 도입과 운영, 규제가 가운데에서 흐름을 조율한다. 심지어 수명이 다한 하드웨어가 애프터마켓을 통해 다시 시장으로 돌아오며, 생태계는 일방향 사슬이 아니라 순환 구조를 이룬다.

기존의 AI 생태계 논의는 주로 공급자 중심의 선형적 관점에 머물러 있었다. 그러나 실제 AI 생태계는 공급에서 파트너, 수요를 거쳐 다시 순환으로 돌아오는 복합적 구조를 형성한다. 이 확장된 모델은 기업이 AI를 도입하고 운영하는 실제 경로와 의사결정 과정을 더 정확하게 반영한다.


1. 공급: 원재료와 엔진이 만들어내는 상부 구조

인프라와 하드웨어의 물리적 한계선

반도체와 네트워크는 AI의 "물리적 한계선"을 정한다.

GPU와 가속기, NVLink와 PCIe, 고대역폭 메모리인 HBM, 스토리지, 전력과 냉각까지가 이 층의 어휘다.

이 계층이 제공하는 것은 속도와 용량, 그리고 단가다. 속도, 용량, 단가의 조합이 위층의 모든 선택지를 규정한다. 새로운 GPU 아키텍처가 발표될 때마다 전체 생태계의 가능성이 다시 쓰이는 이유가 여기에 있다.


대표 플레이어 및 솔루션:

- GPU/가속기: NVIDIA (H100/A100), AMD (MI300), Intel (Gaudi), Google (TPU), AWS (Trainium)

- 클라우드: AWS, Microsoft Azure, Google Cloud

- 데이터센터: Equinix, Digital Realty


플랫폼과 프레임워크의 표준화 역할

프레임워크인 PyTorch, TensorFlow, JAX와 MLOps 도구들인 MLflow, Kubeflow, Vertex AI, SageMaker 등, 그리고 데이터 플랫폼인 Databricks, Snowflake, Palantir 등이 연구와 운영을 반복 가능한 공정으로 만든다. 모델의 버전, 데이터의 계보, 배포와 관찰 가능성이 이 모습의 핵심이다.

한 번의 실험이 아니라 지속적으로 개선되고 운영될 수 있는 시스템을 만드는 것이 이 계층의 역할이다.


대표 플레이어 및 솔루션:

- 프레임워크: PyTorch, TensorFlow

- MLOps 플랫폼: AWS SageMaker, Azure ML, Google Vertex AI, MLflow, Kubeflow

- 데이터 플랫폼: Snowflake, Databricks, Palantir


데이터의 이중적 성격

AI의 원재료인 데이터는 복합적 성격을 가진다.

웨어하우스와 레이크, 파이프라인인 ETL(Extract, Transform, Load)과 ELT(Extract, Load, Transform), 라이선스 데이터, 오픈 데이터가 뒤섞이며 품질과 권리가 성능과 리스크를 동시에 결정한다.

좋은 데이터는 비용이 들고, 나쁜 데이터는 더 큰 비용을 남긴다.

데이터는 단순한 원재료가 아니라 AI 시스템의 품질을 결정하는 가장 중요한 변수다.


대표 플레이어 및 솔루션:

웨어하우스/레이크: Snowflake, Google BigQuery, Amazon Redshift 등

ETL: Fivetran, Airbyte, Informatica, AWS Glue 등

오픈 데이터: Hugging Face Datasets, LAION 등

콘텐츠 공급자: Getty Images, Shutterstock 등


모델의 패러다임 전환

범용 LLM, 멀티모달, 도메인 특화 모델들이 이 층의 플레이어다.

요즘의 기조는 "하나의 만능 모델"보다 범용 모델과 도메인 적응의 조합이다.

파인튜닝, LoRA(Low Rank Adaptation), 지식주입 같은 기법들이 이 조합을 가능하게 한다.

모델 그 자체보다 운영성이 경쟁력이 되는 시대다. 가장 정확한 모델이 아니라 가장 잘 운영되는 모델이 승리한다.


대표 플레이어 및 솔루션:

범용 LLM: OpenAI (GPT 시리즈), Anthropic (Claude), Google (Gemini), Meta (LLaMA)

멀티모달: OpenAI (DALL-E, Sora), Stability AI, Runway

도메인 특화: BloombergGPT (금융), Med-PaLM (의료)


서비스와 애플리케이션의 경험 경쟁

사용자 접점에서는 생성형 콘텐츠, 검색과 Q&A, 코파일럿과 어시스턴트, 산업별 SaaS의 AI 기능 등이 경쟁한다. 여기서 경험과 맥락 이해가 채택을 좌우한다. 기술적 우수성보다 사용자가 실제로 느끼는 편의성과 유용성이 더 중요해진다. 뤼튼이나 Perplexity 같은 앱이 성공하는 이유는 단순히 좋은 모델을 쓰기 때문이 아니라 사용자 경험을 잘 설계했기 때문이다.


대표 플레이어 및 솔루션:

생성형 콘텐츠: Jasper, 뤼튼 (Wrtn)

검색/Q&A: Perplexity, ChatGPT, Microsoft Copilot

산업별 SaaS: Salesforce Einstein, SAP Business AI

개발자 보조: GitHub Copilot


2. 파트너: 기업을 위해 복잡성을 가려주는 중간의 손

엔터프라이즈 통합의 현실적 가치

기업은 보통 이 문으로 들어온다. 컨설팅은 전략과 거버넌스를 설계하고, MSP와 SI는 클라우드, 플랫폼, 모델, 데이터를 기업 내부의 현실에 맞춰 엮는다.

이 층의 가치는 "속도와 품질, 그리고 리스크 관리"다.

잘 설계된 MSP 협업은 PoC의 반복을 운영 체계로 변환시킨다. 기업이 직접 모든 것을 학습하고 구축하는 대신, 검증된 방법론과 경험을 빌려와 시행착오를 줄일 수 있다.


대표 플레이어 및 솔루션:

컨설팅: Accenture, Deloitte, PwC, BCG 등

SI/MSP: 삼성SDS, LG CNS, SK AX, 메가존클라우드, 베스핀글로벌 등


규제와 정책의 경계선 설정

AI는 산업 규제와 만나며 성숙해진다.

거버넌스, 책임소재, 데이터 권리, 보안과 프라이버시, 평가와 감사 체계가 "쓸 수 있는 AI"와 "쓸 수 없는 AI"를 가른다. 많은 기업이 기술보다 먼저 정책과 리스크 프레임을 세운다. 이는 소극적 대응이 아니라 지속가능한 AI 활용을 위한 필수 조건이다.

규제를 사후적 제약이 아니라 설계 원칙으로 받아들이는 기업들이 장기적으로 더 안정적인 성과를 낸다.


대표 플레이어 및 솔루션:

규제 프레임워크: EU AI Act, 미국 NIST AI RMF

표준/싱크탱크: Partnership on AI, IEEE


투자와 생태계 촉진의 신호 기능

자본과 네트워크가 흐르는 곳이다.

VC와 PE, 엑셀러레이터, 대학과 연구소가 새로운 기술과 인재를 공급한다.

기업의 관점에서 이 층은 공급자 로드맵의 신호이자 파트너십의 통로다. 어떤 스타트업이 투자를 받는지, 어떤 연구가 주목받는지를 통해 미래의 기술 방향을 예측할 수 있다.


대표 플레이어 및 솔루션:

VC/PE: Sequoia, SoftBank Vision Fund, Andreessen Horowitz 등

엑셀러레이터: Y Combinator 등

대학/연구소: Stanford HAI, MIT CSAIL, KAIST AI 등


커뮤니티와 지식 유통의 속도

Hugging Face, GitHub, 논문과 학회, 교육 플랫폼이 지식의 유통속도를 결정한다.

채택의 속도를 올리는 것은 종종 제품이 아니라 커뮤니티의 예제와 관행이다.

새로운 모델이나 기법이 얼마나 빨리 실무에 적용되는지는 공식 문서보다 커뮤니티의 활성도에 달려 있다.

개발자들은 공식 튜토리얼보다 GitHub의 실제 구현 예제를 더 신뢰한다.


대표 플레이어 및 솔루션:

커뮤니티/허브: Hugging Face, GitHub, Papers with Code

컨퍼런스: NeurIPS, ICML, CVPR

교육: Coursera, DeepLearning.AI


3. 수요: 기업과 개인이 AI를 비즈니스와 일상으로 끌어들이는 방식

기업 고객의 다층적 접근

산업별 사정이 다르지만 공통의 접점은 분명하다.

기업들은 네 가지 차원에서 AI와 만난다.


첫째는 앱 소비다. 코파일럿, 어시스턴트, 검색형 SaaS를 구독해 즉시 생산성을 얻는다.

둘째는 플랫폼과 모델 통합이다. 데이터 파이프라인과 MLOps를 깔고, 범용 모델에 도메인 적응을 얹는다.

셋째는 조직과 거버넌스다. AI CoE, 데이터 거버넌스, 보안과 컴플라이언스, 책임과 평가 체계가 함께 움직인다.

넷째는 인프라 전략이다. 클라우드 우선에 일부 엣지와 온프레미스를 조합한다. 비용, 지연, 규제에 따라 최적 조합을 찾는다.


기업의 AI 도입은 단순한 기술 구매가 아니라 조직 전체의 역량 재편이다. 성공하는 기업들은 기술과 조직, 프로세스를 동시에 설계한다. 실패하는 기업들은 기술만 사서 기존 조직에 끼워 맞추려 한다.


개인 사용자의 간접적 영향력

개인은 서비스와 앱 레이어에서 직접 AI를 소비한다.

여기서 탄생한 사용경험은 다시 기업 소프트웨어의 UX에 압력을 준다.

B2C의 속도는 B2B의 기준을 끌어올린다. 직장인들이 개인적으로 ChatGPT를 쓰다가 회사 시스템의 불편함을 느끼기 시작한다. "왜 우리 회사 검색은 이렇게 불편하지?"라는 질문이 기업 IT 부서에 압력이 된다.


4. 순환: 애프터마켓이 여는 접근성의 문

GPU 세대 교체의 실제 경로

2025년, GPU 시장은 흥미로운 전환점을 맞았다.

NVIDIA의 B200(Blackwell 아키텍처)과 H200의 출시로 기존 H100과 A100의 가격 구조가 재편되고 있다. H100 클라우드 임대 가격은 2024년 4분기 최고점 대비 6475% 하락해 시간당 2.853.50달러 수준으로 안정화됐다. 이는 공급 증가와 300개 이상의 신규 클라우드 제공업체 진입으로 인한 가격 경쟁의 결과다.

그런데 이 가격 하락의 이면에는 더 중요한 이야기가 숨어 있다.

바로 구세대 GPU들이 어디로 흘러가는가의 문제다.

B200이 학습(training) 워크로드의 새로운 표준이 되면서, H100은 추론(inference) 중심 워크로드로 이동하고, A100은 더 아래 계층의 워크로드를 담당하는 구조적 재편이 일어나고 있다.


워크로드 분화: 학습에서 추론으로

AI 컴퓨팅 시장은 학습과 추론이라는 두 가지 근본적으로 다른 워크로드로 나뉜다.

학습은 수백억 개의 예제를 통해 모델을 만드는 과정으로, 높은 수치 정밀도와 다중 GPU 병렬 처리가 필요하다.

반면 추론은 완성된 모델로 실제 사용자 요청에 응답하는 과정으로, 메모리 대역폭과 지연시간이 더 중요하다.

2025년의 중요한 변화는 추론 워크로드가 폭발적으로 증가하고 있다는 점이다.

MarketsandMarkets의 시장조사 자료에 의하면, AI 추론 시장 규모는 2025년 1,061억 5천만 달러에서 2030년 2,549억 8천만 달러로 연평균 19.2% 성장할 것으로 예측된다.

ChatGPT, Perplexity, 코딩 코파일럿 같은 서비스들이 매일 수억 건의 추론 요청을 처리하면서, 학습보다 추론에 더 많은 GPU 사이클이 투입되는 시대가 왔다.


여기서 구세대 GPU의 가치가 드러난다.

H100은 B200 대비 학습 성능에서 밀리지만, 메모리 대역폭이 중요한 추론 워크로드에서는 여전히 경쟁력이 있다. A100은 80GB HBM2e 메모리와 Multi-Instance GPU(MIG) 기능 덕분에 최대 7개의 논리적 GPU로 분할해 여러 추론 워크로드를 동시에 처리할 수 있다.

이런 특성은 클라우드 제공업체들이 비용 효율적으로 다중 테넌트 추론 서비스를 제공하는 데 이상적이다.


세컨더리 마켓의 세 가지 흐름

구세대 GPU는 세 가지 주요 경로를 통해 재활용된다.

첫 번째는 클라우드 티어 다운(Cloud Tier Down)이다.

하이퍼스케일러들은 신형 GPU를 최고 성능이 필요한 워크로드에 배치하고, 구형 GPU는 가격이 더 낮은 인스턴스 타입으로 재배치한다.

AWS는 2025년 6월 H100 가격을 45% 인하해 시간당 3.90달러로 낮췄고, A100 인스턴스는 더욱 저렴하게 제공된다. 테슬라는 여전히 A100을 사용하고 있으며, 주요 클라우드 제공업체들은 H100 대비 현저히 저렴한 A100 VM을 운영 중이다.


두 번째는 특화 클라우드 제공업체(Specialized GPU Cloud Providers)다.

Lambda Labs, CoreWeave, RunPod, Vast.ai, Paperspace 같은 업체들이 이 시장의 주역이다.

Lambda Labs는 H100 PCIe를 시간당 2.99달러에 제공하며, CoreWeave는 H100 PCIe를 시간당 4.25달러에 제공하지만 CPU와 RAM을 포함한 완전 구성의 8×H100 HGX 노드는 시간당 6.16달러 수준이다. Vast.ai는 피어투피어 마켓플레이스 모델을 운영하며, 개인들이 유휴 GPU를 임대할 수 있게 해 H100 SXM을 시간당 4.69달러에 제공한다.

이런 업체들은 하이퍼스케일러보다 50~70% 저렴한 가격에 GPU 접근성을 제공하며, 스타트업과 연구기관의 주요 선택지가 되고 있다.


세 번째는 중고 및 리퍼비시 시장(Used and Refurbished Market)이다.

Alta Technologies, Procurri, ITRenew, ServerMonkey 같은 전문 리셀러들이 활성화되어 있다.

Alta Technologies는 30년 이상의 IT 하드웨어 전문 경험을 바탕으로 H100과 A100을 전문적으로 리퍼비시해 판매한다. 이들은 다중 검사 프로세스를 거쳐 엔터프라이즈급 신뢰성을 보장하며, 자체 보증을 제공한다. 중고 GPU 시장에서 H100은 신품 공식 가격인 25,000-30,000달러보다 낮은 가격에 거래되지만, 여전히 상당한 투자를 요구한다. 리퍼비시 제품의 경우 신품 대비 20-40% 할인된 가격에 제공되는 경우가 많다.


지역별 가격 차이와 수요 패턴

지역별 가격 차이도 흥미롭다.

2025년 3월 기준으로 미국 동부 해안은 일당 평균 5.76달러, 서부 해안은 6.60달러로 약 15% 차이가 난다. 북미가 여전히 최대 시장이지만, 아시아 태평양 지역이 가장 빠른 성장률을 보이고 있다. 중국 시장은 특수한 경우인데, 미국의 수출 제재로 H100이 공식적으로 판매되지 않지만 블랙마켓에서 여전히 거래되는 것으로 알려져 있다.

2024년 초 H100 서버는 중국에서 300만 위안(약 42만 달러) 이상에 거래됐는데, 이는 공식 가격인 2830만 달러보다 50% 이상 높은 가격이다.

H200 출시 소식으로 중고품들이 시장에 쏟아지면서 가격이 270-280만 위안으로 10% 이상 하락했다.


한국 시장의 특수한 상황

한국은 글로벌 GPU 생태계에서 독특한 위치에 있다. 소프트웨어정책연구소가 국내 1,441개 AI 기업을 대상으로 조사한 결과에 따르면, 2023년 말 기준 한국 전체의 H100 보유량은 약 1,961개였으며, 2025년 2월에도 약 2,000개 수준에 머물렀다(서울경제, 2025.2.20).

이는 미국의 메타나 마이크로소프트가 각각 보유한 15만개와 비교하면 1.3%에 불과한 수준이다. 이런 극심한 공급 부족은 세컨더리 마켓의 형성과 작동 방식에도 영향을 미친다.


중고 GPU 리셀러 시장은 제한적으로 존재한다.

슈가큐브(SUGARCUBE)는 A100 80G SXM4를 약 3,045만원, H100 80G SXM5를 약 5,191만원에 판매하며, 아인몰(einmall)은 중고 DGX A100 320GB 시스템을 1억 6,500만원에 판매한다. 쿠팡과 인터파크쇼핑 같은 온라인 마켓플레이스에서는 H100이 5,000만원에서 9,000만원대에 거래되는데, 이는 초기 가격 4,800만원에서 구매 경쟁으로 상승한 결과다. 양컴 같은 조립PC/서버 전문 업체들도 GPU를 취급하지만, 전체적으로 시장 규모는 작고 가격은 높은 편이다.


클라우드 기반 접근이 한국 시장의 주된 전략이다.

네이버클라우드는 L4, L40S, A100, V100, T4를 제공하며, 카카오클라우드도 GPU 인스턴스를 운영한다. SKT는 Lambda Labs와 파트너십을 맺어 가산 AIDC에 람다 한국 리전을 유치했는데, 이는 아시아태평양 지역 최초의 람다 리전이다. SKT는 3년 내 수천 대의 GPU를 확보하고 H200도 도입할 계획이다. 삼성SDS와 글로벌커넥트도 NVIDIA GPU 기반 서비스를 제공한다.


2025년의 가장 큰 변화는 정부 주도 GPU 확보 사업이다.

과학기술정보통신부는 1조 4,600억원 예산으로 13,136장의 첨단 GPU를 확보하는 사업을 추진했다(경향신문, 2025.7.28).

네이버클라우드가 H200 3,056장, 카카오가 B200 2,424장, NHN클라우드가 B200 7,656장을 각각 수주했다. 이 GPU들은 독자 AI 파운데이션 모델 개발과 국내 기업·연구자 지원에 활용된다. H200은 2025년 말까지, B200은 2026년 1분기까지 서비스를 개시해야 한다.

흥미로운 점은 기업들이 정부에 제공하는 GPU 비중이 75~84%인데, 나머지는 향후 5년간 자체 클라우드 사업에 활용할 수 있다는 것이다.


민간 GPUaaS 시장도 형성되기 시작했다.

2025년 2월 보도에 따르면 국내 최고 이공계 대학인 KAIST조차 국가 과제용 GPU 서버 40여대 중 H100이 장착된 서버는 단 2대에 불과했다(아시아경제, 2025.2.10).

한 카이스트 관계자는 "최근에 GPU 서버를 기부받았는데 그것도 중고"라고 말했다. 고려대 AI연구소의 최병호 교수는 "연구자들은 대기 명단에 이름을 써놓고 내 순서만 오길 기다리고 있다"며 "모자란 고성능 GPU를 여럿이 쓰다 보니 연구가 어렵다"고 토로했다. KT의 한 임원은 "GPU를 잘 구하는 교수가 유능한 교수라는 게 지금의 현실"이라고 꼬집었다.


일부 스타트업은 극단적 선택을 한다.

마음AI의 최홍섭 대표는 "AI 연구자는 GPU를 얼마나 많이 써봤는지가 커리어에서 중요하다"면서 "1년 매출을 다 털어 H100 100개를 확보했더니 좋은 연구자들이 커리어를 쌓으러 들어왔다"고 말한다(아시아경제, 2025.2.10). AI 연구자에게는 "GPU를 얼마나 많이 써봤는지"가 커리어에서 중요한 지표가 되기 때문이다. 한 연구자는 "대학들이 보유한 GPU는 대부분 저사양"이라며 "최신 AI 연구에 필수적인 H100 시리즈는 장당 수천만원이라 구매하기가 힘든 실정"이라고 설명한다.


한국 시장의 구조적 특징은 명확하다.

첫째, 공급 절대 부족으로 세컨더리 마켓이 제대로 형성되지 못했다. 중고 시장은 존재하지만 가격이 높고 물량이 적어 실질적 대안이 되지 못한다.

둘째, 민간 투자가 부족하다. 영국의 데이터 분석 미디어 토터스인텔리전스에 따르면 한국의 민간 AI 투자 지표는 27.7점으로 미국(100점), 중국(88.8점), 사우디아라비아(51.2점), 이스라엘(50.9점)에 이어 11위에 그쳤다(서울경제, 2025.2.20). 정부는 2027년까지 65조원 규모 민간투자 유치 계획을 세웠지만 진전이 더디다.

셋째, 정부 주도 대량 구매가 유일한 돌파구처럼 보이지만, 문송천 카이스트 경영대학원 명예교수는 "기술의 세계는 놀라운 속도로 발전해 나간다는 점을 유의해야 한다"면서 "정부가 GPU 수만개를 확보했을 때 시장은 H100은커녕 블랙웰도 구닥다리 기술로 보고 있을 것"이라고 경고한다(아시아경제, 2025.2.10).


이런 상황에서 한국의 GPU 생태계는 글로벌 세컨더리 마켓과 다른 경로를 걷는다.

구세대 GPU가 저렴하게 재활용되는 선순환보다는, 최신 GPU조차 확보하기 어려운 공급 병목이 지배한다. 정부 사업으로 확보된 13,000여장의 GPU가 2025~2026년 서비스를 시작하면 상황이 일부 개선되겠지만, 이것만으로는 미국이나 중국과의 격차를 좁히기 어렵다는 게 전문가들의 공통된 견해다. 한국에서 GPU 순환 생태계가 제대로 작동하려면, 먼저 공급 자체가 정상화되어야 한다는 역설적 상황이다.


다행스럽게도 정부 차원에서 최근 엔비디아로 부터 최신 GPU 26만장의 공급을 약속받아 숨통이 트일 것으로 예상하고 있다.


실제 활용 사례: 누가, 왜 구세대 GPU를 쓰는가

구세대 GPU의 주요 사용자층은 명확하다.

스타트업과 중소 AI 기업들이 첫 번째다.

제한된 예산으로 MVP(Most Viable Product)를 만들거나 초기 고객을 확보해야 하는 이들에게 중고 A100이나 클라우드 H100 임대는 현실적인 선택지다. 많은 스타트업이 Vast.ai나 RunPod에서 초당 과금 모델로 실험하다가, 검증된 후 Lambda Labs나 CoreWeave에서 장기 계약을 맺는다.


학계와 연구기관이 두 번째다.

대학 연구실은 논문 재현이나 교육 목적으로 최첨단 성능이 필요하지 않다. A100의 80GB 메모리면 대부분의

학술 연구에 충분하며, 리퍼비시 제품을 구매하거나 교육 할인을 받은 클라우드 크레딧을 활용한다.


추론 중심 서비스 기업이 세 번째다.

챗봇, 검색, 추천 시스템처럼 학습은 가끔 하고 추론은 계속 하는 기업들에게 A100과 H100은 완벽한 조합이다. 일부 기업은 신형 GPU로 모델을 학습한 뒤, 그 모델을 구형 GPU 클러스터에 배포해 추론 비용을 70% 이상 절감한다. AWS Inferentia2가 A10G GPU 인스턴스 대비 추론당 70% 저렴한 비용으로 2.6배 높은 처리량과 8배 낮은 지연시간을 제공한다는 점이 이런 전략의 근거다.


하이브리드 전략 기업이 네 번째다.

많은 엔터프라이즈는 최신 GPU와 구세대 GPU를 조합한다. 핵심 생산 워크로드와 실험용 워크로드를 분리해, H100은 고우선순위 작업에, A100은 일반 목적 작업에 배정하는 방식이다. 이는 비용, 가용성, 성능을 최적화하는 실용적 접근법이다.


경제성 분석: TCO의 관점

총소유비용(TCO) 관점에서 보면 구세대 GPU의 가치가 더 명확해진다.

H100 PCIe의 신품 가격은 25,000-30,000달러이지만, 리퍼비시 제품은 이보다 훨씬 저렴하다.

클라우드 임대는 초기 투자가 없지만, 장기 사용 시 구매보다 12배 이상 비용이 발생할 수 있다.

예를 들어 Llama 70B 모델을 LoRA로 파인튜닝하는데 4개 H100이 15시간 필요하다면, 클라우드 비용은 약 200-250달러다. 하지만 이를 매월 반복한다면 연간 2,400-3,000달러가 들어 2-3년이면 GPU 구매 비용과 맞먹는다.

여기서 중고 시장의 가치가 드러난다.

리퍼비시 A100을 신품 대비 80% 할인된 가격에 구매하면, 중간 규모 워크로드를 몇 년간 운영해도 클라우드 임대보다 저렴할 수 있다. 게다가 데이터 주권, 보안, 지연시간 같은 비용으로 환산하기 어려운 이점도 있다.


순환 생태계의 전략적 의미

이 순환 생태계는 단순한 비용 절감을 넘어 전략적 의미를 갖는다.

접근성 민주화가 첫 번째다.

신형 GPU는 빅테크와 대기업이 독점하지만, 세컨더리 마켓은 스타트업, 중소기업, 개발도상국에 AI 인프라 접근권을 제공한다. Y Combinator 배치의 많은 스타트업이 Vast.ai의 저가 GPU로 초기 제품을 만들고 있다.


생태계 저변 확대가 두 번째다.

더 많은 개발자와 연구자가 GPU에 접근할수록 혁신의 속도가 빨라진다. 오픈소스 모델 생태계가 번성하는 이유 중 하나는 Hugging Face와 저가 GPU 클라우드의 결합이다.


지속가능성이 세 번째다.

GPU는 제조 과정에서 상당한 탄소를 배출한다. 기존 하드웨어를 재활용하면 환경 영향을 줄이면서도 경제적 가치를 창출한다. 많은 기업이 ESG 목표 달성을 위해 리퍼비시 하드웨어 조달을 선호한다.


공급망 탄력성이 네 번째다.

신형 GPU는 종종 4~8개월의 납기를 갖는다. 세컨더리 마켓은 즉시 출하 가능한 재고를 제공해, 기업이 시장 기회를 놓치지 않게 한다.


생태계의 역동성: NVIDIA의 순환 전략

흥미롭게도 NVIDIA 자체도 이 순환 구조를 전략적으로 활용한다.

2025년 NVIDIA는 Lambda Labs와 15억 달러 규모의 파트너십을 맺어 18,000개 GPU 서버를 리스백했다. 이는 이전에 Lambda에 판매한 하드웨어를 4년간 임대하는 구조로, NVIDIA는 하드웨어를 판매하면서도 지속적인 수익을 창출하고, Lambda는 초기 자본 부담을 줄이며 IPO 준비를 가속화한다. 이는 CoreWeave와의 유사한 거래에 이은 것으로, GPU를 금융 자산처럼 취급하는 새로운 비즈니스 모델이다.

더 나아가 Lambda Labs, CoreWeave 같은 특화 클라우드 업체들은 NVIDIA 에코시스템에 의존하면서도, AMD나 Intel에 기댈 수 있었던 대안 시장을 잠식하는 역할을 한다.

NVIDIA의 AI 가속기 시장 점유율 80%는 이런 파트너십 네트워크로 더욱 공고해진다.


미래 전망: 2026년을 향하여

2026년 전망은 몇 가지 트렌드로 정리된다.

1. 가격 안정화와 추가 하락이 예상된다.

B200이 2026년 1분기 본격 출하되면 H100 가격은 10~20% 추가 하락할 것으로 보인다. 공급망 제약이 완화되고 경쟁이 심화되면서 가격 압박은 지속될 것이다.


2. 추론 중심 아키텍처 최적화가 강화된다.

NVIDIA는 Rubin CPX 같은 추론 특화 칩을 준비 중이며, 100만 토큰 이상의 컨텍스트 윈도우를 지원하는 LLM을 위한 메모리 대역폭 개선에 집중하고 있다. 이는 구세대 학습용 GPU를 추론 워크로드로 전환하는 트렌드를 가속화할 것이다.


3. 멀티벤더 전략 확산이 진행된다.

기업들은 NVIDIA 의존도를 낮추기 위해 AMD MI325X, Intel Gaudi 3, AWS Trainium/Inferentia 같은 대안을 실험하고 있다. 이는 세컨더리 마켓에 더 다양한 GPU가 유입되는 계기가 될 수 있다.


4. 규제와 지정학적 변수도 무시할 수 없다.

미국의 대중국 GPU 수출 제재는 세컨더리 마켓의 지역별 가격 차이를 만들고 있으며, 이는 앞으로도 중요한 변수로 작용할 것이다.


대표 플레이어 및 솔루션

GPU 클라우드 임대 플랫폼:

Lambda Labs: H100 PCIe 시간당 $2.99, 엔터프라이즈 수준 안정성

CoreWeave: H100 PCIe 시간당 $4.25 (단일 GPU), 8×H100 HGX 노드 시간당 $6.16/GPU (CPU/RAM 포함), 최고 성능 지향

RunPod: 초당 과금, 즉시 배포, 개발자 친화적

Vast.ai: P2P 마켓플레이스, H100 SXM $4.69/시간, 최저가

Paperspace: 사용자 경험 중심, 세련된 인터페이스

TensorDock: 글로벌 커버리지, 마켓플레이스 모델


중고/리퍼비시 리셀러:

Alta Technologies: 30년 경력, 엔터프라이즈급 검증, H100/A100 전문

Procurri: 글로벌 GPU 마켓플레이스, DGX/HGX 시스템

ITRenew: 인증 리퍼비셔, 데이터센터 등급

ServerMonkey: 서버 통합 솔루션

Bitpro: A100 전문 바이백 프로그램


5. 기업이 AI 생태계와 맞닿는 일곱 가지 인터페이스

문제 인터페이스: 목적의 명확화

"무엇을 바꿀 것인가?"가 첫 번째 질문이다.

비용절감으로서의 자동화, 매출증대를 위한 개인화와 추천, 리스크저감을 위한 탐지와 설명가능성 중 우선순위를 명확히 해야 한다. 문제정의가 흐리면 툴은 늘고 임팩트는 줄어든다.

모든 것을 다 하려는 기업은 결국 아무것도 제대로 하지 못한다.


데이터 인터페이스: 원재료의 품질 관리

"무엇을 먹일 것인가?"는 두 번째 질문이다.

소스 식별에서 시작해 정제와 라벨링, 권리와 라이선스, 보안과 접근, 품질 지표까지 이어지는 전체 과정을 설계해야 한다. 데이터 계약과 온톨로지, 카탈로그가 운영의 기초가 된다.

좋은 AI는 좋은 데이터에서 나온다는 진리는 여전히 유효하다.


모델 인터페이스: 구매와 구축의 균형

"사서 쓸까, 우리 걸 만들까?"는 세 번째 질문이다.

Buy는 범용 모델과 프롬프트, 에이전트 설계, 벤더 기능 활용이다. Borrow는 사내 데이터로 경량 적응인 LoRA, 지식주입, RAG다. Build는 특정 도메인에 한해 파인튜닝이나 전용 모델이다.

선택 기준은 정확성, 비용, 통제권, 리스크의 균형이다. 대부분의 기업에게는 Borrow가 가장 현실적인 선택이다.


플랫폼 인터페이스: 지속가능성의 설계

"한 번이 아니라 계속 돌아가게 하려면?"이 네 번째 질문이다.

MLOps와 LLMOps, 실험과 배포, 모니터링, 피드백 루프, 비즈니스 KPI 연동이 필요하다.

PoC는 기능을 증명하지만, 플랫폼은 반복 가능성을 증명한다.

일회성 성공이 아니라 지속적으로 개선되고 확장될 수 있는 시스템을 만드는 것이 핵심이다.


조직 인터페이스: 책임과 권한의 분배

"누가 어떤 책임을 지는가?"가 다섯 번째 질문이다.

AI CoE가 아키텍처와 거버넌스 표준을 만들고, 각 BU는 Use-case Owner로 임팩트를 책임진다.

보안, 법무, 윤리는 "사후 승인"이 아니라 동반 설계자로 들어와야 한다.

조직의 변화 없이는 기술의 변화도 없다.


조달과 재무 인터페이스: 비용 최적화의 전략

"CapEx vs OpEx, 그리고 순환"이 여섯 번째 질문이다.

클라우드와 SaaS 구독인 운영비와 필요시 전용 인프라인 자본지출을 조합한다.

애프터마켓과 임대는 파일럿 확장기나 비용민감 워크로드에 유용하다.

총소유비용 관점에서 학습과 추론 비용, 인력과 플랫폼, 데이터 라이선스, 순환옵션까지 포함해서 평가해야 한다.

구체적으로 GPU 조달 전략을 예로 들면, 다음과 같은 시나리오가 가능하다.

초기 실험은 Vast.ai나 RunPod의 저가 GPU로 빠르게 검증하고, 프로덕션 준비가 되면 Lambda Labs의 장기 계약으로 안정성을 확보하며, 특정 규제 요구사항이나 지연시간 민감 워크로드를 위해서는 리퍼비시 A100을 온프레미스로 구매하는 하이브리드 전략이다. 이런 접근은 초기 투자를 최소화하면서도 확장 경로를 확보한다.


변화관리 인터페이스: 사람과 프로세스의 동반 진화

"사람과 프로세스가 바뀌는가?"가 일곱 번째 질문이다.

업무 흐름 재설계, 교육과 가이드, 성과와 보상체계 연동이 필요하다. AI는 도구이지만 성과는 조직이 낸다. 기술의 도입보다 조직의 적응이 더 어렵고 중요하다.


6. 세 가지 전형적인 도입 경로

SaaS-first: 코파일럿화의 빠른 체감

가벼운 비용으로 빠른 체감을 만든다. 즉시 생산성과 낮은 초기 리스크가 장점이다.

하지만 데이터 통합이 느슨해 임팩트 상한이 낮을 수 있다.

사용량이 늘면 플랫폼과 거버넌스로 확장해야 한다는 전환 포인트가 있다. 많은 기업이 여기서 시작하지만, 여기서 멈춰서는 안 된다.


Platform-first: 내재화의 깊은 통합

데이터 파이프라인, 온톨로지, MLOps를 먼저 깐다.

유스케이스 확장성이 크고 반복 가능한 공장을 갖게 된다는 장점이 있다.

하지만 초기 투자와 조직 변화의 부담이 크다. 첫 성과가 나오면 재사용 가능한 컴포넌트로 표준화한다는 전환 포인트가 있다. 기술 역량이 있는 기업들이 선택하는 경로다.


Hybrid-first: 업무 중심의 균형

SaaS로 빠르게 시작하면서, 핵심 유스케이스는 플랫폼으로 끌어들인다. 체감과 내재화의 균형이 장점이다. 하지만 벤더, 보안, 데이터 표준을 초기에 합의해야 길이 꼬이지 않는다는 과제가 있다. 대부분의 기업에게 가장 현실적인 경로지만, 복잡성 관리가 핵심이다.

GPU 조달 측면에서 보면, Hybrid-first 접근은 클라우드와 온프레미스, 신형과 구형, 임대와 구매를 전략적으로 조합하는 것을 의미한다. 이는 순환 생태계의 모든 옵션을 활용하는 정교한 전략이다.


7. 운영의 현실: "작동하는 AI"의 체크포인트

작동하는 AI를 위해서는 다섯 가지 체크포인트가 중요하다.


1. 목표 정합성은 기술 지표인 정확도, 지연, 비용과 비즈니스 지표인 매출, 비용, 리스크가 같은 문장 안에 있는지를 확인한다.

2. 거버넌스는 데이터 권리, 프라이버시, 보안, 모델 위험인 환각, 편향, 오용 관리 계획이 있는지를 점검한다. 3. 관찰 가능성은 프롬프트, 버전, 피드백 로그, 오디트 트레일, A/B, 지속적 평가가 있는지를 확인한다.

4. 조달 전략은 멀티 벤더, 락인 회피, 비상 전환 계획인 백업 모델과 인프라가 있는지를 점검한다.

5. TCO는 학습과 추론 비용, 인력과 플랫폼, 데이터 라이선스, 순환옵션인 임대와 중고까지 본 총소유비용인지를 확인한다. 특히 GPU 조달에서 TCO 분석은 단순한 시간당 가격 비교를 넘어서야 한다.


클라우드 임대의 유연성, 온프레미스의 장기 비용 효율, 리퍼비시 제품의 초기 절감, 각각의 유지보수 부담, 업그레이드 경로, 재판매 가치까지 종합적으로 고려해야 한다. 그리고 순환 생태계는 이 모든 옵션을 제공한다.


8. 맺음말: 전략의 문장으로 바꾸기

확장된 생태계는 거대해 보이지만, 기업이 붙잡아야 할 문장은 단순하다.


문제를 먼저 정하고, 데이터와 거버넌스를 같이 깔고, SaaS-first와 Platform-first, Hybrid-first 중 하나를 의식적으로 선택한다. MSP와 컨설팅을 '속도와 품질의 레버'로 쓰고, 성숙도에 따라 순환옵션인 임대와 중고를 TCO 전략에 끼워 넣는다. 무엇보다, 사람과 프로세스를 함께 설계한다. AI는 도구, 성과는 조직이 낸다.


이제 GPU 조달에서 한 가지 문장이 더 추가된다.

"신형만이 답은 아니다. 워크로드를 이해하고, 구형의 가치를 파악하며, 순환 생태계를 전략적으로 활용하라."

H100이 모든 문제의 해답이 아니듯, A100도 여전히 가치 있는 선택지다.

중요한 것은 무엇을 하려는지 명확히 하고, 그에 맞는 최적의 조합을 찾는 것이다.


2025년의 AI 인프라 시장은 신형과 구형, 학습과 추론, 클라우드와 온프레미스, 임대와 구매가 복잡하게 얽힌 생태계다. 이 복잡성을 이해하고 활용하는 기업과, 단순히 최신 하드웨어를 추격하는 기업의 격차는 시간이 지날수록 벌어질 것이다. 순환 생태계는 단순한 비용 절감 수단이 아니라, 전략적 유연성과 혁신 속도를 높이는 핵심 자산이다.


이 일곱 문장만 지켜도, 생태계의 복잡함은 기업의 선택지가 된다. 공급에서 파트너, 수요를 거쳐 순환으로 이어지는 이 네 단어를 하나의 흐름으로 이해하는 순간, AI는 "도입"에서 "작동"으로 넘어간다.




AI 생태계가 어떻게 작동하는지에 대해 자세하게 설명해 보았습니다. 긴 글 읽으시느라 수고 많으셨습니다.

다음은 최근 심심찮게 나오는 AI 버블론에 대해 이야기해 볼까 합니다.

토요일 연재
이전 07화GPU 전쟁: AI를 지배하는 자들