칼럼 팩트체크 5: AI 생태계 편 추적 검증

CUDA·추론·엣지 AI - 칩은 빨라졌는데 생태계는 안 바뀌었다

by 마나월드ManaWorld

Feb 25. 2026

마나월드 칼럼, 팩트체크 시리즈 5편 : 92%의 점유율, 5.8%의 도전자, 그리고 빅테크의 네 번째 길

들어가며.

마나월드 칼럼, 팩트체크 5편은

힘의 경제학 21화~24화, AI 생태계와 CUDA 지배구조 편을 다룹니다.

CUDA 생태계의 관성,

칩 스펙만으로 표준이 바뀌지 않는 이유, 추론 비용이 훈련을 추월하는 전환점,

그리고 한국 AI 기업이 서비스·엣지에서 먼저 승부하는 구조를 해부한 글입니다.

집필하고 6개월이 지났습니다.

딥시크가 Huawei 칩 전환에 실패하고 NVIDIA로 복귀했고,

Anthropic이 Google TPU 100만 개 계약을 체결했고,

AMD 데이터센터 매출이 $16.6B로 32% 성장했지만 GPU 점유율은 7%에 머물렀습니다.

AI에게 21화~24화 링크를 주고,

방향성·귀결·예측을 담은 주장만 추출하게 했습니다.

과거 데이터 인용은 제외하고,

"이런 구조는 이렇게 작동한다", "이런 흐름이 계속/심화/귀결될 것"이라는

함의를 가진 주장만 포함시켰습니다.

이렇게 뽑아낸 17개 주장을 2026년 2월 22일 기준

실제 기사, 데이터, 공식 발표와 하나씩 대조해서 AI에게 검증을 맡겼습니다.

-칼럼 주장별 검증 목차-

[1-진단] CUDA 생태계는 AI 컴퓨팅의 사실상 표준이다

[2-진단] 칩 스펙 우위만으로는 표준 전환이 불가능하다

[3-진단] 개발자 생산성·디버깅·커뮤니티가 하드웨어만큼 결정적이다

[4-진단] 대안 스택은 기술적 가능성과 실제 채택 사이에 큰 격차가 있다

[5-전망] ROCm은 검증 기간 내 CUDA를 대체하지 못한다

[6-진단] AI 추론 병목은 연산이 아니라 메모리(KV 캐시)에 있다

[7-진단] 모델 압축·양자화는 경제성 때문에 표준이 되고 있다

[8-전망] 컨텍스트·RAG 비용이 실제 비용 구조를 좌우한다

[9-관측] 네이버는 온디바이스 소형 모델 중심으로 확대할 것이다

[10-전망] H20 수출이 단기적으로 중국의 CUDA 의존을 강화한다

[11-전망] AI 경쟁의 초점이 훈련에서 추론 비용으로 이동하고 있다

[12-전망] 생태계 격차는 돈보다 시간에 의존하며 단기 추격이 어렵다

[13-관측] 딥시크의 Huawei 칩 전환은 검증 기간 내 실패한다

[14-전망] 한국 기업의 성과는 서비스 최적화·RAG·엣지 AI에서 먼저 나타난다

[15-전망] 진짜 시장 신호는 헤드라인이 아니라 행동 변화에서 나타난다

[16-전망] 구조적 시장 변화는 운영지표·제품정책에서 먼저 나타난다

[17-예측] CUDA 지속 시나리오가 60 % 확률로 가장 유력하며 3개 분기로 갈린다

[부록] H20 수출에 15 % 수익공유 조건이 실제 존재하는가

힘의경제학 EP.21 ~ EP.24 검증 (2026‑02‑21 기준)

"AI 전쟁의 본질: 더 빠른 칩은 왜 무의미한가" + "AI 칩의 경제학: 들어가기 전 개념 정리" +

"왜 미국은 H20라는 '족쇄'를 중국에 채웠는가" + "AI 전쟁의 법칙: 진짜 시그널을 읽는 법"

집필 시점: 2025년 9월 15일 / 게재: 9월 15일~9월 22일

가독성을 위한 편집 외에 결과물은 그대로 올립니다.

맞은 건 맞은 대로, 틀린 건 틀린 대로 파트별로 올리겠습니다.

https://brunch.co.kr/@manaworld/66

22화 21화. AI 전쟁의 본질:더 빠른 칩은 왜 무의미한가

제3부: 미래 권력의 조건 - 기술 패권 전쟁 | "새로운 AI 칩이 엔비디아보다 100배 빠르대!" 주식 커뮤니티에 이런 글이 올라올 때마다 나는 쓴웃음을 짓는다. 아, 또 누군가는 이걸 믿고 엔비디아

https://brunch.co.kr/@manaworld/66

https://brunch.co.kr/@manaworld/67

23화 22화. AI 칩의 경제학: 들어가기 전 개념 정리

제3부: 미래 권력의 조건 - 기술 패권 전쟁 | "최신 RTX 5090 샀습니다! 이제 AI 뭐든 돌릴 수 있겠죠?" 아니다. 당신의 400만 원짜리 GPU는 100쪽 PDF도 못 읽는다. 겨우 24쪽이 한계다. "뭐? 32GB나 되는데?"

https://brunch.co.kr/@manaworld/67

https://brunch.co.kr/@manaworld/69

24화 23화. 왜 미국은 H20라는'족쇄'를 중국에 채웠는가

제3부: 미래 권력의 조건 - 기술 패권 전쟁 | EP23. 왜 미국은 H20라는 '족쇄'를 중국에 채웠는가? H20의 중국 수출 전략과 의미 1. H20 논쟁의 진짜 의미 1.1 H20이 뭐길래 난리인가? H20은 H100의 Hopper(RTX 40

https://brunch.co.kr/@manaworld/69

https://brunch.co.kr/@manaworld/70

25화 24화. AI 전쟁의 법칙: 진짜 시그널을 읽는 법

제3부: 미래 권력의 조건 - 기술 패권 전쟁 | 헤드라인은 소음이다. 행동 변화가 시그널이다. 그리고 시그널은 숫자보다 먼저 습관의 전환으로 나타난다. 22화에서 우리는 AI의 진짜 렌즈를 배웠

https://brunch.co.kr/@manaworld/70

-칼럼 주장별 검증-

[1-진단] CUDA 생태계는 AI 컴퓨팅의 사실상 표준이다

저자 원문 (EP21·66호, 2025.9.15)

"CUDA 라이브러리·커뮤니티·교육·엔터프라이즈 인프라가 결합되어 AI 컴퓨팅의 사실상 표준을 형성하고 있다."

저자가 말하는 것:

CUDA는 단일 제품이 아니라 라이브러리·교육·커뮤니티·인프라가 얽힌 생태계이며, 이것이 AI 컴퓨팅의 사실상 표준이다.

검증 데이터

NVIDIA dGPU(AIB) 시장 점유율 Q3 2025 = 92 % (Jon Peddie Research / TechSpot, 2025.12.02)

클라우드 가속기 위치 기준 NVIDIA 약 72 %, AMD 5.8 % (TechPowerUp, 2025.12.16)

Azure 내 AMD GPU 인스턴스 = Radeon Pro VDI 2종 + MI25 1종, 총 3종 (TechPowerUp, 2025.12.16)

대학 CUDA 전용 과정 다수 운영(Georgia Tech CS 7295, Oxford CUDA 2025.07, Stuttgart HLRS); ROCm 전용 대학 과정 미확인 (NVIDIA DLI; Georgia Tech OMSCS; Oxford/Giles, 2025)

PyTorch CUDA BLAS 기본값 = default(휴리스틱 선택), cublas/cublaslt 명시적 오버라이드 가능(실험적) (PyTorch docs/stable/backends, 2025.12.09)

cuBLASLt 기본화 PR 진행 기록 존재 (Buttondown Weekly GitHub Report, 2026.02.08)

NVIDIA가 OpenAI Triton에 CUDA Tile IR 백엔드 통합 중 (NVIDIA DevBlog, 2026.01.30)

Stack Overflow 전체 질문량 급감(2020년 약 186만 → 2025년 약 13만)은 AI 코딩 어시스턴트 이동이 주 원인이며, CUDA 태그가 ROCm·Triton 대비 압도적 구조 유지 (DevClass, 2026.01.05)

반론: OpenAI Triton이 하드웨어 비종속 커널을 가능하게 하며, NVIDIA 스스로 Triton에 백엔드를 통합한다는 것은 CUDA 외부 경로가 구조적으로 열리고 있음을 의미 (BuiltIn, 2026.01.28)

판정: 유지 — 구조적 표준 징후 지속.

시장 점유율(92 %), 클라우드 인스턴스(72 % vs 5.8 %), 대학 커리큘럼(CUDA 다수, ROCm 미확인)이 전방위적으로 동일 방향을 가리킨다. 다만 이들은 모두 대리 지표이며 "생태계 표준"을 직접 측정한 수치가 아니므로 "확인"이 아닌 "구조적 표준 징후 지속"으로 표기한다.

[2-진단] 칩 스펙 우위만으로는 표준 전환이 불가능하다

저자 원문 (EP21, 2025.9.15)

“AMD가 30 % 싸고 40 % 빠른 칩을 내놓아도, 전환비용과 생태계 관성 앞에서 무력하다.”

저자가 말하는 것:

하드웨어 성능·가격 우위가 있어도 소프트웨어 생태계·전환비용이 이를 무력화한다는 진단.

검증 데이터

AMD MI300X 싱글‑GPU 스루풋 18,752 tokens/s, H200 대비 약 74 % 수준. 멀티‑GPU에서 격차 확대 — MI300X 8‑GPU 레이턴시가 H200 대비 37‑75 % 높음 (AIMultiple Multi‑GPU Benchmark, 2025.09 테스트)

Huawei Ascend 910C: H100 대비 약 60 % 추론 성능, 과열·수율 문제 보고 (TweakTown 2025.06.09; Tom’s Hardware 2024.07.02)

반론: Anthropic이 Amazon Trainium 100만 칩 + Google TPU 수십억 달러 규모 계약 체결 — 비‑NVIDIA 대규모 배치 사례 첫 등장 (Yahoo Finance 2025.10.29; Anthropic 2025.10.23)

판정: 유지 확인 (단서 부착)

스펙 우위가 표준 전환으로 이어지지 않는다는 진단은 유지되나, 빅테크 자체칩의 대규모 배치가 “칩+자체 생태계” 조합이라는 새 변수로 등장.

[3-진단] 개발자 생산성·디버깅·커뮤니티가 하드웨어만큼 결정적이다

저자 원문 (EP21, 2025.9.15)

“개발자가 CUDA를 쓰는 이유는 GPU가 빨라서가 아니라, 에러가 나면 검색하면 답이 나오고, 라이브러리가 즉시 돌아가고, 동료가 이미 CUDA를 쓰기 때문이다.”

저자가 말하는 것:

개발자 전환 결정에서 하드웨어 성능보다 소프트웨어 생산성·커뮤니티 지원·문서화가 더 결정적이라는 진단.

검증 데이터

ROCm 설치 마찰·프레임워크 패리티 부족이 채택 장벽으로 지속 지적 (TechNewsWorld, 2026.01.05)

AMD 자체 인정: “2023년의 ROCm과 지금의 ROCm은 완전히 다르다” — 과거 품질 문제를 사실상 시인 (Tom’s Hardware CES 2026 라운드테이블, 2026.01.22)

SDxCentral 인터뷰: “기술적 전환은 관리 가능하지만 조직적 전환이 훨씬 어렵다” (SDxCentral, 2026.01.19)

판정: 유지 확인

개발자 생산성이 전환 결정의 핵심이라는 진단은 복수의 산업 인터뷰에서 확인.

[4-진단] 대안 스택은 기술적 가능성과 실제 채택 사이에 큰 격차가 있다

저자 원문 (EP21, 2025.9.15)

“ROCm은 무료이고 때로는 더 빠르고 더 싸다. 그런데도 아무도 안 쓴다.”

저자가 말하는 것:

대안 스택이 기술적으로 작동하더라도 편의성·커뮤니티·검증 사례 부족으로 실제 채택이 이뤄지지 않는다는 진단.

검증 데이터

AMD dGPU 점유율 Q3 2025 = 7 %, 전분기 대비 +0.8 %p (Wccftech / JPR, 2025.12.02)

AMD 데이터센터 매출 FY2025 = $16.6B, +32 % YoY — 성장 중이나 NVIDIA $115B+ 대비 규모 격차 큼 (AMD IR, 2026.02.03)

TCS + AMD가 인도 최초 ROCm 기반 Helios AI 플랫폼 출시 (OpenSourceForU, 2026.02.05)

판정: 유지 확인 (단서 부착)

격차는 유지되나 축소 방향. "아무도 안 쓴다"는 표현은 과장 — AMD 데이터센터 매출 $16.6B, Meta·Oracle 등 배치 사례 존재.

[5-전망] ROCm은 검증 기간 내 CUDA를 대체하지 못한다

저자 원문 (EP21·66호, 2025.9.15)

"ROCm이 6개월 안에 CUDA 생태계를 실질적으로 대체할 가능성은 현실적으로 낮다."

저자가 말하는 것:

채택률·백엔드 점유·프로덕션 사례 기준으로, ROCm의 단기 CUDA 대체는 일어나지 않는다.

검증 데이터

클라우드 가속기 위치 기준 AMD 5.8 % vs NVIDIA 72 %; Azure AMD GPU 인스턴스 3종 (TechPowerUp, 2025.12.16)

AWS P5(H100) 인스턴스 주력 제공, AMD MI 시리즈 전용 인스턴스 제한적 (ComputePrices, 2025.12.08)

AMD dGPU 시장 점유율 Q3 2025 = 7 % vs NVIDIA 92 % (Jon Peddie Research / Wccftech, 2025.12.02)

AMD 데이터센터 매출 FY2025 = $16.6 B (+32 % YoY), 그러나 GPU 점유율 7 %에서 큰 변동 없음 (AMD IR, 2026.02.03)

Morningstar 애널리스트: "AMD is falling behind in AI software ecosystem" (Morningstar, 2026.02.13)

인도 Helios AI 플랫폼(ROCm 기반) 출시, 규모·매출 데이터 미공개 (OpenSourceForU, 2026.02.05)

AMD 블로그에서 EPYC CPU 클라우드 표준 주장, GPU 측면 대규모 CUDA→ROCm 프로덕션 마이그레이션 사례 미확인 (AMD Blog, 2026.01.27)

반론: AMD 데이터센터 매출 연 32 % 성장, MI400·Helios 로드맵 발표(Seeking Alpha, 2026.02.03), ROCm 7 추론 성능 3.5× 향상 주장(AMD Blog 2025; SDxCentral 2026)으로 중장기 격차 축소 가능성 존재

판정: 방향 적중.

클라우드 인스턴스 점유(5.8 %), GPU 시장 점유율(7 %), 대규모 프로덕션 마이그레이션 부재를 종합하면 6개월 내 대체는 일어나지 않았다. 다만 매출 성장률(+32 %)과 로드맵을 고려하면 중장기적 변화 가능성은 열려 있다.

[6-진단] AI 추론 병목은 연산이 아니라 메모리(KV 캐시)에 있다

저자 원문 (EP22, 2025.9.17)

“RTX 5090 32 GB로 100페이지 PDF를 13B 모델에 넣으면 24페이지밖에 처리 못 한다. 병목은 연산이 아니라 VRAM이다.”

저자가 말하는 것:

LLM 추론에서 실질적 제약은 GPU 연산 속도가 아니라 VRAM 용량이며, 특히 KV 캐시가 메모리를 지배한다는 진단.

검증 데이터

온디바이스 LLM 서베이: “KV 캐시가 장문 추론 시 메모리 사용을 지배한다” (V‑Chandra, On‑Device LLMs: State of the Union 2026, 2026.01.24)

학술 논문: KV 캐시를 GPU VRAM에서 DRAM/SSD로 오프로드하는 다계층 저장 방식 제안 (Springer, 2026.01.27)

arXiv: LLM 서버에서 KV 캐시 활용 패턴 분석, 피어‑투‑피어 GPU 캐싱 제안 (arXiv 2602.00328, 2026.01.30)

판정: 유지 확인

학술·산업 양쪽에서 KV 캐시 메모리 병목이 핵심 이슈로 확인.

[7-진단] 모델 압축·양자화는 경제성 때문에 표준이 되고 있다

저자 원문 (EP22, 2025.9.17)

“8비트 양자화를 적용하면 메모리·전력 ~4배 절감. 일간 1천만 요청 기준 H100 250대 vs 1,000대.”

저자가 말하는 것:

양자화는 품질을 일부 희생하지만, 비용 절감 효과가 압도적이어서 산업 표준으로 자리잡고 있다는 진단.

검증 데이터

DeepSeek FP8 채택, vLLM 등 추론 프레임워크에서 양자화 기본 옵션화 (Edge AI, 2025.08.05)

Naver HyperCLOVA X SEED: 온디바이스 8비트 압축으로 VRAM 0.75 GB → 0.3 GB (Naver, 2025.12.29)

Forbes 기고(Oracle 엔지니어): “양자화는 추론 비용을 크게 줄이지만, 일부 모델에서 복잡한 추론 태스크 정확도 하락 사례 존재” (Forbes, 2026.02.20)

판정: 유지 확인 양자화의 경제적 이점과 품질 트레이드오프 모두 저자 기술과 부합.

[8-전망] 컨텍스트·RAG 비용이 실제 비용 구조를 좌우한다

저자 원문 (EP22·67호, 2025.9.18)

"모델 자체 가격보다 컨텍스트 처리와 RAG 파이프라인 운영 비용이 실 서빙 비용의 핵심 변수가 될 것이다."

저자가 말하는 것:

모델 단가가 아니라 컨텍스트(KV 캐시)와 RAG 파이프라인 비용이 서빙 비용 구조의 지배적 요인이다.

검증 데이터

Llama 3 70B 기준 KV 캐시 = 토큰당 약 0.3 MB → 128K 토큰 시 약 40 GB VRAM 점유; 1M 토큰 컨텍스트 시 어텐션 메모리 이론상 약 2 TB (다수 학술 출처 종합)

KV 캐시 압축 기법 활발: GQA 최대 8× 감소, MLA 약 93 % 감소, PagedAttention 처리량 2‑4× 증가 — 기법 존재 자체가 KV 캐시의 구조적 병목을 반증 (학술 출처 종합)

프롬프트 캐싱 할인 구조: Anthropic 캐시 읽기 90 % 할인(500K 토큰 쿼리 $5.00 → $0.50), OpenAI 50 % 할인, Google Gemini 75‑90 % 할인 — 가격 체계 자체가 컨텍스트 비용의 지배적 비중을 전제로 설계됨 (각사 공식 가격 페이지)

컨텍스트 길이가 수십만 토큰에 도달하면서 KV 캐시가 "critical bottleneck" (LinkedIn / Inference Efficiency, 2026)

시맨틱 캐싱으로 API 비용 최대 73 % 절감 가능 (Redis Blog, 2026)

AI 추론 시장 2025 $106 B → 2030 $255 B, CAGR 19.2 % (MarketsandMarkets)

RAG 시장 2036 $72.6 B, CAGR 39 % (시장조사 출처)

반론: GPT‑4급 토큰 비용 2023년 $60/M → 2026년 $0.75/M, 약 98 % 하락(CloudIDR, 2026). 모델 선택(GPT‑4o Mini vs Opus 등)에 따른 단가 차이, GPU 시간 단가 하락, 양자화 일반화 등도 비용 구조의 주요 변수이므로 컨텍스트·RAG만이 "좌우"한다고 단정하기엔 다른 변수의 영향력도 상당

판정: 부분 적중.

KV 캐시가 장문 추론 시 메모리 병목이라는 점은 직접 데이터로 확인되며, 프롬프트 캐싱·압축 기법의 존재 자체가 이 비용의 구조적 비중을 반증한다. 다만 "비용 구조를 좌우한다"는 원문의 범위가 넓어서, 모델 단가 급락(98 %)·GPU 시간 단가 하락·양자화 일반화 등도 비용 구조의 주요 변수이므로 컨텍스트·RAG가 유일한 지배 요인이라고 단정하기엔 증거가 부분적이다.

[9-관측] 네이버는 온디바이스 소형 모델 중심으로 확대할 것이다

저자 원문 (EP22, 2025.9.17)

“네이버 HyperCLOVA X SEED 모델(0.5B, 1.5B, 3B)은 온디바이스 8비트 압축으로 스마트폰에서 동작한다.”

저자가 말하는 것:

네이버가 소형 모델 전략으로 온디바이스 AI를 확대할 것이라는 관측.

검증 데이터

HyperCLOVA X SEED 32B Think 발표 (Naver, 2025.12.29)

HyperCLOVA X 8B Omni 논문 공개 (arXiv, 2026.01.05)

HyperCLOVA X Think: KoBALT‑700 벤치마크 1위(48.9점) (KoreaTechToday, 2025.06.30)

SEED 시리즈 Hugging Face 다운로드 50만 회 돌파 (KoreaTechToday, 2025.06.30)

판정: 확인

네이버가 0.5‑3B에서 8‑32B까지 확장. 저자 관측 방향과 일치하나, 스케일업 속도는 저자 예상보다 빠름.

[10-전망] H20 수출이 단기적으로 중국의 CUDA 의존을 강화한다

저자 원문 (EP23, 2025.9.22)

“H20은 성능을 깎은 칩이지만, 메모리 96 GB·대역폭 4.0 TB/s를 유지한다. 중국 기업이 이걸 쓰면 쓸수록 CUDA 생태계에 더 깊이 묶인다.”

저자가 말하는 것:

미국의 H20 수출 허용이 중국의 CUDA 탈출을 오히려 지연시키는 전략적 함정으로 작동한다는 전망.

검증 데이터

H20에 15 % 수익공유 조건 부과 (NPR 2025.08.11; BBC 2025.08.11; CNBC 2025.08.10)

중국, 국가 자금 데이터센터에서 외국 AI칩(H20 포함) 금지 (Reuters, 2025.11.05)

미국, H200 수출 허가 + 25 % 수익공유 조건 (CNBC, 2026.01.14)

2024년 기준 중국 내 NVIDIA H20 약 100만 개 vs Huawei Ascend 약 45만 개 (RAND, 2025.08.07)

판정: 방향 적중 (단서 부착)

H20이 CUDA 의존을 강화한다는 방향은 맞으나, 저자 집필 이후 중국이 자체적으로 외국칩 금지 조치를 내려 “함정” 프레임이 부분적으로 무력화.

[11-전망] AI 경쟁의 초점이 훈련에서 추론 비용으로 이동하고 있다

저자 원문 (EP23, 2025.9.22)

“훈련은 마라톤이고, 추론은 택시 서비스다.”

저자가 말하는 것:

AI 산업의 경쟁 축이 훈련 성능에서 추론 비용 효율로 이동하고 있다는 전망.

검증 데이터

Forbes 기고(Oracle 엔지니어): “진짜 경제적 이야기는 추론에서 벌어지고 있다” (Forbes, 2026.02.20)

AI 추론 시장: $106B(2025) → $255B(2030), CAGR 19.2 % (MarketsandMarkets)

Deloitte: “추론 수요가 훈련을 추월” (Deloitte Insights, 2025.11.18)

Google TPU v5e: 추론 특화 설계, 달러당 성능 2배 주장 (Forbes 2026.02.20 기고 내 언급)

판정: 방향 적중

훈련→추론 비용 이동은 산업 전반에서 확인.

[12-전망] 생태계 격차는 돈보다 시간에 의존하며 단기 추격이 어렵다

저자 원문 (EP23, 2025.9.22)

“CUDA는 15년의 툴링·커뮤니티·최적화가 축적된 결과물이다. 이것은 돈으로 살 수 없고, 시간으로만 쌓인다.”

저자가 말하는 것:

생태계 격차는 자본 투입이 아닌 시간 축적에 의존하므로, 단기간 추격이 구조적으로 어렵다는 전망.

검증 데이터

Goldman Sachs: 중국 반도체 자급률 2024년 14 % → 2030년 37 % 전망 (Korea Times, 2026.02.21)

NYT: “중국이 칩 산업을 건설했지만 여전히 충분하지 않다” (NYT, 2026.02.14)

Info‑Tech: “장기적으로 개방성이 이긴다. 다만 언제 이길지는 말할 수 없다” (SDxCentral, 2026.01.19)

반론: Amazon Trainium3 발표(2025.12), 2026 중반 전량 사전예약 완료 — 빅테크 자체칩은 내부 수요로 시간 장벽을 부분 우회 가능 (Motley Fool, 2026.02.19)

판정: 방향 적중 (단서 부착)

일반 시장에서 시간 의존성은 유효하나, 빅테크 자체칩은 내부 수요 보장으로 시간 장벽을 부분 우회 중.

[13-관측] 딥시크의 Huawei 칩 전환은 검증 기간 내 실패한다

저자 원문 (EP23, 2025.9.22)

“딥시크 사례는 Huawei 칩으로의 전환이 실패하고 NVIDIA로 회귀하는 패턴을 보여준다.”

저자가 말하는 것:

딥시크가 Huawei Ascend로 주요 모델 훈련을 시도했으나 안정성 문제로 NVIDIA로 복귀할 것이라는 관측.

검증 데이터

딥시크 R2 훈련을 Huawei Ascend로 시도 → 다수 실패 후 NVIDIA로 복귀 (Reuters 2025.08.14; Tom’s Hardware 2025.08.14; AI News 2025.08.14)

중국 당국이 Huawei 하드웨어 사용을 권유했으나, 실패 후 NVIDIA 복귀를 묵인 (Tom’s Hardware, 2025.08.14)

Ascend 910C: 과열 문제로 중국 대형 테크 기업들의 구매 기피 (Wccftech, 2025.06.05)

판정: 확인

주요 훈련 모델(R2)에서 Huawei → NVIDIA 복귀가 검증 기간 내 발생. 단, 추론 일부는 Ascend 유지.

[14-전망] 한국 기업의 성과는 서비스 최적화·RAG·엣지 AI에서 먼저 나타난다

저자 원문 (EP23, 2025.9.22)

“한국 스타트업은 RTX 4090이나 클라우드 서비스에 의존한다. 국내 GPU 생태계는 아직 없다.”

저자가 말하는 것:

한국은 자체 칩·대규모 훈련이 아닌 서비스 최적화·RAG·엣지 AI 영역에서 먼저 경쟁력을 보일 것이라는 전망.

검증 데이터

네이버: HyperCLOVA X SEED·Think·8B Omni로 한국어 특화 추론·온디바이스 전략 전개 (Naver 2025.12.29; arXiv 2026.01.05)

LG AI Research: Exaone Deep 추론 모델 출시 (KoreaTechToday, 2025.06.30)

SK텔레콤: AI 사업이 2025 실적의 유일한 성장동력 (W.media, 2026.02.09)

한국 엣지 AI 시장: 2025년 $396M → 2033년 $2,746M 전망 (Grand View Research)

판정: 방향 적중

네이버·LG·SKT 모두 서비스 최적화·추론·온디바이스에서 먼저 성과. 다만 파운데이션 모델 자체 개발도 병행 중 (Korea JoongAng Daily, 2026.01.16).

[15-전망] 진짜 시장 신호는 헤드라인이 아니라 행동 변화에서 나타난다

저자 원문 (EP24, 2025.9.22)

“AMD가 더 빠른 칩을 발표했다는 헤드라인은 시그널이 아니다. 대학 커리큘럼이 ROCm으로 바뀌거나, 클라우드 인스턴스 믹스가 바뀌거나, 프레임워크 기본값이 바뀔 때 그것이 시그널이다.”

저자가 말하는 것:

실질적 시장 전환은 발표·헤드라인이 아닌 현장의 행동 지표에서 관측해야 한다는 전망.

검증 데이터

헤드라인: Google Ironwood TPU, Amazon Trainium3, AMD MI400 등 다수 발표 존재

행동 변화: PyTorch 기본 백엔드 CUDA 유지(2026.02 기준), 대학 커리큘럼 ROCm 전환 사례 미보고

Anthropic의 Trainium/TPU 대규모 계약은 "발표"이자 "행동"인 경계적 사례 (Yahoo Finance 2025.10.29; Anthropic 2025.10.23)

Stack Overflow CUDA 관련 질문 감소 추세 — 개발자 관심 분산 가능성 신호 (DevClass, 2026.01.05)

판정: 방향 적중

헤드라인 대비 행동 변화가 느리다는 저자 프레임은 유효. 다만 Anthropic 사례처럼 빅테크 행동 변화가 시작된 점은 새로운 관측 포인트.

[16-전망] 구조적 시장 변화는 운영지표·제품정책에서 먼저 나타난다

저자 원문 (EP24, 2025.9.22)

“시장 구조 변화의 선행지표는 CEO 연설이 아니라 클라우드 가격표, GPU 인스턴스 구성, 프레임워크 릴리스 노트에 있다.”

저자가 말하는 것:

운영지표·제품정책이 발표·언론보도보다 시장 변화를 더 정확하게 선행한다는 전망.

검증 데이터

NVIDIA FY2026 Q3 데이터센터 매출 $51.2B, +66 % YoY (NVIDIA IR, 2025.11.19)

AMD FY2025 데이터센터 매출 $16.6B, +32 % YoY (AMD IR, 2026.02.03)

중국 국가자금 데이터센터 외국칩 금지 — 정책 변화가 시장 구조 변화의 선행지표 역할 (Reuters, 2025.11.05)

판정: 부분 적중

운영지표가 중요하다는 점은 맞으나, "발표보다 항상 운영지표가 먼저"라는 서열에는 반례 존재. 발표와 운영지표가 상호작용하는 관계에 가까움.

[17-예측] CUDA 지속 시나리오가 60 % 확률로 가장 유력하며 3개 분기로 갈린다

저자 원문 (EP24, 2025.9.22)

“향후 2‑3년간 CUDA 지배가 지속될 확률 약 60 %. 시나리오 세 갈래: ① CUDA 지속, ② 중국 독자 생태계, ③ 패러다임 전환(양자·뉴로모픽).”

저자가 말하는 것:

가장 높은 확률로 CUDA 지배가 2‑3년 더 이어지며, 중국 독자 생태계와 패러다임 전환은 각각 낮은 확률이라는 예측.

검증 데이터

NVIDIA 시장점유: 검증일 기준 92 %(dGPU AIB) 유지 → ① 시나리오 진행 중

중국 독자 생태계: 자급률 14 %(2024), 2030년 37 % 전망 → ② 시나리오 초기 단계 (Goldman Sachs / Korea Times, 2026.02.21)

양자·뉴로모픽 상용화 사례: 검증일 기준 미보고 → ③ 시나리오 미발동

저자 시나리오에 미포함된 변수: 빅테크 자체칩(Trainium, TPU, Meta 칩)이 ①과 ② 사이의 네 번째 경로로 부상 (NYT, 2026.01.29; Yahoo Finance 2025.10.29)

판정: 적중 (단서 부착)

검증일 기준 ① 시나리오 진행 중, ②는 초기, ③은 미발동. 다만 “빅테크 자체칩” 경로가 네 번째 시나리오로 부상 중이며 저자 프레임에 미포함. 60 % 확률 자체의 최종 검증은 2‑3년 후 가능.

[팩트체크 부록]

H20 수출에 15 % 수익공유 조건이 실제 존재하는가

검증 데이터

Trump 대통령이 NVIDIA·AMD의 H20 중국 판매 수익 15 %를 미국 정부에 납부하는 조건을 발표 (NPR, 2025.08.11; BBC, 2025.08.11; CNBC, 2025.08.10; Reuters, 2025.08.12)

이후 H200에는 25 %로 상향 (CNBC, 2026.01.14)

Lawfare: 이 조치의 법적 근거에 의문 제기 (Lawfare, 2026.01.28)

판정: 사실

15 % 수익공유 조건은 복수의 1차 매체에서 확인.

최종 스코어카드

부록 E1 | H20 수익공유 15% | 사실 | ★★★ | NPR·BBC·CNBC 다중 확인 |

평균: ★★☆ (2.21 / 3.0) — E1 제외 17항목 기준.

핵심 인사이트

1. CUDA의 지배력은 "기술"이 아니라 "생태계 관성"에서 나온다.

칩 스펙이 아무리 좋아도 라이브러리·교육·커뮤니티·클라우드 인스턴스가 동시에 움직이지 않으면 표준은 안 바뀐다. 주장 1‑5가 전부 이 방향을 가리키며, 단서가 붙은 항목도 있으나 핵심 방향은 유지됐다.

2. 표준을 우회하는 경로가 열리고 있다.

Anthropic‑Google TPU 100만 개 계약, Amazon Trainium2 Project Rainier는 자본력으로 생태계 시간 장벽을 우회하는 구조다. 저자의 3갈래 프레임(CUDA 유지·중국 독자 생태계·양자/뉴로모픽)에 "빅테크 자체칩(내부 수요 기반)" 경로가 충분히 명시돼 있지 않다.

3. 일부 프론티어 모델에서 추론 누적비용이 훈련을 상회하는 사례가 관측되며, 이 흐름이 구조화되고 있다. GPT‑4 훈련 $1억 vs 서빙 연 $2.5억이 대표적 예시이고, 추론 시장 CAGR 19.2%가 방향을 뒷받침한다. 이 전환이 KV 캐시 최적화·양자화·프롬프트 캐싱 같은 추론 효율 경쟁을 만들어내고 있다.