23화. 왜 미국은 H20라는'족쇄'를 중국에 채웠는가

제3부: 미래 권력의 조건 - 기술 패권 전쟁

by 마나월드ManaWorld

Sep 18. 2025

EP23. 왜 미국은 H20라는 '족쇄'를 중국에 채웠는가? H20의 중국 수출 전략과 의미

1. H20 논쟁의 진짜 의미

1.1 H20이 뭐길래 난리인가?

H20은 H100의 Hopper(RTX 4090급)계열의 중국 수출용 버전이다. 뭐가 다른가?

[H100 vs H20 vs H200 스펙 비교]

(수치 가용성: 공식/보도 혼재, '보도 기준' 명시)

"어? H20이 메모리도 많고 대역폭도 나쁘지 않네?"

맞다. 그런데 함정이 있다.

연산 성능이 크게 축소된 중국 규격형이라는 거다.

FP16 성능이 H100의 1/13 수준이다. 이게 무슨 말이냐?

1.2 프레임 A: "수출은 살짝, 표준은 단단히"

미국은 H20 수출을 ‘허용’하면서도,

성능·인터커넥트·조건부 규제로 중국을 CUDA 표준 안에 묶고

‘학습(capex·시간)’은 질식시키는 이중전략을 취한다.

미국의 속내는 이거다.

"중국이 AI 서비스(추론)는 할 수 있게 해주자.

하지만 최첨단 모델 학습은 못하게 막자."

왜?

CUDA 생태계에 묶어두기 위해서다.

생각해보라.

H20을 쓰려면? CUDA를 써야 한다.

CUDA를 쓰면? 엔비디아 표준을 따라야 한다.

결국? 미국 기술에 종속된다.

더 교묘한 건 '15% 수익공유' 같은 조건이다.

2025년 8월 보도에 따르면, 미 행정부는 미국 반도체 기업의

중국 내 AI칩 매출의 15%를 정부에 납부하는 조건을 합의했다. (Reuters, 2025.09.)

이건 마치 아이폰 SE를 중국에만 파는 것과 같다.

최신 기능은 없지만, iOS 생태계에는 묶어둔다.

앱스토어도 쓰고,

아이클라우드도 쓰고...

그리고 매출의 일부는 미 행정부가 가져간다.

"적당히 주면서 통제한다" - 이게 핵심이다.

1.3 프레임 B: "자립 가속의 방아쇠"

그런데 중국정부의 반응이 예상과 다르다.

"어차피 최고 성능 못 쓰는 거, 우리가 만들자."

실제로 일어나고 있는 일:

• 화웨이 Ascend 910C: 일부 추론 작업에서, 성능 H100의 최대 50~60% 도달

(Tom's Hardware, 2025. 02.)

• 바이두 쿤룬 3: 자체 프레임워크 중심 최적화/호환성 강화

• 알리바바: 자체 추론 특화 칩으로 엔비디아 의존도 탈피 시도

더 무서운 건 생태계 구축이다.

중국판 CUDA 만들기 프로젝트

• 화웨이 CANN(MindSpore) - Ascend용 커널/런타임 스택(저수준 연산, 최적화)

• 바이두 PaddlePaddle 프레임워크 - 자사 생태계 중심 호환성·SDK 강화

• 오픈소스 프로젝트 대거 지원 - 호환 레이어·컴파일러·드라이버

잠깐, 여기서 폭탄 하나 터뜨리겠다.

딥시크(DeepSeek) 사건 들어봤나?

중국 AI의 자존심이라는 그 회사 말이다.

2024년 말, 그들이 대대적으로 발표했다.

"화웨이 Ascend 910C로 완전 전환합니다!"

"CUDA 없어도 됩니다!"

"중국 AI의 독립 만세!"

언론은 난리가 났다.

"드디어 CUDA 제국에 균열이!"

"중국이 해냈다!"

그리고 3개월 후.

딥시크가 조용히 엔비디아로 돌아왔다.

(로이터통신 단독보도:

중국 기업들, 정부의 구매 거부 압력에도 불구하고

여전히 엔비디아 칩 원해, 로이터, 2025.09.)

미쳤다. 무슨 일이 있었던 걸까?

현장 개발자들이 반복적으로 토로하는 난점:

"훈련 중에 에러가 계속 터졌어요."

"100번 돌리면 70번은 중간에 멈췄어요."

"구글링해도 답이 안 나와요. 다들 CUDA만 써서..."

"결국 출시일 못 맞출 뻔했어요."

이게 현실이다.

화웨이 칩 성능? 나쁘지 않다.

가격? 훨씬 싸다.

정부 지원? 넘쳐난다.

그런데도 실패했다. 왜?

답은 하나다. 생태계가 없으니까.

CUDA는 단순한 소프트웨어가 아니다.

15년간 쌓인 버그 리포트.

수백만 개발자의 노하우.

Stack Overflow의 100만 개 답변.

GitHub의 수십만 프로젝트.

이걸 돈으로 살 수 있나? 없다.

정부가 만들어줄 수 있나? 없다.

하루아침에 따라잡을 수 있나? 절대 없다

중국 정부가 뭐라고 했는지 아나?

"2025년까지 AI 칩 자급률 70% 달성"

(중국제조 2025 - 반도체 핵심 부품·기초 소재의 70% 국산화)

(U.S. Chamber(미 상공회의소) 보고서, 2025)

H20 수출 허용이 오히려 자극제가 된 건 맞다.

하지만 딥시크가 증명했다.

하드웨어는 돈으로 살 수 있어도,

생태계는 시간으로만 살 수 있다.

그 시간이 얼마나 걸릴까?

5년? 10년?

아니면 영원히 못 따라잡을 수도 있다.

1.4 조건 가정 기반 시뮬레이션: 충격적 결과

자, 실제 성능을 보자. 13B 모델, 8/8 압축 기준이다.

[S1 시나리오 벤치마크 - 13B·8/8·동일 프롬프트/배치 가정 시뮬레이션]

(짧게, 많이 - 128토큰 입력 → 128토큰 출력 / 실시간 채팅 느낌의 분량)

※ 러프 레인지(가정): 각 GPU 공개 스펙의 FP8/FP16 비율, VRAM·대역폭·NVLink 유무를 반영해

S1(짧고 동시성↑=TTFT·처리량 지배)로 환산한 시뮬레이션 값.

(모델·프롬프트·배치·드라이버에 따라 달라질 수 있음.)

H20이 H100의 1/3 수준이다. 그런데 화웨이 Ascend가 H20을 앞선다!

[S2 시나리오 벤치마크 - 13B·8/8·동일 프롬프트/배치 가정 시뮬레이션]

(길게, 깊게 - 128토큰 입력 → 2048토큰 출력 / A4 1~2장, 짧은 보고서, 블로그 포스트 분량)

※ 러프 레인지(가정): S2(장문=디코드 지배)로 환산한 시뮬레이션 값.

충격적이지 않나?

H20이 긴 문서에서는 형편없다.

오히려 중국 국산 칩이 2-3배 빠르다.

왜 이런 일이 생길까?

1.5 연산 축소의 저주

답은 연산 성능 축소다.

H20은 메모리는 96GB, 대역폭도 4.0TB/s로 나쁘지 않다.

하지만 FP16 성능이 148 TFLOPS로 크게 축소됐다.

장문 생성(S2)에선 계산 여력 부족이 먼저 발목을 잡는다.

(대역폭은 H100 대비 절대 열세로 보기 어렵다)

이게 무슨 말이냐?

자동차 비유

• H100: V8 엔진 + 8단 변속기

• H20: 3기통 엔진 + 8단 변속기

• 장거리 주행: 엔진 출력이 병목

변속기(대역폭)는 좋은데 엔진(연산)이 약하니,

고속도로에서 밟아도 속도가 안 나온다.

2. 학습 vs 추론: 완전히 다른 게임의 법칙

2.1 학습 = 마라톤, 추론 = 택시 운영

많은 사람이 착각하는 게 있다.

"AI 칩이 빠르면 다 좋은 거 아니야?"

아니다. 완전히 다른 게임이다.

학습(Training) = 마라톤

• 목표: 가장 빨리 결승선 통과

• 전략: 최고 성능 장비 총동원

• 비용: 상관없음. 1등이 중요

추론(Inference) = 택시 운영

• 목표: 승객당 수익 최대화

• 전략: 연비 좋은 차량 선택

• 비용: 핵심. 수익성이 전부

2.2 학습의 잔인한 수학

GPT-5 같은 거대 모델을 학습시키는 데 얼마나 걸릴까?

계산 공식 (단순화)

필요 연산량(FLOPs) ≈ 6 × 파라미터 수 × 학습 토큰 수

(6=2N+4N, 순전파(문제풀기) 2, 오차역전파(오답노트) 4)

GPT-3 (175B 파라미터)의 경우:

• 공개 수치: 약 3천억(300B) 토큰

• 친칠라 근사로 수조 토큰급으로 보기도 하지만,

GPT-3의 공개 수치는 약 3천억(300B) 토큰이다.

GPT-5 규모 모델 (추정 1조 파라미터, 10조 토큰):

• 필요 연산: 6 × 10^12 × 10^13 = 6 × 10^25 FLOPs

H100 GPU 1개로 하면?

• 시간: 약 3,000년

H100 GPU 10,000개로 하면?

• 시간: 약 110일

시간 = 돈 = 경쟁력

ChatGPT가 3개월 늦게 나왔다면?

구글 Bard가 시장을 독식했을 것이다.

그래서 학습에서는 무조건 최고 성능이다.

H20? 말도 안 된다.

학습 시간이 10배 이상 걸리면, 이미 게임 끝이다.

2.3 추론의 경제학: 1원의 전쟁

반면 추론은 완전히 다르다.

ChatGPT가 하루 1억 명에게 서비스한다고 치자.

각 요청당 비용이 1원이면? (예시)

• 하루: 1억 원

• 한 달: 30억 원

• 1년: 365억 원

0.7원으로 줄이면? (예시)

• 1년: 255억 원

• 절감액: 110억 원

이래서 추론에서는 가성비가 왕이다.

추론 최적화 전략

• 8/8 압축 (메모리 1/4, 속도 2배)

• 배치 처리 (동시 요청 묶어서 처리)

• KV 캐시 재사용 (반복 질문 효율화)

• 모델 경량화 (13B로도 충분한 건 13B로)

2.4 중국의 선택: 추론 특화 전략

여기서 중국의 전략이 보인다.

"학습은 포기하고, 추론에 올인하자."

실제로: 추론 비중 확대

• 바이두: 오픈소스 모델 가져다 파인튜닝

• 알리바바: 추론 특화 칩 개발에 집중

• 텐센트: 엣지 디바이스용 경량 모델

이게 현실적이다.

최첨단 모델 학습? H20으로는 불가능.

하지만 서비스? 충분히 가능하다.

(엣지 비다이스 - 스마트폰 및 PC, 자율주행 자동차, 스마트 팩토리, 드론 및 로봇 등등)

3. 한국의 선택: 우리는 어디로?

3.1 네이버 하이퍼클로바X의 고민

네이버가 하이퍼클로바X를 만들 때 뭘 썼을까?

공식 발표는 없지만, 업계 추정:

• 학습: H100 수백~수천 개

• 추론: H100 + A100 혼용

왜 이런 선택을?

학습은 어쩔 수 없다. H100이 답이다.

하지만 추론은? 다양한 옵션을 테스트 중이다.

"토종 GPU는 없나?"

아쉽지만 없다. (CUDA 호환 범용 GPU)

삼성? 메모리만 만든다.

SK하이닉스? HBM 공급만 한다.

(학습, 공개벤치 기준 B200은 H100의 약 2.2~2.6배 빠르다. (Tom's Hardware, 2024. 08.)

그리고 이해하기 쉽게 비유하자면,

H100 - 4090 그래픽카드 등급

B200 - 5090 그래픽카드 등급)

3.2 스타트업의 현실적 선택

만약 당신이 한국에서 AI 스타트업을 창업했다면,

어떤 GPU를 쓸 것 같은가?

"어떤 GPU 쓰세요?"

"RTX 4090 20개요."

"H100은요?"

"꿈도 못 꿔요. 한 개에 4천만 원인데..."

이게 현실이다.

스타트업 생존 전략

• 오픈소스 모델 활용 (Llama, Mistral)

• 파인튜닝으로 특화 (법률, 의료, 금융)

• RAG로 문서 처리 (쪼개서 정복)

• 클라우드 활용 (AWS, GCP, Azure)

"자체 모델 학습은 포기?"

"네. 그건 빅테크나 하는 거죠."

왜?

칩 개발은 10년 걸린다.

하지만 서비스 최적화는 지금 당장 할 수 있다.

그리고 그게 진짜 경쟁력이다.

4. 실전 가이드: 당신의 선택은?

4.1 용도별 최적 선택

"100쪽 PDF 통째로 요약하고 싶어요"

선택지 1: 클라우드 서비스

• Claude (200k 컨텍스트)

• GPT-5 (128k 컨텍스트)

• 비용: 요청당 500-1000원

(모델/토큰/환율·할인에 따라 큰 편차)

선택지 2: 로컬 GPU

최소 사양: RTX 5090 32GB × 4개 (또는 A100 80GB)

• 모델: Llama 3.1 13B + 8/8 압축

• 방식: RAG로 쪼개서 처리

"실시간 고객 상담 챗봇 만들고 싶어요"

핵심: TTFT(첫 응답 시간) <200ms

권장 구성:

• 모델: 7B-10B 파라미터

• 압축: INT8 (속도 우선)

• GPU: H20도 충분 (또는 RTX 5090)

• 배치: 32-64 동시 처리

(16–64 동시 처리, 처리량↑, 단 개별 TTFT는 커질 수 있어 트레이드오프 튜닝 필요)

"논문 수준의 긴 글 작성하고 싶어요"

핵심: 품질 >속도

권장 구성:

• 모델: 70B 이상

• 압축: FP8 또는 FP16 (품질 우선)

• GPU: H100 80GB 이상

• 또는: Claude/GPT-5 API 사용

4.2 예산별 현실적 구성

예산 1000만 원 (스타트업/개인)

• GPU: RTX 5090 32GB × 2개

• 가능: 7B 모델, 짧은 문서, 프로토타입

• 불가능: 대규모 서비스, 긴 문서, 학습

예산 1억 원 (중소기업)

• GPU: A100 80GB × 2개 또는 H20 × 4개

• 가능: 13B-30B 모델, 중간 길이 문서, 소규모 서비스

• 불가능: 최첨단 모델 학습, 대규모 서비스

예산 10억 원 이상 (대기업)

• GPU: H100 80GB × 20개

• 가능: 70B 모델 파인튜닝, 대규모 서비스

• 여전히 어려움: GPT-4 수준 모델 처음부터 학습

4.3 클라우드 vs 온프레미스

클라우드가 유리한 경우

• 트래픽 변동이 큰 서비스

• 초기 투자 여력 부족

• 다양한 모델 실험 필요

• 운영 인력 부족

온프레미스가 유리한 경우 (자체서버운영)

• 24시간 풀가동 서비스

• 데이터 보안이 핵심

• 장기적 비용 절감 목표

• 커스터마이징 필요

하이브리드 전략 (현실적)

• 학습: 클라우드 (필요할 때만)

• 추론: 온프레미스 (24시간 운영)

• 백업: 클라우드 (피크 시간 대응)

5. 미래 시나리오: 3가지 길

5.1 시나리오 1: CUDA 제국의 영속

5년 후에도 CUDA가 지배한다.

왜?

• 개발자 다수(수십~수백만명)가 CUDA에 익숙

• 모든 오픈소스가 CUDA 기반

• 대안이 나와도 전환 비용 너무 커

투자 포인트:

• 엔비디아 장기 보유

• CUDA 최적화 솔루션 기업

• AI 인프라 운영 기업

5.2 시나리오 2: 중국 독자 생태계

중국이 완전히 독립한다.

어떻게?

• 정부 주도 표준화

• 내수 시장 14억 명

• 해외 진출 차단해도 충분

(내수만으로도 일정 규모 유지 가능)

투자 포인트:

• 중국 AI 칩 기업 (리스크 높음)

• 글로벌 AI 서비스 (중국 제외)

• 듀얼 스택 지원 솔루션

5.3 시나리오 3: 패러다임 시프트

완전히 새로운 무언가가 나온다.

가능성:

• 양자 컴퓨팅 상용화

• 뉴로모픽 칩 혁명

• 온디바이스 AI 대중화

투자 포인트:

• 차세대 컴퓨팅 연구 기업

• 엣지 AI 솔루션

• 새로운 표준 제시 기업

5.4 가장 가능성 높은 시나리오는?

내 생각은 이렇다.

향후 2-3년: CUDA 지배 지속

• H20도 결국 CUDA 생태계

• 중국 독자 칩은 아직 미성숙

• 관성의 법칙 너무 강력

3-5년 후: 부분적 균열

• 중국 내수는 독자 생태계

• 추론 시장은 다변화

• 학습은 여전히 CUDA

5-10년 후: 새로운 균형

• 3강 구도 (미국/중국/제3세력)

• 용도별 최적화 심화

• 상호운용성이 핵심

결론: 생태계가 여전히 법이다

6. H20 논쟁을 통해 우리가 배운 것을 정리하자.

미국의 H20 수출 허용은 양보가 아니라,
중국을 CUDA라는 우리에 가두는 가장 교활한 '덫'이다.

첫째, 칩 스펙은 시작일 뿐이다.

100배 빠른 칩? 메모리가 작으면 무용지물.

생태계가 없으면 고철.

진짜 중요한 건:

• VRAM (얼마나 긴 문서를?)

• 압축 기술 (얼마나 효율적으로?)

• 서비스 시나리오 (S1이냐 S2냐?)

둘째, 학습과 추론은 다른 게임이다.

학습은 F1 레이싱. 최고 성능만이 정답.

추론은 택시 운영. 가성비가 왕.

이걸 구분 못 하면 돈을 날린다.

셋째, 생태계는 하루아침에 안 바뀐다.

H20을 준다고 중국이 CUDA를 버릴까?

아니다. 이미 너무 깊이 엮여있다.

하지만 10년 후에는?

모른다. 중국의 인내심을 과소평가하지 마라.

마지막으로, 한국의 기회는 어디에?

칩 개발? 늦었다.

모델 학습? 돈이 없다.

하지만:

• 서비스 최적화

• 특화 솔루션

• RAG/압축 기술

• 엣지 AI

이 영역에서는 충분히 승부할 수 있다.

마나월드 코멘트:

VRAM은 책상, 8/8은 압축, 컨텍스트는 한 번에 펼칠 페이지.

추론은 가성비, 학습은 성능.

기술 패권의 본질은 칩이 아니라,

표준이고, 생태계고, 개발자의 습관입니다.

이것이 21세기 기술 전쟁의 진짜 규칙이라고 생각합니다.

간단정리

A100 - 3090 그래픽카드 등급으로 이해 , 암페어(Ampere) 아키텍처

H100 - 4090 그래픽카드 등급으로 이해 , 호퍼(Hopper) 아키텍처

B200 - 5090 그래픽카드 등급으로 이해. , 블랙웰(Blackwell) 아키텍처

H20은 H100의 성능 제한 버전. 중국 수출 허용버전.

추론은 가능하지만 학습엔 무리.

keyword

Brunch Book

현실이 된 미국의 "힘의 경제학"

현실이 된 미국의 "힘의 경제학"

brunch book

전체 목차 보기 (총 26화)

이전 23화22화. AI 칩의 경제학: 들어가기 전 개념 정리24화. AI 전쟁의 법칙: 진짜 시그널을 읽는 법다음 25화