제3부: 미래 권력의 조건 - 기술 패권 전쟁
"최신 RTX 5090 샀습니다!
이제 AI 뭐든 돌릴 수 있겠죠?"
아니다.
당신의 400만 원짜리 GPU는 100쪽 PDF도 못 읽는다.
겨우 24쪽이 한계다.
"뭐? 32GB나 되는데?"
충격적이지 않나?
더 충격적인 사실이 있다.
구글도, OpenAI도, 네이버도
대부분 AI를 8비트로 압축해서 서비스한다.
최첨단 기술의 정점에 있는 그들이
왜 화질 떨어뜨리는 압축을 쓸까?
답은 간단하다.
AI 서비스는 기술이 아니라 경제학이기 때문이다.
21화에서 우리는 CUDA 생태계의 지배력을 봤다.
이제 그 생태계 위에서 돌아가는
AI 칩의 잔혹한 경제학을 파헤칠 차례다.
오늘 당신이 배울 세 가지:
• VRAM은 책상이다. 작으면 게임 끝.
• 8/8은 압축이다. 안 하면 파산.
• 컨텍스트는 페이지다. 길수록 비싸다.
이 세 가지를 모르고 AI 뉴스를 본다?
그건 환율 모르고 해외 주식 하는 거나 마찬가지다.
자, 시작하자.
당신의 GPU가 왜 바보인지부터.
자, 실험을 하나 해보자.
당신 앞에 최신 RTX 5090이 있다. 32GB VRAM, 가격 400만 원.
"와, 이제 AI 뭐든 돌릴 수 있겠네!"
100쪽짜리 보고서를 통째로 넣고 요약을 시킨다. 결과는?
"메모리 부족 오류"
"뭐야, 32GB인데 왜 100쪽도 못 읽어?"
충격적인 진실을 알려주겠다.
32GB GPU는 한글 기준 겨우 24쪽 정도밖에 처리 못한다.
(13B 모델, 8비트 압축, 오버헤드 포함 시 근사)
왜 이런 황당한 일이 벌어질까?
VRAM을 책상이라고 생각해보자.
당신이 논문을 쓴다고 치자.
책상이 작으면? 책 한두 권만 펼칠 수 있다.
나머지는? 바닥에 쌓아두고 필요할 때마다 바꿔가며 본다.
AI GPU도 똑같다.
VRAM이 작으면? 문서를 쪼개서 처리해야 한다.
문제는 AI 모델이 VRAM을 어떻게 쓰는지 아무도 제대로 설명 안 한다는 거다.
VRAM = 모델 가중치 + KV 캐시 + 실행 오버헤드
뭔 소리냐고? 쉽게 설명하겠다.
1단계: 모델 가중치 (고정 비용)
13B 모델이 있다고 치자. B는 Billion,
즉 130억 개의 숫자(파라미터)다.
이 숫자들을 GPU에 올려야 모델이 돌아간다.
8비트로 압축해도 약 13GB를 먹는다.
32GB 중 13GB가 날아갔다. 남은 건 19GB.
2단계: KV 캐시 (가변 비용)
여기가 진짜 문제다.
AI가 문서를 읽을 때, 앞에서 읽은 내용을 계속 기억해야 한다.
이걸 저장하는 게 KV 캐시다.
KV는 Key-Value의 약자. 쉽게 말해 "문맥 기억 장치"다.
100쪽 문서(10만 토큰)를 처리하려면? KV 캐시만 약 60GB가 필요하다.
잠깐, 32GB GPU인데 60GB가 필요하다고? 그래서 안 되는 거다!
3단계: 실행 오버헤드
설상가상으로 GPU는 실행하면서 임시 메모리도 쓴다.
버퍼, 그래디언트, 중간 계산값... 최소 2-3GB는 더 필요하다.
결론: 32GB GPU의 한계 (13B·가중치 8비트·KV FP16·오버헤드 포함 근사)
• 모델: 13GB
• 실행 오버헤드: 3GB
• 남은 공간: 16GB
• 처리 가능 문서: 약 24쪽
400만 원짜리 GPU가 24쪽밖에 못 읽는다. 이게 현실이다.
(KV를 8비트로 낮추면 약 50쪽대까지 늘어난다.)
OpenAI의 ChatGPT는 어떻게 128k 토큰(약 128쪽)을 처리할까?
답: H100 80GB 또는 H200 141GB
• H100 80GB: 한글 약 100쪽 처리 가능
• H200 141GB: 한글 약 190쪽 처리 가능
가격은?
• H100: 시장가 추정 3400-4800만원
• H200: 시장가 추정 4100-5500만원
미쳤다. PDF 100쪽 읽으려고 5천만원?
(9월16일자, 환율 1385원 기준)
그런데 더 충격적인 사실이 있다.
"잠깐, ChatGPT가 하루에 1억 명이 쓰는데
다 H100으로 돌리면 전기료만 수조 원 아니야?"
정답이다. 그래서 안 그런다.
여기서 업계의 공공연한 비밀이 하나 있다.
대형 추론 서비스는 8비트급 양자화/압축을 널리 사용해 비용을 낮춘다.
(업무/모듈별로 정밀도 선택이 다름)
이게 바로 8/8 (8비트/8비트) 압축이다.
원래 AI 모델은 32비트 부동소수점(FP32)으로 학습한다.
초정밀 계산이 가능하다.
하지만 서비스할 때 32비트는 미친 짓이다.
메모리 4배, 전기료 4배, 속도는 1/4.
그래서 나온 게 8비트 압축이다.
8/8 = 가중치 8비트 + KV 캐시 8비트
쉽게 말하면?
• 원본: 4K 블루레이 (100GB)
• 8/8: 넷플릭스 스트리밍 (10GB)
화질 차이 느껴지나?
거의 안 느껴진다. 하지만 용량은 1/10이다.
8비트도 두 종류가 있다.
FP8 (8비트 부동소수점)
• 장점: 품질 손실 거의 없음
• 단점: INT8보다 살짝 느림
• 용도: 수학, 코딩, 정밀 분석
INT8 (8비트 정수)
• 장점: 가장 빠르고 효율적
• 단점: 아주 미세한 품질 손실
• 용도: 일반 대화, 요약, 번역
구글 Gemini는 어떻게 할까?
"일반 채팅은 INT8, 코딩 도움은 FP8"
상황에 따라 바꾼다. 영리하지 않나?
실제 비용을 계산해보자.
시나리오: 하루 1000만 요청 처리
압축 없이 (FP32):
• 필요 GPU: H100 1000개
• 전기료: 하루 5000만 원
• GPU 비용: 500억 원
8/8 압축:
• 필요 GPU: H100 250개
• 전기료: 하루 1250만 원
• GPU 비용: 125억 원
연간 절감액: 전기료만 135억 원
이래서 대형 서비스들이 8비트 압축을 적극 활용하는 거다.
"그럼 품질이 떨어지지 않아?"
놀랍게도, 일반 사용자의 95%는 차이를 못 느낀다.
블라인드 테스트 결과가 그렇다.
(일부 사용자 연구/벤치마크에서 일반 대화 과제는 체감 미미한 경우가 많다.)
"13B 모델이래!"
이게 대체 뭔 소리야?
매일 AI 뉴스에 나오는 숫자들.
"GPT-3는 175B"
"라마는 405B"
"클로드는 비공개"
B가 뭔지 아나? Billion. 10억이다.
13B = 130억 개의 파라미터.
파라미터는 뭐냐고?
AI의 뇌세포 개수라고 생각하면 된다.
인간 뇌에 뉴런 860억 개.
13B 모델은 130억 개.
인간의 1/6 수준이다.
"그럼 175B는 인간보다 똑똑한가?"
아니다. 여기 함정이 있다.
뇌세포만 많다고 천재가 되나?
파라미터는 그릇이다.
그릇이 크면 많이 담을 수 있다.
하지만 그릇만 크다고 요리가 맛있나?
좋은 재료를 충분히 넣어야 한다.
AI에서 그 재료가 바로 토큰이다.
토큰은 뭐냐고?
텍스트를 잘게 쪼갠 단위다.
"안녕하세요" = 약 2-3토큰.
A4 한 페이지 = 약 500-1000토큰.
여기 충격적인 진실이 있다.
AI가 제대로 똑똑해지려면 파라미터 1개당 토큰 20개는 먹여야 한다.
(이걸 '친칠라 법칙'이라 부른다)
• 3B 모델 → 60B 토큰 필요
• 13B 모델 → 260B 토큰 필요
• 175B 모델 → 3.5T 토큰 필요
T는 Trillion. 1조다.
3.5T = 3조 5천억 토큰.
자, 이제 우리가 아는 단위로 바꿔보자.
300쪽짜리 학술 논문 1권 = 약 24만 토큰
계산해보면:
• 3B 모델: 약 25만 권 읽음
• 13B 모델: 약 110만 권 읽음
• 175B (GPT-3): 약 1,460만 권 읽음
110만권이 얼마나 많은 양인지 감이 오나?
서울대 도서관 전체 장서가 약 530만권이다.
13B 모델은 대학 도서관 1/5을 다 읽은 셈이다.
근데 왜 가끔 멍청할까?
"110만권 읽었는데 왜 헛소리해?"
두 가지 이유가 있다.
첫째, 중복이 많다.
같은 내용 여러 번 읽은 게 포함되어 있다.
둘째, 소화를 제대로 못했다.
인간도 책 1000권 속독하면 기억 못하듯,
AI도 너무 빨리 많이 먹으면 제대로 학습 못한다.
뉴스에서 "새로운 7B 모델 출시!"라고 하면:
• 7B × 20 = 140B 토큰 정도 학습했겠구나
• 140B ÷ 24만 = 약 58만 권 읽었겠구나
• 중간 규모 도서관 하나 정도의 지식이구나
이제 "13B", "70B" 같은 숫자가 나와도
"아, 이 정도 똑똑하겠구나" 감이 올 것이다.
10B는 얼마인가?
파라미터는 그릇, 토큰은 재료. 그릇 크기 × 20 = 필요한 재료 양.
300쪽 책 몇 권? 파라미터(B) × 8만권.
이제 AI 모델의 스펙을 제대로 읽을 수 있다.
"GPT-5의 파라미터 수는 비공개지만 엄청나대!" (OpenAI)
"라마는 405B래!" (메타-페이스북)
이런 거대 모델 전쟁에서 한국은?
솔직히 말하자. 정면승부는 불가능하다.
일론 머스크는 X(트위터, 2024.10.14.)에 그록이 엔비디아 23만장의 카드로 운영중이라고 하였으며,
24년말 우리나라 전체에 엔비디아 카드는 대략 2만장으로 추정하고 있다.
그렇다면 우리의 현실은 어떨까? (과학기술정보통신부, 2025.07.28)
2025년, 대한민국 정부는 'AI고속도로' 사업을 통해
1조 4,600억 원이라는 막대한 예산을 투입했다.
이를 통해 확보하는 엔비디아의 최신 AI 칩은 총 13,136장이다.
(이 중 현존 최상위급은 3,056장에 불과한데,
머스크는 이미 23만개중에서 최상위급으로 3만개 운영 중이라고 밝혔다.)
IT 강국 대한민국의 국가적 총력이,
머스크 한 명이 이미 운영하고 있는 규모의 대략 1/10에도 미치지 못한다.
이제 인정할 건 인정하자.
구글, 메타,일론 머스크(그록), OpenAI...
이들이 쏟아붓는 돈이 얼마인지 아나? GPU만 수조 원이다.
그래서 네이버가 영리한 선택을 했다.
2025년 4월 24일, HyperCLOVA X SEED 공개:
• 0.5B (5억 파라미터)
• 1.5B (15억 파라미터)
• 3B (30억 파라미터 + 멀티모달)
"어? 겨우 3B? 라마의 1/100 수준이잖아?"
맞다. 그런데 여기 반전이 있다.
• 0.5B = 약 4만 권 읽음 = 스마트폰 가능
• 1.5B = 약 12만 권 읽음 = 플래그십 폰·태블릿·엣지 ‘안정적’
• 3B = 약 25만 권 읽음 = PC급 권장 (vRAM 20GB 이상권장)
네이버의 진짜 노림수는 0.5B다.
• 8비트 양자화시 메모리 0.75GB.
• 4비트로 압축하면 0.3GB.
최신 스마트폰에서 충분히 돌아간다.
"4만 권밖에 안 읽었는데 쓸만해?"
놀랍게도, 한국어에 특화시키니 충분하다.
간단한 번역, 요약, 질문답변... 일상 용도로는 문제없다.
더 놀라운 건 3B 모델이다.
이미지와 영상까지 이해하는 멀티모달.
애플도 3B 온디바이스를 구현했듯,
최적화하면 고급 스마트폰에서도 가능하다.
거대 모델? 구글이 이긴다. (GPT)
그럼 우리는? 온디바이스 AI로 간다.
생각해보라.
ChatGPT 쓸 때마다 인터넷 연결해야 하고,
데이터 요금 나가고, 개인정보 서버로 전송되고...
반면 스마트폰에 AI가 직접 탑재되면?
• 인터넷 없어도 OK
• 데이터 요금 0원
• 개인정보 유출 걱정 없음
그리고 네이버는 이걸 상업적 사용 허용(조건부)으로 공개했다.
개발자들이 마음껏 쓰고 개선하게. 생태계를 만들겠다는 거다.
미국이 수조 파라미터 전쟁을 하는 동안,
우리는 10억 이하 최적화 전쟁을 한다.
미국이 클라우드 AI를 지배하는 동안,
우리는 온디바이스 AI 표준을 만든다.
정면승부? 안 한다. 새로운 전쟁터를 만든다.
이제 기억하자.
파라미터는 그릇, 토큰은 재료.
그릇 크기 × 20 = 필요한 재료 양.
10B는 300쪽 책 몇 권? 파라미터(B) × 8만권.
그리고 한 가지 더.
크기가 전부가 아니다. 어디에 쓰느냐가 중요하다.
이제 AI 모델의 스펙을 제대로 읽을 수 있다.
그리고 왜 네이버가 3B에 집중하는지도 이해할 것이다.
(환산은 대략치. 토크나이저/서식에 따라 ±30% 차이)
"GPT-5는 128k 컨텍스트래!"
"Claude는 200k까지 된대!"
이런 말 많이 듣는다.
그런데 이게 정확히 뭔지 아는 사람은 드물다.
컨텍스트 = 입력 + 출력의 합
이게 핵심이다.
128k 컨텍스트라면?
• 입력 100k + 출력 28k = OK
• 입력 120k + 출력 8k = OK
• 입력 130k + 출력 0k = 불가능!
많은 사람이 놓치는 함정이 여기 있다.
긴 답변을 받으려면, 입력을 줄여야 한다.
자, 실제로 얼마나 되는지 보자.
[컨텍스트 → 실제 페이지 환산표]
"어? 128k면 책 한 권 아니야?"
맞다. 겨우 얇은 책 한 권이다.
해리포터 한 권? 불가능. 삼국지? 꿈도 꾸지 마라.
프로가 알려주는 꿀팁이 있다.
컨텍스트의 20%는 출력용으로 남겨둬라.
128k 컨텍스트라면?
• 입력: 102k (80%)
• 출력 여유: 26k (20%)
왜 20%나 남기냐고?
AI가 답변하다가 갑자기 멈추는 경험 있지 않나?
"계속해줘"라고 해도
"컨텍스트 초과"라고 한다.
이게 바로 출력 공간을 안 남겨서다.
"그럼 1000쪽짜리 문서는 어떻게 처리해?"
답: RAG (Retrieval-Augmented Generation)
쉽게 말하면 이렇다:
• 문서를 100개 조각으로 자른다
• 질문과 관련된 조각만 뽑는다
• 그 조각들만 AI에게 준다
마치 백과사전 전체를 외우는 대신,
필요한 페이지만 찾아보는 것과 같다.
네이버 클로바X, 카카오 코지피티가 다 이 방식이다.
"100만 건 문서 검색!"이라고 광고하지만,
실제로는 관련 부분만 뽑아서 처리하는 거다.
마나월드 코멘트:
사실 AI 생태계 편은 2화로 끝낼 계획이었습니다.
21화에서 CUDA 생태계의 지배력을 설명하고,
바로 뉴스 시그널 읽는 법으로 마무리하려 했습니다.
그리고 금요일에 에필로그로 마무리해서
이번주에 "힘의 경제학" 여정을 완료할 예정이었습니다.
그런데 연재 중에 H20 중국 수출 승인 뉴스가 터졌습니다.
(고민했습니다. 기존 기획에서 마지막에 살짝만 언급하고 갈까?
이대로 마무리하고 싶은데....)
"미국의 실수다!"
"중국이 AI 따라잡는다!"
"엔비디아 독점 끝났다!"
일부 경제 전문가들까지 이런 분석을 쏟아내더군요.
생태계를 모르면서 왜 스펙만 보고 판단하는가?
경제학을 아는 분들이 왜 AI 경제학은 모르는가?
그래서 이왕 언급할거면 2화를 4화로 늘리자.
21화: CUDA 생태계 - 왜 2등의 반란이 불가능한가
22화: AI 개념 정리 - 경제 관점에서 꼭 알아야 할 기초
23화: H20 전략 분석 - 미국이 왜 수출을 허용했는가
24화: 시그널 읽기 - 진짜와 가짜를 구분하는 법
사실 이 시리즈도 AMD의 '2등의 반란'에서 시작했습니다.
과연 AMD가 2등의 반란으로 인텔을 이겼듯 엔비디아를 이길수 있을까?
그런데, 왜 더 싼 칩, 더 빠른 칩이 나와도 엔비디아를 못 이기는가?
답은 생태계였고, H20 논쟁은 그 생태계의 힘을 보여주는 완벽한 사례였습니다.
기술을 모르는 분들도 AI 뉴스를 제대로 읽을 수 있도록, 그래서 이렇게 길어졌습니다.
부디 이 4화를 통해 "100배 빠른 칩" 같은 헤드라인에 속지 않고,
진짜 변화의 신호를 읽을 수 있기를 바랍니다.
이 글은 기술 사양 리뷰가 아닙니다.
설명을 위해 일부 개념을 단순화·단정적으로 표현했습니다.
조건(세팅·데이터·인프라)이 바뀌면 결과도 변할 수 있습니다.