2025년 11월 18일 공부

by 쩨다이

오늘의 투자 공부 노트 �

AI 버블론: GPU 감가상각 이슈 분석

새로운 AI 버블 논거 등장

'순환 투자/왼발이 오른발 밟기' 서사가 약해진 뒤 GPU 감가상각(depreciation) 문제가 새 논거로 등장했습니다.

주장의 핵심:

주요 CSP(클라우드 서비스 제공자)들의 재무제표상 GPU 감가상각 기간: 6년 균등 분할


실제 GPU 사용 수명: 2~3년


결과: 회계상 이익률 과대평가, AI 클라우드의 실제 수익성은 낮음


GPU 2~3년 수명설의 근거

Meta Llama 3.1 405B 훈련 데이터:

사용 GPU: 16,384개의 H100


훈련 기간: 54일


총 466회 중단 발생, 이 중 419회는 비계획적 장애


평균 3시간마다 1회 장애


유효 훈련 시간: 90% 이상 유지


계산 결과:

GPU 연간 고장률(AFR): 약 9%


3년 누적 고장률: 최소 27%


3년 내 GPU의 4분의 1 이상 고장


대규모 동기식 학습 환경에서는 GPU 한 대만 고장나도 전체 훈련이 중단됩니다.

반론 1: 모든 훈련용 GPU 수명이 짧은가?

최근 훈련 환경 개선:

과거: 1~2시간마다 한 번 중단


현재: 하루에 몇 차례로 감소


NVIDIA의 사전 검증(validation) 공정 개선으로 불량 GPU 사전 제거


현재 추정:

보수적 추정 GPU 연간 고장률: 6% 미만


반론 2: 훈련용과 추론용 GPU는 다르다

부하 특성 차이:

훈련용 GPU: 고온·고부하 환경 → 수명 짧음


추론용 GPU: 평균 부하 낮고 온도 안정 → 수명 길음


추론용 GPU 고장률:

연간 고장률: 보통 3% 이하, 일부 2% 미만


지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
쩨다이작가님의 멤버십을 시작해 보세요!

쩨다이의 브런치입니다. 글 쓰고, 투자하고, 책 읽습니다. 성장하는 거 좋아합니다.

47 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 총 12개의 혜택 콘텐츠
최신 발행글 더보기
작가의 이전글제3화. 깨어 있는 자아