'순환 투자/왼발이 오른발 밟기' 서사가 약해진 뒤 GPU 감가상각(depreciation) 문제가 새 논거로 등장했습니다.
주장의 핵심:
주요 CSP(클라우드 서비스 제공자)들의 재무제표상 GPU 감가상각 기간: 6년 균등 분할
실제 GPU 사용 수명: 2~3년
결과: 회계상 이익률 과대평가, AI 클라우드의 실제 수익성은 낮음
Meta Llama 3.1 405B 훈련 데이터:
사용 GPU: 16,384개의 H100
훈련 기간: 54일
총 466회 중단 발생, 이 중 419회는 비계획적 장애
평균 3시간마다 1회 장애
유효 훈련 시간: 90% 이상 유지
계산 결과:
GPU 연간 고장률(AFR): 약 9%
3년 누적 고장률: 최소 27%
3년 내 GPU의 4분의 1 이상 고장
대규모 동기식 학습 환경에서는 GPU 한 대만 고장나도 전체 훈련이 중단됩니다.
최근 훈련 환경 개선:
과거: 1~2시간마다 한 번 중단
현재: 하루에 몇 차례로 감소
NVIDIA의 사전 검증(validation) 공정 개선으로 불량 GPU 사전 제거
현재 추정:
보수적 추정 GPU 연간 고장률: 6% 미만
부하 특성 차이:
훈련용 GPU: 고온·고부하 환경 → 수명 짧음
추론용 GPU: 평균 부하 낮고 온도 안정 → 수명 길음
추론용 GPU 고장률:
연간 고장률: 보통 3% 이하, 일부 2% 미만
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.