brunch

xAI , Colossus Supercom

by Andrew Oh



Elon Musk의 xAI가 구축한 Colossus 슈퍼컴퓨터에 대해 최신 자료를 정리해 드립니다:




Colossus 개요

• 세계 최대 AI 슈퍼컴퓨터로, 2024년 하반기부터 멤피스, 테네시 주 옛 Electrolux 공장에 설치됨 .

• 시작 규모: 100,000개의 NVIDIA H100 GPU, 122일 만에 구축 .

• 확장 단계: 추가 100,000 GPU를 증설해 총 200,000 GPU급 규모로 확장

• 하드웨어 사양:

• 메모리 대역폭 194 PB/s

• 용량 1 엑사바이트 이상

• 서버당 네트워크 3.6 Tbps

• GPU당 약 4 PFLOPS 성능, HBM2e 메모리  .

• 냉각: 업계 최고 수준의 Supermicro 4U 액체 냉각 랙 시스템 사용 .

• 전력 및 인프라: 전력 수요는 최대 약 150–300 MW, Tesla MegaPack 및 이동식 메탄 발전기(약 35기)로 보완




확장 계획

• xAI는 Colossus 2로 불리는 차세대 확장 계획을 발표:

• 1 백만 개 GPU 규모 목표

• 투자액은 약 250억 달러 규모 예상  .




활용 목적

• xAI의 대형 언어모델 Grok(GPT 경쟁 모델)의 학습

• X(전 트위터) 및 SpaceX 등 xAI 계열사의 AI 기반 운영지원  .




논란 및 환경 영향

• 속도 측면: GPU 설치부터 가동까지 단 19–122일 소요돼 “superhuman” 속도라는 평가 .

• 환경 문제:

• 공기오염 우려: 메탄 발전기에서 질소산화물(NOₓ)·포름알데하이드 배출, 지역 주민과 환경단체 반발 .

• 용수 사용: 하루 수백만 갤런 냉각수 필요, 추가 폐수 재활용 시설도 계획 중

• 지역사회 공청회 부족 등 투명성 문제도 제기됨




요약


항목 내용

GPU 수 100K 200K (향후 1M 목표)

건설 속도 122일 만에 100K GPU 가동

냉각·전력 고성능 액체 냉각 · Tesla MegaPack 및 이동식 메탄 발전기 병행

활용 분야 Grok 모델 학습, X 및 SpaceX 연계 운영

환경 이슈 공기/수질 오염 우려, 지역 반발, 투명성 문제





Colossus는 규모와 속도에서 혁신적이지만, 환경/사회적 리스크 또한 적지 않습니다.

추가로 궁금한 점 있으시면 언제든지 말씀해주세요!

keyword
매거진의 이전글Safe Superintelligence Inc