brunch

AI 인프라, AI 가속기 (GPU+HBM)

Part1 인공지능의 탄생과 진화 , 3장 인공지능의 진화를 이끈 인프라

by 신피질

AI 시대, 데이터센터의 CPU와 GPU

AI 시대의 인프라에서 가장 중요한 핵심적인 것은 반도체이다. 특히 그중에서 가장 중요한 역할을 하는 것이 엔비디아의 AI가속기다. 이 기속기에는 엔비디아의 고속 GPU에 Data를 빠르게 저장하는 HBM 메모리가 포함되어 있다.


AI 서버에는 인텔 및 AMD 서버 CPU도 포함되어 있지만, GPU대비 가격이나 필요한 수량에서 많은 차이가 난다.


그것이 인텔과 엔비디아 기업가치를 크게 차이가 나게 만든 제품이다.



반도체는 디지털 세계이다.

즉 아날로그인 파동시그널을 0과 1로 변환시키고, 그것을 반도체 소자에서 실현시킨다.


반도체 소자는 1947년 벨연구소에서 존 바딘, 월터 브래튼, 윌리엄 쇼클리가, 반도체 소자인 게르마늄을 활용한 트랜지스터(TR)를 발명한 것이 진정한 출발점이다. 이들은 1956년 노벨 물리학상 공동 수상자다.


그리고 1958년 TI(Texas Instrument) 잭 킬비가 최초로 TR을 여러 개 집약할 수 있는 집적회로(IC)를 제작했고, 이듬해 페어차일드 반도체의 로버트 노이스가 실리콘 기반 IC 제조를 개발하여 본격적으로 반도체 시대를 출발시켰다.


잭 킬비 최초의 반도체



반도체는 0과 1의 전기적 신호를 인간이 제어할 수 있는 TR로 실리콘에 대량으로 집적할 수 있는 기술이며, 이 집적도가 천문학적 수치로 발전한 것이다.


현재 메모리 DRAM 중 가강 큰 제품은 24G Bit 칩인데, 작은 칩 한 개에 240억 개의 TR이 들어있을 정도로 복잡한 미세공정이다. 가로세로 1mm 공간에 약 2억 개 수준의 TR이 들어있다.


컴퓨터 시대의 최대 강자는 당연히 인텔이었다. 인텔은 1968년 실리콘 IC 제조공정의 창시자 로버트 노이스, 그 유명한 고든 무어 그리고 엔드루 그로브에 의해서 창립되었다.



고든 무어는 TR의 집적도가 18개월마다 2배씩 성장한다고 하는 무어의 법칙으로 유명하고, 앤드루 그로브는 인텔의 CEO를 오랫동안 했는데 편집광만이 살아남는다 (Only Paranoid survive)라는 말로 유명하다.


인텔은 맨 처음 1970년 메모리 제품인 DRAM을 개발했고, 1971년 세계 최초의 마이크로프로세서(CPU)인 Intel 4004를 개발했다.


이후 일본과 가격 경쟁에서 위험을 피하고자 메모리사업에서 철수했고, 마이크로 프로세서에 전념하여 1985년 386, 그리고 1990년 마이크로소프의 윈드우즈 3.0과 동맹을 시작으로 개인용 PC 시장을 독점하였다.


특히 486, 펜티움, 그리고 서버 시장, 노트북 시장까지 확대하면서, 반도체에서 인텔은 수십 년간 독보적으로 1위를 차지했다.


삼성도 인텔과 협력을 통하여 메모리 시장에서 일본 업체들과 경쟁에서 이기고, 1992년 이후로 지속적으로 30년 이상 메모리 시장에서 1위를 차지하고 있다.


인텔의 CPU는 TR의 다양한 배치를 통하여 블록단위를 만들고 그 블록 수백기등이 모여 ALU 같은 코어를 만단다. 코어에는 수십억 개의 TR이 들어있고 이 코어들로 연산을 하는 원리다.


한마디로 컴퓨터의 두뇌 역할을 하고, 그 계산된 결과를 일시적으로 저장하여 지속적으로 작업 공간을 확보하는 것이 메모리다.


따라서 CPU는 연산 작업, 메모리는 저장하는 역할을 함으로 CPU는 논리 회로를 TR로 만드는 것이 중요하다. 즉 CPU는 논리게이트(AND, OR, NOT, XOR)가 수십억 개 모여 이뤄진 거대한 연산장치이다.


메모리는 저장하는 것이 중요하여, TR 외에 전기적 흐름, 즉 전하를 저장하는 케퍼시터(Capacitor)가 같이 있다. 저장을 빠르게 많이 할 수있게 하는 것이 메모리의 중요한 기능이며, 따라서 메모리는 집적도를 얼마나 많이 안정적으로 유지하느냐가 관건이다.



한편 1990년대 3D가 나오면서 CPU 연산만으로 3D 그래픽 처리가 어려웠고, 엔비디아, ATI, S3 등이 초기 그래픽 전용 프레세서를 만들었다.


엔비디아가 1999년 최초로 GeForce 256을 개발하면서, GPU라는 개념이 쓰기 시작되었다.



엔비디아는 내가 2005년 경에 방문했을 때만에도 그래픽 카드 분야 1위 업체였고, 인공지능과는 전혀 관련이 없었다. 당시 삼성전자는 GRAPHIC 용 DRAM을 판매하였고, 엔바디아는 ATI등과 경쟁했었다.


그런데, 이 시기에 연구자들이 한꺼번에 병렬 연산 처리하는 GPU를 활용하기 시작했다. 직렬 연산하는 CPU로는 처리 속도가 너무 느렸기 때문에 병렬로 연결된 GPU에 주목하고, 시도를 시작했다.


복잡하고 어려운 계산이 아니고, 기후 모델링처럼 다양한 변수 모두를 한꺼번에 단순하게 처리할 수 있는 병렬처리방식으로 GPU를 사용하기 시작했다.


즉 점차 연구자들은 기후 모델링 및 과학 시뮬레이션, 유전체, 고성능 컴퓨팅등에 활용하려고 시도를 했다.


그러면서 이를 활용하기 위한 개발 언어를 필요로 했으며, 2006년 엔비디아가 이에 부합하여 개발 언어 플랫폼 툴킷인 CUDA를 발표했다.


다양한 연구자들이 GPU를 사용가능하게 한 CUDA를 본격적으로 활용하면서 CUDA+GPU 생태계가 점차 발전했다.


특히 2012년 CUDA 기반한 엔비디아 GTX580 2개를 활용한 알렛스넷(AlexNet)이 국제컴퓨터비전 경시대회에서 압도적으로 우승하면서, 인공지능에 본격적으로 GPU가 확산되는 개기가 되었다.

그 이전 까지는 GPU는 그래픽 처리용으로 쓰였으나, AI 시대가 열리며 판이 바뀌었다.

이제 AI 데이터센터의 중심은 GPU(=AI 가속기)다.


CPU도 여전히 지휘자로서 OS와 자원 배분·스케줄링을 맡지만, 실제 무거운 연산(행렬·벡터 병렬 계산)은 GPU가 도맡는다.


서버 한대당 CPU는 2대 수준에 불과하고 가격도 (인텔 Xeon, AMD EPYC) 개당 약 1만 달러 내외다.


CPU가 지휘자라면 GPU는 직접 작업을 수행하는 수천, 수만의 연주자이며 가격도 비싼 핵심 부품이 들어있다. AI 서버 한 대는 보통 GPU 8개(또는 16개)가 묶여서 돌아가며, 가격도 엔비디아 H100/B200이 개당 약 3만 달러 이상으로 GPU8 개일 경우 서버 한 대 기준 24만 달러이다.


서버 한 대만 해도 GPU가 압도적이지만, 수천~수만 대 서버가 모이는 데이터센터로 확대하면 격차는 더 커진다. 중소 규모 데이터 센터 서버가 AI 서버가 만 대라고 가정하면, CPU 비용은 약 2억 달러, GPU 비용은 약 24억 달러이다.


전체 서버 개수가 10만 대 수준의 초대형 데이터센터(Hyperscale Data Center) 일 경우는 CPU 비용 약 20억 달러 GPU 비용 약 240억 달러로 무려 220억 달러, 한화 약 30조 원 차이가 난다.



따라서 이러한 차이가 인텔은 최근 시가 총액이 약 1,000억 달러 수준으로 하락했고, 엔비디아는 시가총액 약 4조 달러 이상으로 시가 총액 기준 전 세계 1위를 차지했다.

세상의 중심이 AI 시대로 돌아가고 있다는 반증이다.

.


keyword
이전 11화클라우드, AI 시대의 보이지 않는 심장