일리아 슈츠케바는 캐나다 토론토 대학에서 인공신경망 관련 제프리 힐튼 교수를 만났고 그 아래서 박사까지 합니다. 그리고 미국 스탠포드로 가서 또 학명의 거장인 앤드류 웅 교수와 학문을 연구합니다. 그 후 DNN리서치를 공동 창업했고 이 회사를 구글이 인수해서 구글 브레인 팀에 합류했습니다. 여기서 알파고 개발에도 참여한 것으로 알려졌죠. 그 후 오픈AI 공동 창업자로 다시 구글을 퇴사하고 나왔습니다.

Ilya Sutskever's home page (toronto.edu)

돌아 돌아 왔네요. 엔비디아는 자사 제품을 전세계 수많은 클라우드 사업자들에게 제공합니다. 그에 비해 구글 TPU는 구글만 사용합니다. 반도체 개발과 시스템 마련 원가를 생각하면 엔비디아가 더 저렴할 수 있다는 말까지 나오고 있지만 구글 전체 인프라를 정확히 모르니 비교하기는 쉽지 않죠. 그건 구글만 알 수 있습니다.

구글이 자사 TPU에 대해 다시 한번 정보를 오픈했습니다.

TPU v4 enables performance, energy and CO2e efficiency gains | Google Cloud Blog

이번 글도 deepl을 이용해 번역했습니다. 오역이 있으니 반드시 원문을 확인해주세요.

작성자 :

Norm Jouppi Google Fellow, Google

David Patterson Google Distinguished Engineer, Google Brain

편집자 주: 오늘은 두 명의 전설적인 Google 엔지니어가 TPU v4를 세계 최고의 AI 연구자와 개발자가 대규모 머신러닝 모델 학습을 위해 선택하는 플랫폼으로 만든 '비결'에 대해 설명합니다. Norm Jouppi는 TPU v1부터 TPU v4까지 모든 Google TPU의 수석 아키텍트이며, Google 펠로우이자 미국 공학한림원(NAE) 회원입니다. 데이비드 패터슨(David Patterson)은 구글의 저명한 엔지니어로 ACM A.M. 튜링 상과 NAE 찰스 드레이퍼 상을 수상했습니다. 데이비드 패터슨은 RISC와 RAID의 창시자 중 한 명으로, 최근 머신 러닝으로 인한 이산화탄소 배출에 관한 연구를 진행하고 있습니다.

컴퓨팅 성능 확장은 머신 러닝(ML)의 최첨단 기술을 발전시키는 데 있어 기본이 됩니다. 상호 연결 기술 및 도메인별 가속기(DSA)의 주요 혁신 덕분에 Google Cloud TPU v4가 가능해졌습니다:

TPU v3에 비해 ML 시스템 성능 확장에 있어 거의 10배의 비약적인 발전을 이루었습니다.

최신 ML DSA에 비해 에너지 효율을 2~3배 향상시켰습니다.

일반적인 온프레미스 데이터 센터에서 이러한 DSA에 비해 이산화탄소 배출량을 최대 20배까지 줄입니다.

따라서 TPU v4의 성능, 확장성, 효율성, 가용성은 대규모 언어 모델에 이상적인 수단입니다.

TPU v4는 4096개의 칩이 내부적으로 개발한 업계 최고의 광 회로 스위치(OCS)로 상호 연결되어 엑사스케일 ML 성능을 제공합니다. 아래에서 TPU v4 포드의 8분의 1을 볼 수 있습니다. Google의 Cloud TPU v4는 칩당 평균 2.1배, 와트당 성능은 2.7배 향상되어 TPU v3보다 성능이 2.1배 뛰어납니다. 평균 TPU v4 칩 전력은 일반적으로 200W에 불과합니다.

오클라호마에 위치한 세계 최대 규모의 공개 ML 클러스터에 있는 TPU v4 포드 8분의 1

오클라호마에 위치한 최대 공개 ML 클러스터의 8분의 1에 해당합니다.

TPU v4는 재구성 가능한 OCS를 배포한 최초의 슈퍼컴퓨터입니다. OCS는 상호 연결 토폴로지를 동적으로 재구성하여 확장성, 가용성, 활용도, 모듈성, 배포, 보안, 전력 및 성능을 개선합니다. 인피니밴드보다 훨씬 저렴하고, 전력 소모가 적으며, 속도가 빠른 OCS와 기본 광학 구성 요소는 TPU v4 시스템 비용의 5% 미만, 시스템 전력의 5% 미만입니다. 아래 그림은 두 개의 MEM 어레이를 사용하는 OCS의 작동 방식을 보여줍니다. 광에서 전기로 광 변환하거나 전력을 많이 소비하는 네트워크 패킷 스위치가 필요하지 않으므로 전력을 절약할 수 있습니다.

강력하면서도 효율적인 프로세서와 분산 공유 메모리 시스템의 조합은 심층 신경망 모델을 위한 놀라운 확장성을 제공합니다. 다양한 모델 유형에 대한 TPU v4 프로덕션 워크로드의 확장성은 아래 로그 로그 스케일에서 확인할 수 있습니다.

동적 OCS 재구성은 가용성에도 도움이 됩니다. 회로 스위칭을 통해 고장난 구성 요소를 쉽게 우회할 수 있으므로 ML 트레이닝과 같은 장기 실행 작업에서 한 번에 몇 주 동안 수천 개의 프로세서를 활용할 수 있습니다. 이러한 유연성 덕분에 슈퍼컴퓨터 인터커넥트의 토폴로지를 변경하여 ML 모델의 성능을 가속화할 수도 있습니다.

성능, 확장성, 가용성 덕분에 TPU 슈퍼컴퓨터는 LaMDA, MUM, PaLM과 같은 대규모 언어 모델의 주축이 되고 있습니다. 540B 매개변수 PaLM 모델은 TPU v4 슈퍼컴퓨터에서 훈련하는 동안 50일 동안 최고 하드웨어 부동소수점 성능의 57.8%라는 놀라운 수치를 유지했습니다. 또한 TPU v4의 확장 가능한 인터커넥트는 다차원 모델 파티셔닝 기술을 통해 이러한 LM에 대해 지연 시간이 짧고 처리량이 높은 추론을 가능하게 합니다.

또한 TPU 슈퍼컴퓨터는 광고, 검색 순위, YouTube, Google Play에서 사용되는 딥 러닝 추천 모델(DLRM)의 핵심 구성 요소인 임베딩을 하드웨어로 지원하는 최초의 슈퍼컴퓨터입니다. 각 TPU v4에는 임베딩에 의존하는 모델을 5배에서 7배까지 가속화하면서도 다이 면적과 전력은 5%만 사용하는 데이터 흐름 프로세서인 3세대 스파스코어(SparseCore)가 포함되어 있습니다.

CPU, TPU v3, TPU v4, CPU 메모리에 임베딩이 있는 TPU v4(스파스코어 미사용)의 내부 권장 모델 성능은 아래와 같습니다. TPU v4 SparseCore는 권장 모델에서 TPU v3보다 3배 빠르며 CPU를 사용하는 시스템보다 5~30배 빠릅니다.

임베딩 처리는 모델에서 함께 작동하는 TPU 칩 주변에 임베딩이 분산되어 있기 때문에 상당한 전체 대 전체 통신이 필요합니다. 이 패턴은 공유 메모리 인터커넥트의 대역폭을 압박합니다. 이것이 바로 TPU v4가 3D 토러스 인터커넥트를 사용하는 이유입니다(2D 토러스를 사용했던 TPU v2 및 v3와 비교). TPU v4의 3D 토러스는 더 높은 이분할 대역폭(즉, 칩의 절반에서 인터커넥트 중앙을 가로지르는 나머지 절반까지의 대역폭)을 제공하여 더 많은 수의 칩과 더 높은 SparseCore v3 성능을 지원하는 데 도움이 됩니다. 아래 그림은 3D 토러스에서 상당한 대역폭과 성능 향상을 보여줍니다.

TPU v4는 2020년부터 Google에서 운영되어 왔으며, 2022년 부터는 Google Cloud의 고객들에게도 제공되었습니다. 출시 이후 TPU v4 슈퍼컴퓨터는 언어 모델, 추천 시스템, 제너레이티브 AI 전반에 걸친 최첨단 ML 연구 및 생산 워크로드에 전 세계 주요 AI 팀에서 활발히 사용되고 있습니다.

예를 들어, 공익을 위한 영향력 있는 AI 연구를 수행한다는 사명으로 폴 앨런이 설립한 비영리 기관인 Allen Institute for AI는 TPU v4 아키텍처의 이점을 크게 누렸으며, 대규모의 영향력 있는 연구 이니셔티브를 다수 수행할 수 있었습니다.

"최근에는 많은 연구자들이 여러 프로세싱 유닛에 쉽게 배포할 수 있는 클라우드 TPU로 전환하고 있습니다. GPU를 사용하면 단일 머신 이상으로 확장하면 배포를 위해 코드를 조정해야 하고 서버 간의 연결 속도에 실망할 수 있습니다."라고 Allen Institute for AI의 엔지니어링 수석 디렉터인 Michael Schmitz는 말합니다. "하지만 Cloud TPU를 사용하면 모든 칩이 고속 메시 네트워크를 통해 서로 직접 연결되어 개별 워크로드를 수천 대의 칩으로 원활하게 확장할 수 있습니다."

선도적인 텍스트-이미지 AI 스타트업 중 하나인 Midjourney는 공교롭게도 '버전 4'라고도 불리는 최첨단 모델을 훈련하는 데 Cloud TPU v4를 사용해 왔습니다.

Midjourney의 설립자 겸 CEO인 David Holz는 "Google Cloud와 협력하여 전 세계적으로 확장 가능한 Google의 인프라를 기반으로 크리에이티브 커뮤니티에 원활한 경험을 제공하게 되어 자랑스럽습니다."라고 말합니다. "JAX를 사용하여 최신 v4 TPU에서 알고리즘의 네 번째 버전을 학습하는 것부터 GPU에서 추론을 실행하는 것까지, TPU v4를 통해 사용자가 생생한 아이디어를 실현할 수 있는 속도에 깊은 인상을 받았습니다."라고 말했습니다.

국제 컴퓨터 아키텍처 심포지엄에서 발표될 논문에서 TPU v4 연구에 대한 자세한 내용을 공유하게 되어 자랑스럽게 생각하며, 커뮤니티와 함께 연구 결과에 대해 논의할 수 있기를 기대합니다.

이 글의 작성자는 TPU v4를 성공 사례로 만들어준 많은 Google 엔지니어링 및 제품 팀에 감사드립니다. 또한 이 블로그 게시물에 기여해 주신 Amin Vahdat, Mark Lohmeyer, Maud Texier, James Bradbury, Max Sapozhnikov에게도 감사의 말씀을 전합니다.

1. 20배의 성능 향상은 다음과 같은 조합에서 비롯됩니다: ~온프레미스 데이터센터에 비해 약 2~3배 더 높은 에너지 효율의 TPU, 온프레미스 데이터센터에 비해 약 1.4배 더 낮은 Google 데이터센터의 PUE, 일반적인 온프레미스 데이터센터의 평균 에너지 청정도에 비해 모든 Cloud TPU v4 슈퍼컴퓨터를 보유한 오클라호마의 에너지 청정도가 약 6배 더 높다는 점 등이 복합적으로 작용했습니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari