brunch

You can make anything
by writing

C.S.Lewis

by 서진호 Apr 11. 2021

실리콘 밸리 기업들이 자체 칩을 설계하는 까닭은?

브런치북 제 7 편

2020년 들어서면서 실리콘 밸리 기업들의 주목할 부분이 바로 OEM 주문 제작에서 자체 칩 설계 제작 방식으로 바뀌었다. 이것은 기존의 하드웨어 제조 업체뿐만 아니라 소프트웨어 업체들도 가세하여 기존의 틀을 깨는 파괴적인 혁신을 주도하고 있다.


먼저 머신러닝에 특화된 구글이 TPU 칩을 설계하여 이미 구글 클라우드에서 서비스를 하고 있다. 이와 더불어 애플이 마침내 M1 칩이라고 부른 ARM용 기반의 자체 칩을 넣어 맥미니와 13인치 맥북 에어를 올해 출시하여 사용자들로부터 성능면에서 좋은 평가를 받고 있다.


아닐까 다를까 아마존 웹 서비스(AWS)도 리인벤트(ReInvent) 2020 버추얼 행사에서 머신러닝에 특화된 프로세서인 AWS 트레이니엄(Trainium)을 들고 나왔다. 그렇다면 이와 같이 왜 실리콘 밸리 기업들이 자체 칩을 설계하는 것일까?


새 EC2 인스턴스와 결합한 AWS 트레이니엄


첫째, 클라우드 EC2 서비스 내에 머신러닝 훈련용 서비스 강화를 위해 AWS는 자체 칩을 설계한 이유를 들었다. AWS 리인벤트 2020 기조연설에서 앤디 제시 CEO는 새로운 자체 칩 AWS 트레니엄을 공개하면서 머신 러닝 학습 시 가격 대비 성능을 계속 높여 고객들에게 좀 더 양질의 서비스를 하기 위해 자체 칩을 개발 투자한다는 말을 꺼내었다.


[그림1 – 앤디 제시 CEO의 AWS 트레이니엄 발표 (출처: AWS ReInvent)]


더욱이 AWS 트레이니엄이 클라우드 서비스의 머신 러닝 인스턴스 중 가장 많은 테라 플롭스(TFLOPS)  제공할 것이라고 주장했다. 참고로 플롭스(FLOPS)란 컴퓨터가 1초 동안 처리하는 부동소수점 연산의 횟수를 말하는 데, 슈퍼 컴퓨터에서는 테라 플롭스(TFLOPS, 1 * 10의 12승)가 주로 단위로 사용된다.


이 칩은 무엇보다도 범용 그래픽 처리 장치(GPU) 대비 최대 40% 저렴하게 제공할 수 있도록 새 EC2 인스턴스와 결합하여 2021년 하반기 때 AWS 관리형 머신러닝 개발 플랫폼인 세이지메이커 최신 버전도 함께 수록한다는 점이 다른 클라우드 서비스와 차별화된다.


이 서비스 안에 구글의 텐서플로우, 페이스북의 파이토치(PyTorch), MxNet 등 비롯하여 개발자들에게 인기 있는 프레임워크들을 포함한다. 또한 머신 러닝의 예측 추론을 위한 기존의 클라우드 호스팅 머신러닝 칩인 인퍼런티아(Inferentia)에서 사용했던 그대로 뉴런(Neuron) SDK를 사용할 수 있도록 지원할 계획이다. [그림2]는 EC2 A1 인스턴스 제품군을 구동하는 64 비트 Arm을 갖춘 범용 AWS 개발 서버 프로세서인 AWS 그래비톤 칩이다. 


[그림2 – AWS 그래비톤 칩 (출처: AWS )]


인공지능 모델 학습 가속화를 위한 구글 클라우드 TPU


한편, AWS 보다 구글은 이보다 앞서 벌써 TPU 제4세대에 진입했다. 데이터 과학자나 머신러닝 엔지니어들은 인공지능 모델을 학습시킬 때 GPU가 있고 없고 커다란 성능 차이가 있다는 경험을 가지고 있다. 그러한 성능 차이를 더 빠르게 모델을 학습시키기 위해 특화한 텐서 처리 가속화하기 위한 것이 두 번째 이유이다.


바로 이러한 목적 때문에 TPU가 탄생했는 데,  2016년 구글 I/O 때 텐서 프로세싱 유닛(TPU, Tensor Processing Unit)을 첫 발표 이전부터 이미 1년 이상 구글 데이터 센터 내에서 사용하고 있었다. TPU 칩의 내부적으로 살펴보면, 1세대 TPU는 PCle 3.0 버스를 통해 호스트 프로세서의 CISC 명령에 의해 구동되는 8비트 매트릭스 곱셈을 하는 엔진 또는 컨볼루션 활성화 처리를 하는 데 목적이었다.


[그림3 – TPU 3.0 칩  (출처: 구글 클라우드 )]


이러한 TPU는 이미 2016년 세계 바둑 인공지능 제전이었던 이세돌과 게임을 했던 알파 제로 시스템인 고(Go)부터 시작하여 구글 스트리트 뷰에서 텍스트 검색 처리를 사용했고, 구글 서치의 랭크 브레인 핵심 엔진과, 1억 장 이상의 사진들을 구글 포토에서 처리할 수 있는 것 까지 성능을 가속화시켰다.


2020년 4세대 TPU를 공개하면서 구글은 MLPerf 벤치마크에서 8개 모델들 중에 6개에서 우수한 성능을 기록을 통하여 세계에서 가장 빠른 인공지능 훈련용 머신으로 그 성능 기록을 주장했다. 좀 더 상세히 들여다보면, 최소 8개부터 최대 4, 096개의 TPU 칩 내에서 시스템 크기에 관계없이 전체 학습을 정규화시켰다. 또한 모델 구현은 텐서 플로와 JAX 및 Lingvo 로서 결과를 달성했고, 4개는 처음 30초 이내에 훈련을 하기 시작했다.


이것은 2015년의 제1 세대 TPU와 비교하면, 제1세대는 3주 이상 걸리는 데, 제4 세대에서는 거의 5배 더 빠르게 훈련을 시킬 수 있다. 4세대 TPU 칩 기반의 슈퍼 컴퓨터는 4, 096개의 3세대 TPU들과 수백 개의 CPU 호스트 머신들이 포함되어 있는 슈퍼 컴퓨터가 한 것보다  4배 더 성능이 향상했고, 430 페타 플롭(PFLOPS) 이상의 최고 성능을 기록했다.


성공한 아이폰 모바일 생태계를 맥으로 이식하는 애플

 

셋째, 애플은 아이폰으로 성공한 모바일 생태계를 맥으로 확장하여 이식하기 위해 자체 칩을 내놓겠다고 2020년 WWDC 행사 발표에서 선언했다. 놀라운 점은 ‘애플 실리콘’이라는 별칭으로 그 당시 불렀는데, 인텔 CPU 기반 아키텍처에서 ARM 기반 아키텍처로 패러다임 이동을 하겠다는 것이었다.


이제 정식 명칭으로 M1칩으로 불리고 있는 이 애플 실리콘은 첫 작품으로 13인치 새 맥북 에어와 맥 미니를 내놓아 최근에 수많은 유투버와 미디어에서 좋은 호평을 받고 있다. 80년대 과거로 돌아가 생각해 보면, 메인프레임 이후 다운사이징이 일어나 개인 사무실과 집에 퍼스널 컴퓨터(PC)의 눈부신 발전은 인텔 칩 기반의 PC에 마이크로소프트 윈도우 운영체제를 탑재한 ‘윈텔’이라는 동맹을 약 30년간 지탱했다.


그로 말미암아 애플은 그러한 굳건한 윈텔 동맹 카르텔을 깨기 위해 애플과 IBM, 모토로라와 연합 전선을 형성하고 첫 ARM 기반의 파워 PC를 1990년 초에 내놓았지만 시장에 철저히 실패하고 말았다. 그로부터 20년 후 계속 잡스의 도전 정신을 계승하여 애플은 향후 3년 동안 애플 워치부터 아이폰, 아이패드, 애플 TV, 맥미니와 맥북 등 전체 라인을 모두 ARM 기반의 자체 칩으로 내놓겠다는 전략적인 실행은 급물살처럼 타고 있다.


또 하나의 장점으로 꼽히는 것은 기존의 아이폰이나 아이패드 앱들은 그대로 사용하면서, 로제타 2를 통한 인텔 기반의 게임이나 앱들은 성능의 끊김 없이 호환하여 그대로 사용할 수 있다는 점이다. 이것은 앱으로 부족한 맥의 생태계를 아이폰 생태계로 이식하여 모바일에서 PC로 접목하는 두 마리의 토끼들을 동시에 잡는다는 전략이다. 물론 100% 아직 인텔용 앱들과 호환성이 이루어지지 않는 개발 도구들이 있지만, 많은 독립 소프트웨어 벤더들이 애플의 M1 칩으로 포팅하기 위해 노력하고 있다. 마이크로소프트 오피스와 어도비 포토샵, 월드 오브 크래프트 같은 앱과 게임 경우는 이미 M1 전용 새 베타 버전을 출시했다.


이렇게 M1 칩은 단순히 인텔 CPU에서 ARM용 CPU만 교체해서 나온 것은 아니다. CPU와 GPU 심지어 메모리와 I/O 컨트롤러를 한 곳에 묶어 하나의 시스템 온 칩(SoC)으로 범용 코어 대신 파이프라인과 같은 특정한 작업들에 유리하도록 칩들을 통합시켰다.


[그림4 – 애플 M1 칩 아키텍처 (출처: 애플)]


예를 들어, CPU는 운영체제와 앱들의 멀티 태스킹과 같은 작업을 위해, GPU는 그래픽 작업을 수행하는 데, 앱의 사용자 인터페이스와 2D/3D 게임 실행에서 가속화 작업을, ISP는 이미지 프로세싱 속도를 증가시키고, CPU보다 더 수학적 연산 처리를 하거나 음악 파일과 같은 압축 파일 등 보안 상의 암호화 및 복호화 같은 경우에는 DSP가 처리한다.  


이러한 노력은 사실 애플만 한 것은 아니다. AMD와 인텔도 CPU/GPU부터 단일 메모리 및 IO 컨트롤러, 매스 코프로세서까지 통합시키려고 했지만 그들의 기존 생태계 접근이 발목을 잡았다. 두 업체 모두 프로세서를 납품하여 최종 컴퓨터는 AMD와 인텔이 아닌 삼성, LG, HP, 델, 레노버 등과 같은 제조 업체에서 만들기 때문이다.


그러한 점에서 볼 때 애플은 독특한 생태계를 가지고 있다. 하드웨어에 대하여 칩부터 모든 컴포넌트들을 호환 가능한 독자적으로 개발할 수 있는 능력을 보유하고 있기 때문이다. 또한 한 IBM 임원이 애플 M1칩이 개발로 라이선스 비용을 올 한 해 동안 2.5억 달러(국내는 약 2조 7,115억 원) 비용을 절약시킬 수 있다는 관점으로 볼 때 실리콘 밸리 기업들의 OEM 라이선스 비용도 고려하지 하지 없음을 시사한다.


애플과 반대로 마이크로소프트는 PC에서 모바일로 이동하는 전략으로 서피스를 통해 한 차례 ‘서피스 RT’ 이름으로 ARM 기반의 PC를 내놓았지만 앱 생태계가 부족하여 역시 시장으로부터 외면받았다. 그러나 여전히 하드웨어 제조 기업들은 컴퓨팅 성능을 빠르게 향상하고 저전력으로 효율적인 배터리 관리로 어떻게 컴퓨터를 오래 지속으로 사용할 수 있는가를 관점에서 볼 때 특정한 프로세서에 가리지 않고 이러한 도전들을 끊임없이 시도할 것이다.

 

끝으로


멀리에서 내다본다면, 지금 실리콘 밸리에서 칩들의 아키텍처는 CISC에서 RISC 중심으로 컴퓨팅 패러다임이 송두리째 바뀌고 있다. 그렇기 때문에 NVIDIA는 ARM을 소프트뱅크로부터 400억 달러(국내 약 47조 원) 금액으로 합병시켰다. GPU 제조 업체에서 CUDA 생태계로 게임을 넘어 클라우드 데이터 센터와 자율주행 분야까지 급성장하고 있는 데 ARM은 NVIDIA의 시스템 온 칩을 결정하는 데 중심이 되기 때문이다.


엔터프라이즈 분야에서 클라우드 머신러닝 서비스의 두 라이벌인 AWS와 구글 클라우드 모두 자사의 고객들에게 좀 더 성능이 향상된 인공지능 학습 훈련에 도와 예측 모델의 정확도를 돕기 위해서 뿐만 아니라 클라우드 기반의 인공지능 서비스의 기술 부채를 탕감하여 클라우드 서비스의 브랜드 입지력을 강화하기 자체 칩을 직접 개발하고 서비스하는 것은 이제 거를 수 없는 흐름이 되었다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari