what will happen next?
인텔 창업자이자 무어의 법칙으로도 유명한 고든 무어 (Gordon Moore) 박사가 2023년 3월 24일 별세했다. (1929-2023). 무어 박사는 칼텍에서 박사 학위 (박사는 화학으로 받음) 취득 후, 커리어 초기에는 쇼클리 연구소 (Shockely Semiconductor Lab)에서 일하다가, 그 유명한 '8인의 배반자 사건 (traitorous eight)' 이후 페어차일드 (Fairchild)로 이직, 다시 1968년에는 로버트 노이스 (Robert Noyce)와 함께 인텔을 창업했다. '무어의 법칙 (Moore's law)'은 그가 페어차일드에서 일하던 시절인 1965년, '트랜지스터 같은 반도체 소자의 집적도는 대략 1년마다 2배씩 증가한다.'라며 향후 10년 간 업계의 장기 전망을 제시했던 인터뷰 기사를 기반으로 유행이 시작된, 일종의 자기실현적 예언에 가깝다. 이 예상이 너무 과했음을 깨달은 무어 박사는 인텔 창업 후 몇 년이 지난 1975년, 이 법칙을 '매 2년마다 대략 2배 증가'라고 수정한다. 이후 무어의 법칙은 대략 '18개월에 대략 2배씩'으로 재수정되었고, 이후 트랜지스터 집적도가 그에 따라 높아졌던 1970년대-2000년대 후반사이 30-40년간의 추이를 대략적으로 나타낸 경험 법칙 (empirical law)으로 여겨졌다. 물론 매 N 년마다 M배 증가라는 것 자체는 N, M과 상관없이 (물론 M이 1보다 크다는 가정 하에..) 정말 놀라울 정도의 법칙인데, 왜냐하면 이는 그야말로 지수함수 (exponential function)이기 때문이다. 지수함수의 무서움은 그것이 제곱의 경향을 따르기 때문이다. 예를 들어 18개월에 2배 증가의 추세는 9년 후 64배, 15년 후 1,024배의 증가로 나타나게 된다. 비유하자면 현재 최고 성능의 슈퍼컴퓨터라도 대략 10년만 지나면 개인용 컴퓨터 정도가 되는 수준인 셈이다. 그러면서 가격은 크게 오르지 않는다. 바로 이것이 scaling law에 기반한 무어의 법칙이 지난 반세기 동안의 현대 문명의 한 축인 IT를 통한 글로벌 경제 성장을 견인해 온 동력이기도 하다.
무어의 법칙은 1965년에 등장한 이후, 약 반 세기 정도, 즉, 2010년 전후까지는 꽤 잘 작동했다. 물론 기술 발전 자체가 무어의 법칙을 따라서 이루어졌다기 보기는 어렵다. 그보다는
1) 시장이 그러한 기술 혁신을 원하고,
2) 기술 발전의 향방이 그러한 scaling law를 따라갈 수밖에 없을 정도로 시장이 확장되었으며,
3) 또 그 혁신이 다시 시장을 혁신하는 식으로
상호 간 양의 피드백 (positive feedbakc)을 주고받으며 성장을 가속해 왔다고 보는 것이 맞을 것이다. 이러한 성장은 1970년대-2000년대 사이, 글로벌 산업이 점점 IT에 의존하는 시스템으로 전환하는데 가장 중요한 기여를 했다. 특히 1980년대 본격 개막된 PC의 시대, 1990년대 개막된 인터넷의 시대, 2000년대 전후로 확장된 모바일 시대, 2010년대 들어 급속도로 성장하는 AI와 메타버스 시대, 2020년대 들어 급속도로 성장하는 생성형 AI와 AGI의 시대라는 각 시대별 변혁의 모멘텀에 공통적으로 필요한 시스템의 밑바탕이 되었다. 각 변혁의 시기에는 각 시기에 맞는 데이터 처리량이 기하급수적으로 늘어나는 것이 관측되는데, 각 시점에서 그러한 데이터 처리 수요 급증을 감당할 수 있게 해 준 바탕이 되기도 했다.
재미있는 것은 무어의 법칙이 창발 된 인텔이나 페어차일드 같은 반도체 회사들은 한 때 무어의 법칙을 주도하다시피 하면서 최첨단 반도체 산업의 리더 역할을 고수하다가 무어의 법칙이 더 이상 통용되지 않게 되는 시점인 2000년대 후반부터 그 위치에서 내려오게 되었다는 것이다. 특히 인텔은 CPU 시장의 절대 강자로서, 반 세기 가까운 지배력이 무어의 법칙이 끝나면서 상실되고 있다는 것은 꽤 흥미로운 부분이다. 이는 CPU만 고집하던 인텔이 모바일 시대의 핵심인 AP로의 변혁, 인공지능 반도체로의 변혁, 파운드리 모델로의 적응 실패 등에 기인하는 것이기도 하지만, 근본적으로는 '종합반도체 비즈니스 모델을 고수하면서 무어의 법칙을 주도하여 시장 전체를 주도할 수 있다'는 일종의 철학과 기술력에 대한 맹신이 스스로의 발목을 잡은 결과물이기도 하다.
무어의 법칙은 2010년 이후, 물리적 패터닝 한계에 봉착하면서 다소 주춤거리기 시작했다. 물리적 한계는 다름 아닌 평면 방향에서의 트랜지스터의 물리적 크기, 즉, 게이트 산화물이나 source, drain 같은 영역의 물리적 크기 축소의 한계를 의미한다. 이 한계는 결국 패터닝에 필요한 노광 공정 (리소그래피)의 기술적, 경제적 한계를 의미한다. 최근 들어 EUV라는 돌파구가 열리긴 했지만, 잘 알려져 있다시피 EUV 장비는 너무 비싸고, 수율이 떨어지며, 무엇보다 웨이퍼 생산 속도를 빠르게 만들기 어렵다. 공정뿐만 아니라 소재의 한계도 생긴다. 집적도를 더 높이려면 이제 훨씬 더 높은 K값을 갖는 절연체, 전자의 이동도가 개선된 반도체, 구동전압이 절반 이하로 내려가야 하는 새로운 아키텍처를 뒷받침할 수 있는 신소재도 필요하다. 이러한 한계를 기술적으로 극복할 수 없는 것은 아니나, 그 극복에 필요한 비용이 그것의 극복을 통해 얻을 수 있는 수익에 비해 줄어들 기미가 안 보인다면 결국 다른 솔루션이 필요하다. 그래서 나온 것이 3차원 적층, 이종접합, 포토닉스 등의 돌파구다. 그렇지만 이러한 돌파구들은 트랜지스터의 물리적 크기 축소라는 방향과는 이제 거리가 멀어진다. 인텔은 자신들이 자신 있어하던 물리적 크기 축소라는 미션에도 실패했으려니와, 그것을 극복하기 위해 다른 회사와의 연구개발 협력에서도 효과를 거두지 못했고, 여전히 종합반도체 모델을 버리지 못해 선택과 집중을 할 수 있는 기회를 놓쳤다.
여전히 scaling law는 IT 기반의 산업 혁신에 있어서는 핵심적인 동력이라는 사실이 바뀌지는 않았지만, 그 속도가 꺾였다는 것은 꽤 중요한 의미를 갖는다. 성장 속도가 꺾인 시점에서 이미 반도체 기술의 발전은 산업의 곳곳에 성숙된 기술로 완전히 자리 잡은 상태가 되었고, 이제는 집적도 자체보다는, AI 반도체 등으로 대표되는 다양한 성능을 최적화한 맞춤형 반도체가 더 중요해지고 있다는 뜻이기도 하다. 인텔의 변화 기회는 이 시점이었지만 인텔은 과거의 모멘텀에서 벗어나지 못했고, 수많은 시행착오를 거듭하면서도 10 나노 이하급의 패터닝 공정 안착에 실패함으로써 시장의 주도권을 AMD, 퀄컴, TSMC, 삼성전자 등에 내어 주고 말았다.
무어의 법칙은 꺾였지만, 그것은 과거의 문법이 박제되기 시작하고 있다는 것을 의미하기도 한다. 하드웨어 구조에서의 변혁과 더불어, 이제는 chip-SW integration의 시대, design-process co-cooptimization의 시대, taylor-made algorith-driven design의 시대가 개막된 것을 의미하는 것이기도 하다. 인텔의 적응 실패 사례는 이 새로운 시대에 혼란을 겪고 있는 다른 반도체 관련 기업들에게는 반면교사이자 아주 두려운 사례이기도 하다. 물론 인텔이 아직 망한 것도 아니고, 인텔의 10 나노 이상급 시장에서의 시장 지배력은 여전히 공고하며, 언제든 10 나노 이하급 시장에서도 인텔은 권토중래할 가능성이 있으므로 앞으로의 상황 변화를 속단하기는 이르다.
흥미로운 것은 이러한 scaling law의 한계, 그리고 그 한계를 다른 방식으로 돌파하는 경향 속에 오히려 scaling law를 이끌어 가는 경향이 인공지능 분야에서 생기고 있다는 것이다. 한 때 인공지능, 특히 기계학습 분야에서는 모델의 복잡도 (즉, 파라미터 개수)를 마냥 늘리는 것이 능사가 아니라는 것은 마치 자연법칙처럼 여겨졌다. 왜냐하면 파라미터 개수를 늘리면 모델의 bias는 줄어들지 몰라도 (비유하자면 탄착군의 중심이 실제 과녁으로 점점 가까이 이동하는 것), 모델의 분산 (variance)는 증가하기 때문이다 (비유하자면 탄착군이 한 곳으로 좁게 모이지 못하고 점점 넓게 퍼지는 것). 이를 'bias-variance trade off'라고 하며, 이 관계는 모델의 복잡도를 '적당하게' 만드는 것이 가장 최적의 학습 모델을 만드는 방식이라는 점을 의미하는 것이기도 했다. 즉, 모델 복잡도의 최적화가 주요 목표가 된 셈이다. 이 개념에 익숙한 사람들은 OpenAI가 추구하는 거대자연어학습모델 (LLM)의 파라미터 개수가 수십 억 단위를 넘어, 수백 억, 수천 억, 심지어 조 단위로 증가하는 경향에 대해 의구심을 표하기도 했다. 잘못된 방향으로 가고 있으며, 분산의 증가로 인해 모델의 예측력은 떨어질 것임에 우려를 표하기도 했다. 그렇지만 LLM의 모델 복잡도 영향은 일반적인 기계학습의 bias-variance trade off 와는 다소 다른 것으로 나타나고 있다. 아니면 혹자가 이야기하는 것처럼 LLM에도 사실 bias-variance trade off 관계가 존재하지만 아직 그 최적점을 찾기 전인 상황일 수도 있다. 이유가 어떻게 되었든, OpenAI는 GPT 3.0, 3.5, 4.0으로 넘어오면서 적어도 LLM 기반의 생성형 AI에서는 the larger, the better임이 증명되고 있고, 이는 현재 전 세계적인 chatGPT 열풍으로 대변되고 있기도 하다.
컴퓨팅 하드웨어 분야에서는 scaling law의 한계가 물리적 원인으로 인해 명확하게 정의되었고, 이를 탈피하기 위해 입체적인 다차원 접근법이 시도되고 있는데 반해, 오히려 scaling law와는 거리가 멀 것 같았던 AI 분야에서는 물리적 한계가 딱히 정해져 있지 않으니, 기존의 상식을 매일 같이 깨어 버릴 정도로 급격한 모델 확장이 추구되고 있다는 것은 대조적이면서도 흥미로운 지점이다. 거대한 scale 증강이 어디까지 허용될 수 있을지 불확실하지만, 적어도 지금의 추세라면 GPT 같은 생성형 AI 알고리듬과 서비스는 더 큰 파라미터 세트를 추구할 가능성이 높다. 왜냐하면 the larger, the better에 대한 믿음이 생겼기 때문이다. 관건은 그것이 가능하게 만들 수 있는 컴퓨팅 하드웨어의 수준과 비용, 그리고 안정성이다.
앞서 언급했듯, 무어의 법칙이 한계에 봉착한 후, 컴퓨팅 하드웨어는 3차원 적층이나 이종접합, 트랜지스터 구조의 변화 등으로 돌파구를 마련해 왔다. 그런데 거대 모델 기반의 AI는 이러한 하드웨어 돌파구보다 훨씬 더 강력한 돌파구를 필요로 하게 될 가능성이 높다. 이미 OpenAI가 최근 선보인 GPT 4.0 수준의 모델에 대해서라면, 컴퓨팅 하드웨어는 가장 앞선 기술 수준의 하드웨어라고 해도 대응하기 어려울 정도다. 예를 들어, GPT 4.0까지 갈 것도 없이 GPT 3.0 만해도 벅차다. 간단한 계산을 위해 1,000억 개 정도의 파라미터 (참고로 GPT 3.0은 파라미터 1,750억 개로 구성된다고 알려져 있다.))로 구성된 거대 자연어처리 모델을 생각해 보자. 이 모델은 각 파라미터에 대해 추론, 가중치 비교, 최적화 분산 (variance)과 모멘텀 (momentum)이라는 4개의 파라미터가 각각 필요하므로, 적어도 4,000억 개에 달하는 파라미터가 필요하다. 한 파라미터 당 계산 정밀도가 특정 수준 이하로 저하되지 않기 위해 4 Byte의 용량을 배분한다면, 필요한 용량은 1,600 GB (=1.6 TB)이다. 텐서 형태로 입력될 데이터의 연산을 담당하는 GPU는 데이터의 입출력을 담당할 HBM (고대역폭)-PIM (processor-in-memory) 같은 고성능 메모리칩을 파트너로 삼아야 한다. 만약 GPU 1개 당 장착된 HBM의 용량이 40 GB라면, 1,600 GB의 용량을 커버하기 위해 이론적으로 GPU는 최소 40장이 필요하다. 참고로 엔비디아의 GPU 서버인 A100에 들어가는 SK하이닉스의 최신 HBM인 HBM3는 GPU 1장 당 80 GB의 용량을 가지고 있는데, 이 경우 GPU는 20장이 필요한 셈이다.
이렇듯 HBM은 용량보다는 대역폭에 특화된 구조의 메모리이기 때문에, 파라미터 개수가 계속 지수함수적으로 증가하게 될 자연어처리 기반의 딥러닝 알고리즘에 대해서는 선형적으로 용량이 증가될 HBM은 구조적인 한계를 가질 수밖에 없다. 예를 들어 GPT 4.0은 자연어처리 기본 파라미터 개수가 최대 100조 개에 달할 것으로 예상되는데, 이 경우 총 400조 개의 파라미터가 필요하고, 따라서 1,600 TB의 용량이 필요하다. 이를 위해 40 GB의 용량을 갖춘 HBM이 장착된 GPU는 무려 40,000장이 필요하다. 이러한 초대형 GPU 서버가 구성될 수 있을지 여부는 차지하고서라도, 구성된 서버의 전력 소모량과 각 GPU 사이의 데이터 입출력 자체가 병목현상을 일으켜 원래의 계산 성능이 나오지 않을 가능성이 현실화될 수 있다.
위에서 살펴보았듯, 컴퓨팅 하드웨어의 비용, 연산 성능 한계 (즉, 연산 소요 시간), 연산에 필요한 에너지 (즉, 단위 작업량 당 전력 소모), 연결 속도의 병목 현상은 거대모델 기반의 AI의 scaling law를 가로막는 원인이 될 가능성이 높다. GPT 5.0으로 갈 때 지금의 추세로는 무려 10경, GPT 6.0이라면 무려 1해개의 파라미터를 필요로할 수 있는데, 과장된 추산이지만 6.0 정도가 되면 지구 전체의 전력이 동원되어도 이 하드웨어의 가동에는 턱없이 부족할 수 있다. 즉, 무어의 법칙이 공정과 소재의 물리적 한계로 인해 꺾였다면, AI의 scaling law는 하드웨어 자체의 한계로 인해 꺾이게 되는 셈이다. 새로운 개념의 scaling law가 컴퓨팅 하드웨어 분야에서 언제쯤 나올지 두고 볼 일이지만, 현재의 방식으로는 명확한 한계가 있으며, 그 한계를 돌파하는 것은 지금까지의 방식과는 완전히 다른 방식, 예를 들어 아예 전자 기반의 신호 처리 개념을 탈피하는 방식 등으로 변모할지도 모른다. 원래 disruptive tech이라는 것은 변방에 있다가 별로 주목받지 못하던 상황에서, 훨씬 저렴한, 그러나 아예 다른 개념으로 접근하여 예상치 못 한 방식으로 문제를 해결하는 것에서 출발하므로, 그것이 수면 위로 나오기 전까지는 어떤 것이 혁신의 맹아가 될지 확정하는 것은 어렵다.
1세기 가까운 인생을 살면서 진공관에서 트랜지스터, 집적회로에서 FET, FINET에서 GAAFET까지의 모든 진화를 관찰해 왔던 무어 박사가 눈을 감는 그 순간까지, 지금의 scaling law 경쟁을 어떻게 생각하셨을지 궁금하다. 경험법칙에 불과한 scaling law가 마치 자연법칙처럼 오랜 세월 작동해 왔다는 관찰을 해왔던 그는 인공지능 분야에 대해서도 그럴 것이라, 그렇게 될 것이라 생각하고 있었을까? 컴퓨팅 하드웨어의 retarded scaling law가 인공지능 scaling law의 장애물이 될 것이기 때문에 새로운 hardware를 꿈꾸고 있었을까?
무어 박사가 눈을 감음으로써 무어의 법칙 시대는 종말을 고했다. Moore's law 1.0은 이미 서비스 업데이트가 안 되고 있었지만 이제야 비로소 전원을 내린 것 같은 느낌이다. 아마 조만간 현재의 인공지능 전용 가속기이자 컴퓨팅 하드웨어의 기술을 리딩하고 있는 엔비디아에서 무어의 법칙 ver 2.0을 내놓을지도 모르겠다는 생각이 든다. ver 2.0의 무어의 법칙은 하드웨어와 AI 양쪽을 모두 고려하는 새로운 개념의 scaling law로 나올 텐데, ver 1.0 무어의 법칙처럼 정말 10년을 넘어, 반 세기 가까이 그것이 오랜 기간 지속될지도 궁금해진다. 5년 후, 10년 후, 우리는 어떤 컴퓨터와 어떤 AI와 어떤 scaling exponent 속에서 정보의 홍수를 파도로 바꾸어 올라타고 있을까? 여전히 scaling law는 경험법칙이자 마치 자연법칙처럼 작동하고 있을까? 멱함수는 박물관으로 가고 다른 법칙이 등장했을까? 과연 그 새로운 법칙은 무어의 법칙 1.0이 그랬던 것처럼 앞으로의 인간 문명 발전의 동력이 되고 있는 중일까?
무어 박사가 불과 36세에 불과하던 1965년, 그는 10년 간의 업계 전망을 하면서도 스스로 반신반의했지만, 결국 한 번 정해진 모멘텀은 쉽게 바꾸지 못 했다. 제창은 그가 했지만 세상은 그것을 기다리기라도 한듯 놀라울 정도로 그 법칙에는 생명력이 붙었다. 무어의 법칙 2.0의 생명력은 결국 그것이 주창하는 세상에 대한 자기실현능력이 현재 있느냐로 결정될 것이다. 그 자기실현능력은 the larger, the better의 현재 방향성과 the larger, the harder 라는 현재의 한계 사이의 경쟁 속에서 결정될 것이다.