도메인 지식이 만들어 낼 새로운 블루오션
수율, AI 반도체, NPU, 칩렛 사이 그 어딘가쯤.
제가 늘 존경하는 Naver의 Dongsoo Lee 이사님의 글들을 읽으며 항상 많이 배웁니다. 최근에 쓰신 글들을 읽고 또 그간 제가 생각했던 내용도 정리할 겸, 그리고 최근에 삼프로 압권에 나가서 시간 관계상 조금밖에 이야기하지 못한 것도 더 해설할 겸, 짤막한 글을 써봅니다.
반도체 산업, 특히 제조업에서 수율이 중요하다는 것은 이미 잘 알려진 사실입니다. 그리고 제조업체들의 양산 기술력을 논할 때도 빠지지 않고 이 수율은 대표적인 figure of merit으로 자주 언급되곤 합니다. 그렇지만 이 수율의 계산은 단순히 웨이퍼에서 몇 개의 다이가 살아남았으냐, 몇 개를 건질 수 있느냐의 숫자로만 귀결되는 것은 아닙니다.
반도체 제조 공정은 잘 알려져 있다시피 웨이퍼 위에 트랜지스터 회로가 새겨진 전공정과 그것을 다이싱 하고 패키징 하는 후공정으로 나뉩니다. 요즘에는 전공정과 후공정의 명확한 경계선은 점점 희미해지고 있습니다만, 여전히 전공정에서 얼마나 정확하게 설계대로 트랜지스터가 집적된 다이들이 잘 만들어졌는지는 수율을 결정하는 데 있어서 매우 중요합니다. 일단 전공정이 모두 끝난 웨이퍼에 대해 테스트를 통과한 비율을 의미한 1차적인 수율을 웨이퍼 테스트 수율Wafer test yield이라고 합니다. 테스트를 통과한 웨이퍼는 패키징 공정을 거쳐 기판과 연결되는데, 이 상태에서 다시 테스트를 하고 살아남는 비율을 패키징 테스트 수율Packaging test yield이라고 합니다. 마지막으로 패키징 테스트까지 통과한 웨이퍼를 가공하여 실제로 고객사에 납품할 칩으로 만드는 과정에서도 수율을 논할 수 있겠죠. 이를 모듈 테스트 수율Module test yield이라고 부릅니다. 실제 수율은 위의 세 과정에서 살아남는 비율을 모두 곱한 값으로 계산됩니다. 예를 들어 웨이퍼 테스트 수율이 90%, 패키징 테스트 수율이 95%, 모듈 테스트 수율이 98% 일 경우, 실제 수율은 0.90*0.95*0.98 = 83.8%가 되는 것입니다. 반도체 업계에서는 주로 이 전체 수율을 잘 이야기하지는 않고, 전공정에 해당하는 웨이퍼 테스트 수율을 이야기합니다. 따라서 수율이 보통 '90% 다'라고 이야기하는 것은 주로 웨이퍼 테스트 수율이 90% 임을 의미합니다.
이 전공정 웨이퍼 테스트 수율을 결정하는 것은 크게 두 가지 정도로 볼 수 있습니다. 첫 번째로 설계대로 얼마나 제대로 물리적으로 패턴이 구현되었느냐와 두 번째로 웨이퍼 상에 원하지 않는 오류 요소가 얼마나 많이 끼어들었느냐입니다. 설계대로 잘 만들어진 웨이퍼에 작은 먼지라도 끼어들면 그 먼지가 내려앉은 영역을 포함한 다이는 오작동할 확률이 높고, 따라서 수율을 떨어뜨리는 주범이 될 수 있습니다. 그러면 어떤 요소가 더 중요할까요? 사실 둘 다 중요합니다. 그리고 두 요소는 따로 분리가 명확하게 된다고 단언하기도 어렵습니다.
예를 들어, DRAM 공정을 생각해 보겠습니다. 1a, 1b 공정 등으로 물리적 크기 (HP) 14 nm 내외의 패턴을 만드는 공정을 생각해 봅시다. 일단 1a, 1b 공정 등은 이전 세대인 1y, 1z에 비해 회로의 물리적 크기가 줄어들었을뿐더러, 회로 간의 간격도 좁아져서 패턴을 만들기도 어렵고, 패턴을 만든다고 해도, 그 내부를 채울 유전물질의 uniformity (물성과 morphology)가 보장되지 않으면 제대로 작동하지 않을 가능성이 높아집니다. 사실 그래서 구현하기 어려운 공정으로 진행될수록 설계하는 파트에서는 이러한 회로 오작동 확률을 감안하여 (예를 들어 Poisson 분포 등을 가정합니다.), 일종의 설계 마진을 둡니다. 예를 들어 100 nm 선폭에서는 5 nm 정도의 오차는 허용 가능하다고 볼 수 있을 것입니다. 그렇지만 선폭이 12 nm 정도 되는 공정에서 5 nm 정도의 오차는 매우 위험할 수 있습니다. 예를 들어, 선폭이 12 nm 가 아니라 7 nm가 될 수 있다는 뜻인데, 이럴 경우 거의 원래 달성해야 할 선폭의 절반가까이 줄어들게 되므로 current density가 급격하게 국부적으로 올라갈 수 있습니다. 당장의 작동에는 오류가 없더라도, 반복적인 스위칭 온/오프에 의해 결국 단락 (short)가 날 가능성이 높아진다는 뜻입니다. 이는 소자의 수명을 단축시키는 주요인이 될 수 있습니다.
이전 세대의 허용 오차를 감안한 설계팀이 공정팀에게 설계를 맡기면 공정팀은 기존에 최적화된 파라미터 세트로 공정을 진행합니다. 그런데 겉보기로는 잘 패터닝된 것 같은 기판이 알고 보니 아슬아슬한 상황이라면 결국 소비자에게 칩이 공급되었을 때 보장된 기간이 되기도 전에 오작동을 일으킬 데드셀이 나올 가능성이 커집니다. 회사가 나중에라도 이러한 문제를 발견하면 설계부터 다시 뒤집어 봅니다. 설계는 공정의 어려움을 다 이해하기 어려우므로 그냥 공차를 5 nm에서 1-2 nm로 줄여버릴 것입니다. 그렇지만 막상 그 요구조건을 받아 든 공정팀에서는 간신히 5 nm 정도로 오차를 맞춰온 모든 것을 뒤엎고 1-2 nm 오차가 나올 때까지 공정을 그야말로 24시간 내내 쥐어짜야 합니다. 그러나 그렇게 애를 써도 문제가 안 잡히면 precision이 대폭 개선된 최점단 초고가 장비를 새로 들여오는 수밖에 없습니다. 공정이 바뀔 때마다 이렇게 초고가 장비를 계속 사야 하는 것은 아니지만, 결국 공정에는 세대라는 것이 있게 마련이고, 그래서 반도체 제조업은 대표적인 high CAPEX 산업이기도 합니다.
허용 오차가 여유가 있을 때에는 설계-공정 사이의 간극이 그리 크지 않습니다. 그리고 성과를 공유할 수 있다는 팀워크도 생길 것입니다. 그렇지만 허용 오차에 여유가 줄어들고, 제품 생산에 문제가 생기면 이번에는 잘못의 원인이 누구에게 있느냐의 다툼이 생겨 팀워크는 깨지게 됩니다. 그런데 사실 이 일을 따지고 본다면 누구의 잘못도 아닙니다. 잘못이 굳이 있다면 그것은 현재의 최적화된 설계-공정 흐름이 천년만년 지속될 수 없는 고유한 scaling 구조에 있습니다. 이는 무어의 법칙으로도 잘 알려진 것이지만, 무어의 법칙이 2010년대 들어 정체되는 상황 속에서도 이러한 scaling의 압박은 모든 반도체 제조사를 옥죄게 마련입니다. 물리적 선폭을 줄일 수 없더라도, 간극을 줄이거나, 소재를 바꾸거나, 3차원으로 쌓거나 하는 방식으로 어떻게든 설계 스펙을 맞추려 하기 때문입니다.
설계 스펙이 빡세 질수록 공정은 점점 comfort 존을 벗어나는 시도를 많이 해야 합니다. 수천번의 최적화를 거쳐 겨우 안정된 설계를 갑자기 공정을 고려하여 바꾸라고 하기는 어려우므로, 공정에서 이것저것 시도를 하지 않을 수 없습니다. 예를 들어 DUV lithography도 그렇습니다. 물리적 선폭을 DUV로 18 nm까지 만들었다고 하더라도, 이것을 단 4 nm 더 줄이는 것에는 마스크가 훨씬 더 많이 필요합니다. 그리고 단위 공정 (LE)도 더 많이 반복해야 합니다. 초미세 공정을 진입하면서 T사나 S사, I사 모두 공통적으로 직면한 문제 중 하나는, 결국 이 LE 단위 공정을 얼마나 더 많이 반복할 수 있느냐에 대한 것이었습니다. LE를 반복한다는 것은 더 많은 마스크를 교체하고, 진공-상압 사이클을 더 많이 반복하고, 웨이퍼가 진공 챔버 내에 들락거리는 횟수가 많아진다는 것을 의미합니다. 또한 얼라이너를 더 많이 써야 하고, 클리닝도 더 많이 해야 하고, 어쨌든 샘플링을 거쳐서라도 인스펙션을 더 많이 해야 함을 의미합니다. 이러한 단위 공정이 늘어날수록 웨이퍼는 원치 않은 결함에 노출될 가능성이 높아집니다. 그 대표적인 결함이 입자 결함 (particle defect)입니다.
particle defect은 반도체 제조업에서 가장 싫어하고 또 잡기 어려운 결함입니다. 예를 들어 그 particle의 사이즈가 100 nm 이하라면 일반적인 광학 현미경으로 검출하는 것은 불가능하고, SEM 같은 전자현미경을 써야 합니다. 그렇지만 기본적으로 SEM은 전자빔을 이용하는 진공 장비이기 때문에 샘플에 전자빔에 의한 damage가 생길 수 있고, 진공 장비 들락거리는 시간으로 인한 delay가 추가적으로 발생할 수 있습니다. 무엇보다도 흑백 이미지이기 때문에, 입자의 크기와 형상 밖에는 못 봅니다. 입자 결함이 잡기 어려운 또 다른 이유는, 그 입자가 어디에서 발생하였는지 원인을 잡는 것이 매우 까다롭기 때문입니다. 진공 챔버 내에 붙어 있던 불순물에서 나왔을 수도 있고, 플라스마 에칭하다가 생긴 부산물일 수도 있고, 웨이퍼 세정 과정에서 섞인 불순물일 수도 있고, 공정 엔지니어의 땀방울이나 피부 세포일 수도 있습니다. 웨이퍼 표면 위에 새겨야 하는 회로의 정밀도가 높아질수록, 평상시에는 별 문제없었던 입자 결함도 문제가 될 수 있습니다. 예를 들어 5 nm 크기의 나노입자 같은 입자는 선폭이 100 nm짜리인 회로에서는 큰 영향이 없겠으나, 선폭이 15 nm인 회로에서는 매우 큰 위험 요소가 될 수 있습니다. 요즘엔 class 1도 모자라서 class 0.1까지도 진공도와 오염도를 낮추는 팹들이 생기고 있지만, class 0.1을 유지한다고 해도 이를 근본적으로 막는 것은 어렵습니다.
사실 설계에서도 패터닝 공차 허용 오차 외에도 이러한 의외의 입자 결함에 의한 오류에 대해 어느 정도 버퍼를 줍니다. 그런데 앞서 언급하였던 것처럼, 물리적 크기가 작아지면 이러한 설계 버퍼에서 고려하지 않았던 미세한 입자들의 영향도 같이 증가합니다. 더 심각한 문제는 미세한 입자들은 크기가 작아질수록 더 많아지는 경향이 있다는 것입니다. 보이지 않는 적이 갑자기 10배로 늘어난 느낌이라고 제가 아는 공정 엔지니어가 이야기한 적이 있는데, 그 느낌 그대로일 것입니다. 그렇지만 설계팀에서는 이러한 작은 미세 입자들까지 설계 허용 범위에 넣게 되면 정작 다이에서 차지하는 트랜지스터의 면적이 너무 좁아져 버립니다. 마치 자동차 사이즈는 그대로 두고, 범퍼 크기만 키우면 내부 공간이 좁아질 수밖에 없는 것과 마찬가지인 이치입니다. 설계팀은 달성해야 할 트랜지스터 집적도가 있고, 다이 면적이 정해지면 설계 공차와 입자 결함 허용 밀도도 자동으로 정해집니다. 이 과정에서 타협할 수 있는 여지는 거의 없고, 그래서 입자 결함에 대한 해결 역시 결국 설계팀의 손을 떠나 공정 팀으로 오게 됩니다. 공정팀은 이 입자 결함을 잡느라 1년 365일 24시간 일한다고 해도 과언이 아닙니다.
그런데 이 입자 결함은 점점 설계 공차보다 더 중요한 임팩트를 만들어내고 있습니다. 그 이유는 각박해진 설계 공차에 대응하기 위해 더 새로운 공정과 비싼 장비로 옮겨간 이후 한 번도 본 적이 없던 이상한 입자 결함들이 생기고 있기 때문입니다. 특히 입자 결함은 단순히 단위 면적 당 몇 개의 입자 결함이 있느냐를 넘어, 그 분포 형태가 어떻게 되느냐가 중요한데, 그 분포 형태가 이제 점점 예측하기 어려운 형태로 바뀌고 있다는 것이 문제가 됩니다.
최근에 은퇴한 전 인텔 CEO 팻 겔싱어는 인텔 18A 공정의 수율이 낮다는 일부 미디어의 지적에 대해, 수율을 어떻게 계산하는지도 모른다며 불만을 토로한 적이 있습니다. 사실 겔싱어의 지적이 맞습니다. 같은 입자 결함 밀도라고 하더라도 웨이퍼 수율은 크게 달라질 수 있기 때문입니다. 특히 앞서 언급한 것처럼, 동일한 입자 결함, 동일한 측정 방식이라고 해도, 입자 결함 분포 함수에 따라 수율은 또 달라질 수 있습니다. 과거에 허용 오차가 어느 정도 여유가 있었을 때에는 이러한 분포 형식이나 확률 함수의 영향은 별로 크지 않았습니다. 그래서 누가 측정해도 비슷한 수치가 나왔던 것이죠. 그런데 10 나노 이하 공정이 대세가 되고, DRAM 공정에서도 이제 1b, 1c 시대가 열리면서 이 문제는 매우 중요한 문제가 되고 있습니다.
예를 들어 보겠습니다. 12인치 웨이퍼를 기준으로, 현재 엔비디아의 A100, H100에 들어가는 GPU 다이 사이즈는 대략 855-860 mm^2 쯤 됩니다. 이러면 총 64개의 다이가 나올 수 있습니다. 만약 입자 결함 고려하지 않고, 초기 테스트 수율이 95%라고 가정해 봅시다. 그렇다면 일단 64개 중, 대략 61개가 살아남았을 것입니다. 이제 여기에 원인 불명의 입자 결함이 있다고 가정해 봅시다. 그 결함을 세계 최고 품질 수준의 입자 결함 밀도에 해당하는 0.02개/cm^2 정도로 생각해 봅시다. 그리고 입자가 위치한 영역을 포함한 다이는 죽는다고 가정해 봅시다. 그러면 61개 중 몇 개나 살아남을까요?
사실 이는 한 번에 답하기 어려운 문제입니다. (특히 국내외 반도체 대기업 취업 준비생들은 이제부터 진짜 잘 봐주시기 바랍니다.) 누군가 이를 한 번에 정리하여 대답할 자신이 있다고 말하는 사람이 있으면 의심하시기 바랍니다. 왜냐하면 같은 입자 결함 밀도라고 해도 수율은 천지차이가 되기 때문입니다. 보통 랜덤한 원인에 의해 입자 결함이 생겼다고 가정할 때 자주 활용되는 확률분포는 포아송 분포 (Poisson distribution)입니다. 이 결함의 분포를 따라 수율을 계산하면 Y = exp(-AD*D)로 모사할 수 있는데, 여기서 AD는 입자 결함 밀도, D는 다이 면적입니다. 위에 언급한 숫자들을 대입하면 수율은 84.2% 정도 나옵니다. 그러니까 실제 수율은 0.95*0.842 = 0.7999 인 것입니다. 따라서 64개 중, 건질 수 있는 다이는 51개 정도 되는 것입니다. 그런데 앞서 언급한 Poisson 분포는 입자 발생 원인이 랜덤이라는 가정 하에서 활용한 것입니다. 입자 발생이 구조적인 원인 때문이라면, 예를 들어 특정 공정에서 활용한 특정 공정 장비에서 비롯되는 것이라면, 분포는 이제 랜덤이 아니게 됩니다. 예를 들어 박막 공정이라면 포아송 분포보다는, 로이드 함수에 따른 초균일 분포 (hyperuniform distribution)이 될 수 있습니다. 이 경우, 수율은 더 낮게 계산됩니다. 마치 곰팡이가 떡의 아주 일부 영역에만 모여 있으면 그쪽 부분을 뭉탱이로 잘라서 버리면 나머지는 어쨌든 건져볼 수 있지만, 골고루 분포하고 있으면 전체를 버리게 되는 것과 비슷합니다. 어쨌든 이 분포를 따르면 수율은 81%까지 떨어집니다. 머피의 모형이나, seeds 모형, Moore's model 등도 여러 구조적 원인을 감안한 입자 결함 분포를 감안한 함수들입니다. 예를 들어 Seeds 분포를 가정하면 수율은 85.4% 정도 됩니다.
한 가지 흥미로운 사실은 단위 면적 당 입자 결함 밀도가 충분히 작을 경우에는 랜덤이든 구조적 원인이든 입자 결함으로 인한 수율에는 큰 차이가 안 난다는 것입니다. 그렇지만 입자 결함 밀도가 확 높아져 버리면 극단적인 차이들이 생기기 시작합니다. 예를 들어 0.02에서 0.2가 되었다고 가정해 봅시다. 그러면 Poisson 분포에서는 수율이 18.0%, Seed 분포에서는 36.8%까지 넓은 차이를 보입니다.
그런데 더 흥미로운 사실이 있습니다. 그것은 이러한 입자 결함으로 인한 수율 저하는 다이 사이즈의 함수라는 것입니다. 특히 다이 사이즈가 작아질수록 수율 방어하기가 좋습니다. 마치 도미노 세울 때 중간중간 다 무너지는 것을 방지하기 위해 빼놓는 간격을 짧게 가져가면 혹시나 무너지는 도미도 집단이 생기더라도 피해를 더 최소화할 수 있는 것과 비슷한 원리입니다. 예를 들어 다이 사이즈를 1/10로 줄였다고 생각해 봅시다. 그러면 놀라운 일이 발생합니다. 입자 결함 밀도 0.02 수준에서는 Poisson 분포에서 수율이 98.9%, Seeds 분포에서는 수율이 98.9%로 거의 일정하게 유지됩니다. 정말 꿈의 수율이라고 볼 수 있겠습니다. 결함 밀도가 0.2로 올라가도 상황은 크게 나빠지지 않습니다. Poisson 분포에서는 89.8%, Seeds 분포에서는 90.3% 정도로서 나쁘지 않습니다. 충분히 양산에 도입해도 될 정도로 좋은 공정입니다.
같은 입자 결함 밀도, 같은 분포 함수를 채택했음에도 불구하고, 다이 사이즈가 작아지면 수율 방어에 훨씬 유리하다는 것은 자뭇 흥미롭습니다. 이런 생각을 할 수 있을 것이기 때문입니다.
"그렇다면 도대체 뭣 하러 큰 다이 만들어서 고생하냐? 그냥 작은 다이 여러 개 만들어서 이어 붙이면 되는 거 아니야? 그게 훨씬 수율 방어하기도 좋고 원가도 그만큼 경쟁력 있어지는 거잖아? 왜들 큰 다이 못 만들어서 난리들임?"
그렇습니다. 언뜻 생각해 보면 이러한 수율 방어 차원에서 반도체 제조사들 입장은 되도록 작은 다이 만들어서 입자 결함 밀도와 분포 함수 영향을 덜 타게 만드는 것이 제일 좋은 방식일 것 같습니다. 특히 요즘처럼 선단 공정 파운드리 비용이 치솟는 시절에는 말입니다. 그렇지만 문제는 팹리스 회사들은 그렇게 생각하지 않는다는 것입니다. 예를 들어 앞서 언급한 것처럼 공정 원가와 수율 문제로 인해 엔비디아의 H100용 GPU 다이를 858 mm^2 수준에서 85 mm^2로 줄인 상황을 생각해 봅시다. 이론적으로라면 이렇게 축소된 다이 10개를 2*5 정도로 직사각형으로 붙이면 동일한 성능을 낼 것 같다고 생각될 것입니다. 그런데 한 편 또 이렇게 생각해 봅시다. 가로-세로 5cm*5cm짜리 레고 블록 가장자리에 스카치테이프를 붙여서 2*5 방식으로 연결한 10*25 cm^2 짜리 직사각형 블록 덩어리를 만들었다고 생각해 봅시다. 그러면 이 덩어리와, 아예 처음부터 10*25 cm^2 짜리 통짜로 크게 만들어진 레고 블록은 같은 블록일까요? 당연히 아닐 것입니다. 두 블록 덩어리는 비록 같은 면적과 겉보기 모양을 가지고 있더라도 전혀 다른 개체입니다. 왜냐하면 이어 붙인 블록 덩어리는 그 '이어 붙인' 과정에서 원래 달성해야 할 물성을 잃어버릴 것이기 때문입니다. 예를 들어 통짜로 된 직사각형 블록으로 얼음을 깨는 장면은 상상할 수 있지만, 이어 붙인 블록 덩어리로 그렇게 하는 것을 상상하기는 어려울 것입니다. 다시 말씀드리지만 이는 다 '이어 붙인' 행위 때문에 생긴 차이입니다.
반도체 다이 크기 정하기에서도 사실 크게 다르지 않습니다. 작은 다이로 나눠서 각 다이에 기능을 배치하는 것까지는 어떻게는 가능하나, 이 다이들이 서로 연결되어 신호를 주고받게 만들려면 상당히 많은 기술과 공정이 필요합니다. 예를 들어 칩 간 통신 비용이 증가하는데, 이는 이론적으로 통짜로 된 다이보다, 다이-to-다이 연결과정에서 생기는 신호 손실로 인해, 그만큼을 더 메꿔줘야 하는 대역폭 증가가 생기기 때문입니다. 특히 요즘 통짜로 나오는 다이들은 칩 내부에 CPU, GPU, memory controller 등을 SoC 개념으로 아예 설계해 버립니다. 집으로 친다면 built-in apart 가 될 것입니다. 집을 줄여보겠다고 20평짜리 집을 버리고 10평짜리 집을 두 채 산 다음 각각의 집에 냉장고와 세탁기를 분리해서 배치한다면 얼마나 불편할까요?
다이 크기를 줄이는 것에는 몇 가지 disadvantage가 더 있습니다. 예를 들어 작은 다이임에도 그 다이 안에 여전히 많은 트랜지스터를 집적하려면 더 발전한 선단 공정, 즉, 패터닝 공정을 적용해야 합니다. 당연히 발전한 공정일수록 더 많은 비용이 듭니다. 큰 다이는 앞서 언급한 것처럼 이미 SoC 개념으로 접근하고 있기 때문에, 점점 고성능 시스템반도체로의 수요가 쏠리는 요즘 같은 상황에서는 die 크기를 작게 하는 것보다는 크게 가면서 성능과 기능을 보존하는 것이 더 중요합니다. 예를 들어서 작은 다이로 무리해서 크기를 작게 할 경우, 더 비싼 선단공정을 무리해서 적용해야 하지만, 좀 큰 다이를 사용하면 그렇게까지 무리할 필요는 없습니다.
물론 그럼에도 불구하고 여전히 작은 다이가 주는 매력은 큽니다. 앞서 언급한 기본적인 수율 방어 문제는 선단 공정 비용이 높아질수록 오히려 장점이 될 수 있습니다. 이것은 이렇게 생각할 수 있습니다. 선단 공정으로 갈수록 모험적인 기술들을 적용해야 하는 것은 자명합니다. 그런데 그 과정에서 웨이퍼테스트 수율이 떨어질 수도 있고, 전혀 원인을 알 수 없는 입자 결함 등의 다양한 결함 요소들이 툭툭 튀어나올 수 있습니다. 만약 웨이퍼테스트 수율이 95% 수준이 아닐 경우는 어떻게 될까요? 큰 다이, 예를 들어 엔비디아 H100 GPU 다이 같은 경우라면 12인치 웨이퍼에서 다이가 64개 정도 나오는데, 웨이퍼테스트 수율이 80% 수준이라면 51개만 살아남습니다. 여기에 0.1 개/cm^2 정도의 입자 결함이 생기면 결함 수율은 42.4%가 되므로, 굿 다이는 21개 밖에 안 됩니다. 이제 그렇지만 다이 사이즈를 1/10로 줄이면 어떨까요? 이제 1176개의 다이 중, 891개가 살아남습니다. 이들을 10개씩 묶으면 89개의 큰 다이를 어쨌든 만들 수 있습니다. 큰 다이를 사용할 때보다 무려 4배나 더 많이 생산할 수 있는 것이죠. 이 정도 격차라면 작은 다이를 어떻게 해서든 잘 엮어서 큰 다이만큼 혹은 그 이상 성능을 더 이끌어내려는 노력의 동기 부여가 되지 않을까요?
이러한 관점에서 접근하는 방식이 바로 칩렛(chiplet) 설계입니다. 이러한 전략은 특정 회사만 취하는 것은 아니고 대부분의 설계 회사들이 취하는 전략으로 볼 수 있습니다만, AMD가 제일 잘하는 전략이기도 합니다. 여기서 관건은 앞서 레고 비유에서 언급했던 것처럼, 블록과 블록을 매끄럽게 그리고 마치 한 몸처럼 잇는 것입니다. 여기서 제일 중요한 기술은 인터커넥트 기술로서, 단순히 칩과 칩을 물리적으로 잇는 것뿐만 아니라, 대역폭을 맞추고, 대기 시간을 최소로 하며, 전송 과정에서 신호 손실을 최소화하기 위한 칩렛 전체 패키징 최적화 등의 기술이 추가적으로 요구됩니다. 특히 칩렛을 연결하는 과정에서 최근 중요해지는 기술은 바로 패키징인데, 단순히 신호 손실만 최소화하려는 것을 넘어, 전력 배분 및 에너지 효율 강화, 방열, 기계적 물성 미스매치 최소화 등의 다양한 physics 요구조건이 한꺼번에 미세 구조에서 찾아오기 때문입니다. 이는 패키징 공정이 혼자 다 커버할 수 있는 것은 아니고, 애초부터 칩렛 설계 단계부터 이러한 공정의 난도를 낮출 수 있는 설계가 필요합니다.
그러면 엔비디아도 언젠가는 칩렛 설계 전략을 취하면서 파운드리 공정 부담을 경감하려는 노력을 할까요? 제 개인적인 생각으로는 당분간 그럴 가능성은 적습니다. 여전히 엔비디아에게는 수율이나 원가보다는 칩 자체의 성능을 원하는 스펙대로 제대로 구현할 수 있느냐가 더 중요한 문제이기 때문입니다. 큰 다이에 설사 결함 허용 설계의 여지를 조금 주면서 트랜지스터 집적 밀도를 조금 손해 보더라도, 그리고 2, 3 나노까지 가지 않고 4, 5 나노 공정 정도로 다소 보수적으로 접근하더라도, 일단 엔비디아가 구현하려는 GPU 성능은 큰 다이가 압도적으로 더 강력합니다. 엔비디아의 GPU 최적화 설계는 잘 알려진 것처럼, 수백, 수천 개의 GPU 코어에서 병렬로 처리되는 데이터의 입출력 latency를 최소로 하기 위한 데이터 버스를 최적화하는 것입니다. 그래서 엔비디아는 예전에 멜라녹스를 인수한 것이고, NV link를 개발한 것이고, 그것으로 입출력 표준을 설정한 것이고, 그에 따라 HBM 벤더사들에게 스펙을 맞추라고 요구한 것이기도 합니다. 엔비디아의 현재 GPU 아키텍처는 580 mm^2 수준의 큰 다이에 최적화되어 있으며, 특히 AI 향 반도체로 활용되는 GPGPU는 그 특성상 이미 TSMC의 2.5D 패키징, 예를 들어 실리콘 인터포저와 CoWoS 패키징으로 연결되게끔 설계단계부터 최적화되어 있기 때문에, 주변에서 이를 뒷받침하는 모든 요소들 (HBM)의 아키텍처도 다 이러한 큰 다이 기준의 GPU에 레퍼런스가 맞춰져 있다고 보면 됩니다. 엔비디아는 이러한 최적화를 당분간 크게 변동할 생각이 없고, 또 이러한 최적화 자체가 일종의 후발 업체들에 대한 진입장벽 역할도 하기 때문에, 굳이 칩렛 최적화라는 좋은 채널을 경쟁자들에게 열어줄 필요는 없을 것입니다.
다시 말한다면, 엔비디아와 비슷한 성능, 비슷한 다이 크기, 비슷한 아키텍처, 비슷한 인터커넥트, 비슷한 패키징 전략 등을 사용하려는 후발 GPU 업체들은 엔비디아의 그림자를 벗어나기 거의 어렵습니다. 특히 엔비디아가 위탁하는 TSMC의 4 나노, 그리고 앞으로 3 나노 공정 중, 라인 한 개는 아예 MPW가 아니라 엔비디아 전용으로 독점적으로 계약된 상황이고, 비공식적으로는 향후 3년 이상은 독점적으로 이 라인이 가동됩니다. 그 라인에는 물론 EUV가 들어가고, 특히 입자 결함을 막기 위한 고유한 펠리클이 들어갑니다. 이 펠리클로 인해 입자 결함이 0.1 이하로 유지되는 것으로 알려져 있습니다만, 정확한 조성은 아무도 모릅니다. 또한 입자 결함을 보다 높은 신뢰도로 추정할 수 있는 핵심 장비를 램리서치와 KLA로부터 공급받는데, 이 장비와 동일한 스펙의 장비는 TSMC에만 공급됩니다. 즉, TSMC가 엔비디아만을 위해 비워놓은 라인이라고 볼 수 있습니다. 이 라인에 속한 모든 IP과 공정 노하우와 파라미터는 엔비디아와 기술이 공유되고 외부에 공개되지 않습니다. (역공학으로 추정하는 방법까지는 못 막겠지만.)
엔비디아의 전략을 벗어나려는 업체들은 자연스럽게 칩렛 전략으로 돌아올 수 있는데, 앞서 언급했듯, 칩렛 전략은 큰 다이에서만 가능한 고성능 (HPC) 로직 반도체 최적화가 어렵습니다. 그렇지만 이것도 GPGPU 등을 레퍼런스로 했을 때의 이야기입니다. CoWoS나 3D stacking 같은 패키징이 충분히 뒷받침되고, 인터커넥트 기술이 발전하고, HBM보다 더 대역폭이 크고 동작속도가 빠르며 메모리접근성이 개선된 AI 전용 메모리가 나온다면, 적어도 메모리 장벽문제를 덜 겪을 수 있는 칩렛 최적화가 가능할지도 모릅니다. 물론 엔비디아의 GPU 성능을 1:1로 따라갈 수는 없을 것입니다.
최근의 파운데이션 AI의 파라미터 개수 스케일링 경향은 조금씩 둔화되는 양상을 보이고 있습니다. 물론, 이 경향이 당장 멈추거나 하지는 않을 것입니다. 그렇지만 IEDM 2024에서 최근 일리야 슈츠케버가 이야기했듯, 이제 이 거대한 LLM을 포함한 AI 모델들이 학습할 수 있는 데이터세트는 바닥을 드러내고 있고, AI는 새로운 데이터가 부족하여 점점 합성 데이터에 의존하는 비중이 높아지고 있습니다. 가히 우로보로스 효과가 연상되는 상황입니다. 여기에 더해 더 많은 파라미터는 필히 더 많은 계산 자원의 성능을 요구하며, 더 많은 전력 소모를 필요로 합니다. 알고리듬적으로도 그렇습니다. 메모리 장벽의 가장 큰 저주는 GPU가 더 고성능이 될수록, HBM은 그것을 더 쫓아가기 어렵다는 것입니다. GPU는 그야말로 스위칭 온오프만 클럭 하면 되지만, 메모리는 메모리 접근, 데이터 입출력, 대기, 주소 찾기 등의 과정을 거쳐야 합니다. GPU 속도가 아무리 배속된다고 해도, 그 체감 한계효용은 점점 줄어들 것이라는 점을 의미합니다. 즉, 물리적 한계와 기능의 한계 효용 체감과 경제적 비용 문제가 점점 더 큰 문제가 될 것이라는 뜻입니다. 이러한 연유로 AI scaling이 어느 시점에 saturation 되면, 현재의 파라미터 규모 경쟁은 다른 방향으로 분기하게 될 것입니다. 이러한 전환은 아예 더 큰 모델로의 전환이 아닌 반대 방향, 즉, 더 작은 모델로의 최적화로 진행될 수도 있습니다. 물론 더 큰 방향과 더 작은 방향이 반드시 mutually exclusive 해야 하는 것은 아닙니다.
이러한 시장에서 존재 가치를 찾을 수 있는 것이 바로 칩렛 기반 솔루션이 될 것입니다. 각 도메인 지식 처리 산업에서 GPGPU 접근성이 어려운 기업들은 자체적으로 ASIC 혹은 칩렛 기반 솔루션을 디자인하려 시도할 것입니다. 이미 구글은 TPU를, Amazon은 Inferentia나 Trainium2를, Meta는 MTIA를, MS는 마이아 100 등을 공개한 바 있는데, 여전히 GPGPU와 크게 다르지 않습니다만, 조금씩 자체적인 NPU 등으로 분기하는 모양새는 강해지고 있습니다.
특정 도메인에 특화된 NPU를 만든다는 것은 장단점이 골고루 존재합니다. 이는 엔비디아의 GPGPU의 장단점과 정확히 배치되는 것이기도 합니다. IT 범위로만 좁혀도 챗봇, 논문 검색, 추천 시스템 등의 좁은 기능을 위해 비싼 H100 칩을 모두가 갖출 필요는 없을 것입니다. GPU에서 NPU로 갈수록 두 가지 성능이 trade-off 관계를 보입니다. GPGPU는 엔비디아의 CUDA에서 보듯, programmability가 가장 높습니다. 프로그래머빌리티는 일종의 유연성입니다. 엔비디아의 GPGPU는 다양한 인공지능 알고리즘이나 워크로드 (렌더링, 딥러닝, 물리/수학 시뮬레이션 등)에 맞게 사용자가 프로그래밍하여 기능을 사전에 최적화할 수 있습니다. 즉, 사용자가 입맛에 맞게 연산 로직을 자유자재로 구현할 수 있다는 뜻입니다. 그렇지만 NPU는 프로그래머빌리티가 낮은데, 그 이유는 NPU의 하드웨어 설계 자체가 미리 정해진 몇 가지 종류의 연산에만 특화되어 이루어졌기 때문입니다. 예를 들어 어떤 NPU는 CNN 등의 행렬 연산, 그것도 특정 크기의 행렬 연산에만 특화되게 설계되었을 수도 있습니다. 만약 이 NPU를 다른 행렬 연산, 예를 들어 역행렬 계산이나, 다른 크기의 행렬 계산을 하게 하려면 몇 가지 프로그래밍을 더 하고, 불필요한 명령어세트 수행을 위한 지연 시간을 감내해야 하는데, 이를 그나마 우회하게 해 줄 소프트웨어 생태계가 GPU보다 약하므로, 대부분 각자 시행착오로 겨우겨우 기능을 맞춰야 합니다. 즉, 유연성이 떨어지며, 원래 계획했던 성능 구현 조건에서 벗어난 영역에서는 성능이 오히려 대폭 감소할 수 있다는 뜻입니다. 프로그래머들은 GPU를 다룰 때보다 NPU를 다룰 때 더 많은 컴파일 에러를 겪게 될 것이며, 따라서 개발 속도도 그만큼 느립니다. 그렇지만 이 모든 단점에도 불구하고, NPU는 특정 영역에서는 놀랄 만큼 빠른 성능을 보여줍니다. 앞서 언급한 특정 크기의 행렬 연산을 생각해 봅시다. 어떤 고해상도 CCTV에 NPU를 달아 CCTV에서 실시간으로 차량정보를 인식하고 처리할 수 있게 만들고 싶다고 가정해 봅시다. 그러면 그 CCTV에서 실시간으로 확보되는 이미지 크기는 정해져 있고, 해야 할 작업도 거의 정해진 틀을 벗어나지 않을 것입니다. 이러한 작업은 굳이 GPU로 학습된 클라우드 AI 서버와의 통신 없이도, CCTV에 내장된 이미지처리 전용 NPU만으로도 처리할 수 있을 것입니다. 그것도 더 저전력으로 말입니다. 사실 그래서 ResNET 전용, BERT 전용 NPU가 개발될 수 있는 것이기도 합니다. 즉, 특정 분야에서의 효율성과 범용 분야에서의 유연성 사이의 trade-off가 GPU vs NPU 사이에 있다고 볼 수 있습니다.
이렇게 특정 도메인에 특화된 칩이 가장 강력한 성능을 발휘할 분야로서 저는 bioinformatics를 생각합니다. Bioinformatics, 특히 GWAS(Genome-Wide Association Studies) 같은 작업은 방대한 유전체 데이터를 분석하여 genotype과 phenotype 간의 복잡한 연관성을 찾는 작업입니다. 이러한 작업에는 고성능 컴퓨팅 자원이 필요하며, NPU(Neural Processing Unit) 또는 맞춤형 ASIC(도메인 특화 프로세서)로 전환하면 효율성을 극대화할 수 있는 잠재력이 있습니다. 이를 위해 bioinformatics 데이터의 특징을 이해하고, 이에 맞는 하드웨어 설계 방향을 모색해야 합니다. 예를 들어 GWAS 데이터는 수십만에서 수백만 개의 SNP(Single Nucleotide Polymorphism)과 수천 명의 샘플 데이터를 포함하는데, 이는 수십-수백 테라바이트(TB) 이상의 데이터셋을 생성할 수 있습니다. 각 샘플은 고차원 데이터로 구성되며, 고차원 행렬로 표현 가능하며, 각 성분은 주로 2진 혹은 4진법 형태로 표현됩니다. 당연히 이는 원리상으로 병렬 처리에도 적합합니다. GWAS 분석에서는 샘플 간 상관관계 분석 (유사도 행렬 계산)을 할 수 있고, 특히 genotype-phenotype 연관성을 찾기 위해 모든 샘플(행)과 유전자(열)를 비교하는 행렬 연산이 필요합니다. 이 과정에서 로지스틱 회귀나 p-value 계산이나 연관성 스코어 등이 계산됩니다.
자 이제 왜 GWAS 같은 특정 영역에서는 GPU보다는 맞춤형 TPU나 NPU가 더 유리할 수 있는지를 알아봅시다. 우선 GWAS는 특정 SNP(Single Nucleotide Polymorphism)에 대한 국소적 분석 (특정 유전자의 변이)를 수행하기 때문에 랜덤 접근 패턴이 자주 발생합니다. 그런데 기존의 GPU는 순차 접근 방식을 택합니다. 랜덤 접근에 대해서는 최적화되어 있지 않다는 뜻입니다. 또한 GWAS 데이터에서 보이는 행렬의 특징은 이들이 대부분 sparse 하다는 것입니다. 성분 대부분이 0인 이러한 행렬들은 그냥 있는 그대로 계산할 경우, 메모리공간을 무척 많이 잡아먹기 때문에 매우 비효율적입니다. 따라서 사전에 이 행렬을 적절하게 rank 계산하여 압축하는 것이 필요합니다.
그렇다면 이러한 영역을 위한 NPU는 어떻게 설계되어야 할까요? 기본적으로 sparse 행렬을 압축-저장-연산하는 과정을 수행할 수 있어야 하고, 특히 압축된 행렬로도 적절한 연산을 할 수 있어야 합니다. 이를 위해 CSR(compressed sparse row)나 COO(Coordinate list) 같은 희소 행렬 형식을 하드웨어에서 직접 메모리 배정하여 접근할 수 있도록 설계되어야 합니다. 또한 sparse 행렬에서 자주 만나게 되는 0인 성분들을 스킵할 수 있도록 설계되어야 합니다. 이를 위해 예를 들어 고정된 행당 비제로 값만 저장하는 ELL (Ellpack) 방식 등을 추가할 수 있을 것입니다. 기본적으로 행렬 연산이므로 병렬 연산이 지원되어야 하는데, GWAS에서는 SNP의 샘플 크기로 행렬이나 벡터 크기가 미리 fix 될 수 있으므로, 이 크기를 레퍼런스 삼아 연산이 이뤄지게 미리 행렬을 변환할 알고리즘을 프로그래밍할 수 있어야 합니다. 가능하다면 sparse 데이터가 많다는 특성을 고려하여, sparse neural network 연산도 지원할 수 있도록 설계되면 좋을 것입니다.
사실 NPU 코어도 코어이지만, GWAS 데이터를 저장하여 NPU로 보낼 HBM도 이에 맞춰 다시 최적화되어야 합니다. 하이닉스가 만드는 HBM은 엔비디아의 GPU에 최적화된 구조이므로, NPU에 최적화되기 위한 HBM은 재설계되어야 합니다. GWAS는 우선 랜덤 접근이 많으므로, 고속 i/o이 요구됩니다. 특히 메모리 컨트롤러에서 미리 패턴 예측 (predictive scheduling)할 수 있는 기능이 필요한데, 이를 메모리에 삽입할 수도 있고, NPU에 SoC로 삽입할 수도 있습니다. 이는 패턴 예측 계산 자원을 얼마나 많이 배치할 것이냐로 결정될 것입니다. 사실 이러한 패턴 예측 기능은 GWAS 뿐만 아니라, 각 도메인에서 다루는 데이터들의 패턴이 랜덤 패턴일 경우 매우 중요한 힌트를 줄 수 있습니다. 예를 들어 랜덤 패턴에서는 데이터가 메모리의 비연속적인 위치에 저장되므로, 데이터를 가져오는 과정에서 원치 않는 i/o 병목현상이 생길 수 있습니다. sparse matrix를 CSR이나 COO로 압축하여 저장한다고 해도, SpMV(sparse-matrix vector multiplication) 기능이 따로 구현되어 있지 않으면 그림의 떡입니다. 또한 일반적인 HBM 과는 달리, 데이터 이동 과정에서의 latency를 줄이기 위해, SNP와 phenotype 데이터의 간단한 매칭 작업을 메모리 내부에서 직접 처리할 수 있는 일종의 PIM 기능도 메모리에서 구현되면 더 좋을 것입니다. 이는 메모리 접근 지연을 최소화하고 병목을 완화하는데 일조할 수 있습니다. 일반적인 AI향 PIM에서 이야기하는 사전 계산 기능은 간단한 행렬 변환 정도이지만, 이렇게 도메인이 확실한 영역에서는 그 사전 계산 작업을 꽤나 더 과감하게 미리 메모리에서 이뤄지도록 설계할 수 있습니다. 왜냐하면 해야 할 일의 범위가 좁기 때문입니다.
이렇게 GWAS 데이터에 최적화된 NPU는 일반적인 GPU보다 훨씬 가볍고 저전력이고 빠르게 작동하고, 불필요한 연산량을 절감하고, 메모리 접근성을 더 가속할 수 있기 때문에 확실한 성능 향상이 체감될 것입니다. 특정 도메인에 특화된 NPU의 역할이 더 효과적이라고 판명될수록, 그 NPU에 적합한 HBM 혹은 그 이후의 특화 메모리에 대한 일종의 메모리파운드리 요구 사항도 이제 다변화될 것입니다. 이는 현재의 하이닉스가 지배하는 엔비디아 GPU향 HBM에도 균열이 생길 수 있음을 의미합니다. 어떤 방향으로 메모리파운드리를 이야기할 수 있을까요?
이미 현재의 HBM는 GPU가 요구하는 수준에 대응하기 위해 고속 인터페이스와 높은 대역폭을 주요 성능 지표로 삼아 계속 발전해오고 있습니다. 그렇지만 i/o 채널 집적도를 높이거나 메모리를 더 높게 적층 하는 것은 공정과 패키징 기술의 한계에 부딪힐 수 있습니다. 칩렛 기반 ASIC이나 NPU는 특정 도메인에 최적화되어 있으므로, 단순히 메모리 접근성만 따질 것이 아니라, 메모리 컨트롤러 기술이 더 중요해질 수 있습니다. 특히, 어떤 도메인 영역에서는 비대칭적인 데이터 접근 패턴이 자주 발생할 수 있습니다. 이는 통짜로 된 GPU가 아니라, 여러 칩렛이 동시에 메모리에 접근하려고 할 때, 그 접근 빈도나 접근 대역폭 요구조건이 차이가 날 때 발생할 수 있는 문제입니다. 이를 위해 NPU 전용 HBM은 메모리 액세스 구조와 버퍼 설계를 다시 해야 합니다. 이는 일종의 모듈화 된 HBM 설계로 커버할 수도 있습니다. 즉, HBM을 스택하고 칩렛 형태로 설계하여 칩렛 간 유연한 배치를 지원하거나, 패키징 과정에서 다양한 칩렛과 통합할 수 있는 방식으로 제조하는 것입니다. 칩렛 기반 NPU에서는 각 ASIC이 메모리에 독립적으로 접근할 수 있도록 HBM의 i/o 채널 밀도만 높일 것이 아니라 (물론 이 기술도 계속 발전해야 합니다. 예를 들어 configurable i/o density 설계 등이 그렇습니다.), 다중 채널을 갖추는 설계가 더 중요해질 수 있습니다. 즉, 각 칩렛이 독립적으로 동작하면서, 동시에 데이터를 요청해도 병목을 최소화할 수 있는 i/o 스케쥴링이 최적화된 다중 채널이 필요하다는 뜻입니다. 이를 위해 메모리 컨트롤러가 더 강력해져야 합니다. 특정 워크로드에 따라 동적으로 대역폭을 분배(dynamic bandwidth allocation)하거나 (마치 CDMA처럼), 칩렛 간 데이터 병목을 미리 사전에 예측하여 보정하는 방식을 지원할 수 있어야 합니다. 동적으로 대역폭을 분배한다는 것은 ASIC 워크로드에 따라 데이터 전송 순서를 동적으로 조정하는 스케쥴링 알고리듬이 HBM 컨트롤러에 통합되어야 함을 의미합니다.
이러한 특정 도메인 용 NPU를 타깃으로 한 새로운 메모리는 굳이 예전의 HBM 로드맵을 따라갈 필요가 없습니다. HBM에서 얻은 고대역폭 구현 기술을 차용하되, 대역폭의 동적 분배나 병목 사전 예측 등의 컨트롤러 기술을 지원할 수 있는 ASIC을 같이 설계하고 구현하는 것이 더 중요해질 수 있습니다. 병목 사전 예측은 이미 access reordering이나 bank-level parallelism 강화 등으로 커버가 될 수 있습니다. 이는 메모리 제조사들에게 새로운 블루오션이 열리는 것임을 의미합니다. 물론 특정 도메인 전용 NPU이므로, 예전 같은 양산형 전략은 어렵고, 고부가가치 메모리파운드리 공정이 필요할 것입니다. 그렇지만 개별 NPU마다 메모리 제조라인을 새로 설치할 수는 없습니다. 따라서, 공통적으로 구현되어야 할 메모리 기능은 최대한 표준화된 공정과 스킴에 따라 제조하고, 마지막 분기 단계에서 하이브리드 형태로 혹은 칩렛에 추가되는 SoC 형태로 같이 제조하는 것이 필요할 것입니다. 이 과정에 어떤 메모리 제조사들은 이왕 이렇게 된 것, 아예 2.5D 패키징 같은 첨단 패키징이나 이종접합까지 마무리하는 것이 낫겠다는 생각을 하는 업체들이 나올 수도 있습니다. 그 역시 새로운 블루오션이 될 것입니다.
앞으로도 몇 년간 엔비디아-TSMC-하이닉스가 연합한 AI 반도체 클러스터의 영향력은 막강할 것입니다. AI나 반도체 산업은 물론, 다른 워크로드 영역으로도 계속 그 영향력이 넓어질 것입니다. 그렇지만 이 과정에서 필히 여러 한계점들이 발생할 것이고, 이를 극복하기 위한 다양한 기술적 시도들이 나타날 것입니다. 선단 공정은 점점 까다로워지고 수율 관리는 어려워지는데, 다이 크기를 줄여서 이를 극복하되, 칩렛 전략이 통할 수 있는 영역을 찾는 오버랩은 반드시 나타날 수밖에 없을 것입니다. 이 글에서는 그러한 영역으로 bioinformatics를 이야기했지만, 어떤 영역이든 특화된 데이터 형식이나 특징이 존재하고, 그를 위한 고도의 연산량이 요구되며, 가치가 많이 창출될 수 있는 분야라면 어떤 분야든 혁신은 기다리고 있을 것입니다.
일전에 장문의 글에서도 적었지만, 저는 한국이 그간 쌓아온 다양한 도메인 산업 분야에서의 데이터를 일종의 미개발 자원으로 잘 관리하여 한국에서 수많은 NPU 기업들이 쏟아져 나오기를 바랍니다. 엔비디아와 TPS 등의 숫자로 경쟁하는 것이 아니라, 전혀 다른 영역에서 다양한 기술적 시도를 하고, 메모리 제조의 강점을 앞세워 메모리 장벽을 앞서서 끌고 갈 수 있는 솔루션도 제공할 수 있는 강국이 되기를 바랍니다. 동력이 꺼져가는 산업에서 새로운 물꼬가 터지고, 새로운 도전자들이, 새로운 억만장자들이 쏟아져 나오기를 기대합니다. 중국과 1:1로 산업, 특히 제조업 경쟁을 이어가기 어렵지만, 중국이 하지 않은 영역과 아직 누적된 데이터가 부족한 영역이 있다면 한국에게는 여전히 도전할 수 있는 기회가 많이 있습니다. 이러한 부분부터 같이 들여다보면 좋을 것 같습니다.