brunch

브런치북 반도체 인문학 3 17화

라이킷 9 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by wangane Jun 27. 2022

인문학적 반도체_1. 반도체 미래(1)_AI반도체

5장. 반도체의 미래는 어떨까?

1. 반도체 미래

AI반도체

몇년간 많은 분들이 AI 이야기를 여기저기서 하십니다. 아마도 듣보잡 컴퓨터인 알파고가 세계 최고로 바둑을 잘 두는 이세돌 9단에 완승을 거둔 사건이 계기가 되었겠지요.

비록 기계인 알파고가 인간 최고수를 이겼지만 이 세기의 바둑 경기를 에너지 효율성 관점으로 보면 과연 알파고가 공정한 환경에서 이겼는가 하는 의문이 듭니다.

Jacques Mattheij라는 IT전문가에 따르면 이세돌은 밥 한 끼를 먹고 약 20W 에너지를 이용해 뇌 속의 1,000억 개의 뉴런을 가동할 수 있지만, 알파고는 10만 개의 뉴런을 흉내 내기 위해 1,920개의 CPU와 280개의 GPU를 사용하여 1MW에 육박하는 엄청난 전력을 소모했다고 합니다. 따라서 에너지 효율 측면에서만 보면 AI가 인간을 넘어서기 위해서는 지금보다 500억 배 이상 향상돼야 합니다. 우리 뇌가 최고입니다. 밥 한끼 열량으로 이런 통찰력(?) 가득한 글을 쓰고 있는 내 두뇌가 최고입니다.^^

18,000여개의 진공관을 작동시키기 위해 150kW의 어마어마한 전력을 소모했던 에니악에서 고작 5W 를 소비하는 스마트폰이 탄생한 배경의 중심에는 반도체가 있습니다.

[ 컴퓨팅의 진화 역사와 인공지능 컴퓨팅의 미래_출처: IITP, 2018 ]

다양한 음식을 골고루 먹어야 머리가 쑥쑥 돌아가듯이 AI도 데이터가 많을 수록 정확도가 높아집니다. 그런데 인터넷의 발달로 AI의 음식재료라 할 수 있는 데이터가 기하급수적으로 늘어나고 있습니다.

데이터통계를 분석하는 데이터네버슬립(Data Never Sleeps)은 2020년 4월 각종 애플리케이션 및 서비스를 통해 매 1분동안 생산되는 데이터의 양을 조사했습니다.

유튜브에서는 1분에 500시간 분량의 동영상이 업로드되고, 메타(옛 페이스북)에는 약 14만 7,000장의 사진이 업로드되고 15만개의 메시지가 공유되며, SNS 서비스인 왓츠앱(WhatsApp)에서는 1분에 약 4,100만개의 메시지가 공유된다고 합니다. 줌(Zoom)의 경우 1분에 20만명 이상이 회의차 접속하며, 틱톡(TikTok)은 2,704명이 애플리케이션을 설치하고, 아마존은 1분에 6,659개의 상품이 출하되고 있답니다.

이런 다양한 형태의 정형, 비정형 데이터를 과거보다 쉽게 수집하고 분석할 수 있는 빅데이터 처리 환경이 조성되어 인공지능 상용화가 도래하였다고 볼 수 있습니다.

[ 1분에 생성되는 데이터 _출처: Data never sleep, 2020 ]

AI반도체는 무엇일까요?

AI는 수많은 데이터를 학습하고 추론하여 결과를 도출하는 시스템입니다. 수 많은 개 사진을 학습시켜서 스스로 고양이가 아닌 개를 찾아내는 것이지요. 그런데 이런 막대한 개 사진을 학습시키기 위해서는 단시간에 초고속으로 게다가 초저전력으로 데이터를 처리하는 특별한 프로세서가 필요한데 이런 프로세서를 흔히들 AI 반도체라 부릅니다.

AI반도체: AI 서비스 구현에 필요한 대규모 연산을 초고속, 초저전력으로 실행하는 효율성 측면에서 특화된 비메모리 반도체

AI반도체는 AI 서비스 구현에 필요한 대규모 연산을 초고속, 초저전력으로 실행하는 효율성 측면에서 특화된 비메모리 반도체입니다.

AI반도체를 이해하기 위해서는 기존 컴퓨터 구조인 폰 노이만 구조에 대해 이야기가 선행되어야 합니다.

[ 폰 노이만 구조도 _ 출처: 과기정통부 ]

아인슈타인에 비견되는 천재 물리학자 폰노이만이 1945년에 제시한 컴퓨터 아키텍처인 폰 노이만 구조는 중앙처리장치(CPU), 메모리, 프로그램 세 가지 요소로 구성되어 있습니다. CPU와 메모리는 서로 분리되어 있고 둘을 연결하는 버스를 통해 명령어 읽기, 데이터의 읽고 쓰기가 가능합니다.

이때 메모리 안에 프로그램과 데이터 영역은 물리적 구분이 없기 때문에 명령어와 데이터가 같은 메모리, 버스를 사용하게 됩니다. 다시 말해, 외나무다리와 같은 버스를 통해 CPU가 명령어와 데이터에 동시 접근할 수 없습니다. 이런 방식의 문제점은 CPU가 순차적으로 한 번에 명령어 하나씩 실행하는 ‘내장 메모리 순차처리 방식’을 따르고 있기 때문에 계산 속도가 기억장치 속도에 영향을 받아 병목현상(Von-Neumann Bottleneck)이 발생하는 것입니다. 왜냐하면 모든 계산의 결과가 ALU (Arithmetic Logic Unit) 연산을 거쳐 반드시 메모리 어딘가에 저장 되어야 하기 때문입니다. ALU 연산의 결과가 메모리 또는 칩 내부의 캐시에 저장되어야 하기 때문에 항상 한번에 하나의 트랜잭션만을 순차적으로 처리하게 됩니다.

폰노이만 구조의 또 하나의 문제점은 CPU가 순차적으로 한 번에 하나의 명령어만을 처리하기 때문에 복잡한 수치 계산이나 정교한 프로그램에는 효율적이지만, 이미지나 소리와 같은 아날로그 데이터를 처리하는 데에는 효율성이 낮다는 점입니다.

그런데 AI를 학습시키기 위한 데이터는 요즘 인터넷에 넘쳐나는 사진이나 동영상등 비정형 데이터 들이 주를 이룹니다. 따라서 기존의 폰 노이만 구조로는 밥 한공기 열량으로 병렬처리를 자유자재로 하는 저의 두뇌만큼 효율적인 AI를 구현할 수 없습니다.

AI반도체는 기존 반도체를 개선하는 방향으로 개발되기 시작하였습니다. CPU, GPU, FPGA등이 이에 해당되며, 인텔이나 엔비디아,자일링스등의 업체가 대표적입니다. 기존 반도체에서 진화해서 비정형 데이터를 병렬처리하는데 나름 효율적이지만 소비 전력을 많이 먹는 단점이 있습니다.

[ CPU vs GPU구조 _ 출처: voidint.com ]

그 후 1세대 AI 반도체라 할 수 있는 ASIC/ASSP가 나옵니다. 인공지능 연산 고속화를 위해 반도체 구성을 최적화 시킨 구글의 TPU(Tensor Processing Unit)나 FPGA나 ASIC형태의 NPU(Neural Processing Unit) 가 이에 해당합니다. 이들을 이용하면 AI가 추론이나 학습을 할 때 핵심적으로 필요한 매트릭스 합성곱(convolution) 연산을 효율적으로 할 수 있으나, 가격이 비싸고 유연성이 낮아 디자인된 알고리즘으로만 사용할 수밖에 없는 단점이 있습니다. 구글의 TPU는 AI 알고리즘 전용 가속 구조를 채택함으로써 GPU 대비 30배 이상 에너지 효율을 높이는 것으로 알려져 있으며, 현재는 100페타플롭스(PetaFlops, 1초당 1,000조번의 수학 연산처리를 뜻하는 말) 성능의 TPU까지 개발되어 구글 클라우드에서 제공되고 있답니다.

현재 가장 진보된 형태의 AI반도체는 인간의 뇌를 모방한 뉴로모픽(Neuromorphic) 반도체 입니다. 뉴로모픽(Neuromorphic) 반도체는 뉴런과 시냅스가 사람의 뇌에서 기능하는 방식인 뉴런-시냅스 구조를 모사하는 SNN(Spiking Neural Network) 기술을 사용한 대표적인 非 폰 노이만 방식의 반도체입니다.

인간의 뇌에는 약 1000억 개가 넘는 신경세포인 뉴런이 있고 100조 개 이상의 연결고리인 시냅스가 병렬적으로 연결돼 약 20W 수준의 저전력으로도 기억, 연산, 추론, 학습 등을 동시에 수행할 수 있기 때문에 이런 뇌를 모방하는 것이지요.

[ 뇌 신경 네트워크의 시냅스 작동 방식을 모사한 트랜지스터 모습_출처:연세대 ]

뉴로모픽 반도체 코어에는 트랜지스터와 메모리를 비롯한 몇 가지의 전자 소자들이 탑재되어 있으며, 코어의 일부 소자는 뇌의 뉴런의 역할을 담당하고, 메모리 반도체는 뉴런과 뉴런 사이를 이어 주는 시냅스 역할을 담당합니다.

뉴로모픽 반도체의 장점은 적은 전력만으로 많은 양의 데이터 처리가 가능하며, 높은 집적용량으로 인간의 뇌처럼 학습할 수 있어 연산 성능이 대폭 향상된다는 점입니다. 따라서 기존의 딥러닝 방식과 유사한 성능구현은 물론 높은 전력효율을 달성 할 수 있어, 특히 제한된 전력 자원을 갖는 모바일 시스템의 성능을 획기적으로 개선할 수 있는 장점이 있습니다. 그러나 아직은 기술 성숙도가 낮고 폰 노이만 구조를 사용하지 않기 때문에 범용성이 낮은 단점이 있습니다.

인텔은 지난 2017년 '로이히(Loihi)'라는 이름의 테스트용 뉴로모픽칩을 공개했습니다. 128개의 컴퓨팅 코어로 구성돼 있으며, 각 코어에는 1024개의 인공 뉴런이 있어 13만 개 이상의 뉴런과 1억 3000만 개의 시냅스 연결을 제공합니다. 이는 바닷가재의 뇌보다 조금 더 복잡한 수준이라고 합니다. 지난 2020년에는 로이히 칩 760여개를 이어붙인 뉴로모픽 연구 시스템 '포호이키 스프링스(Pohoiki Springs)'를 공개했습니다. 포호이키 스프링스는 동물이 냄새를 맡을 때 뇌에서 일어나는 전기 신호를 복사해 뉴로모픽 반도체에 적용한 것으로, 생쥐에 맞먹는 후각 능력을 갖고 있다고 합니다.