brunch

GPU보다 100배 빠르고 1만 배 효율적인 LLM!!

Analog In-Memory Computing

by JungIn

[Paper] Analog in-memory computing attention mechanism for fast and energy-efficient large language models (nature.com)


1*kR3tBcmxkkB8QrI9BgfisQ.png


아날로그 인-메모리 컴퓨팅: GPU보다 100배 빠르고 1만 배 효율적인 LLM의 새 시대

소개: AI 연구자들이 대규모 언어 모델을 위한 새로운 하드웨어 지평을 열었습니다. 최근 Nature Computational Science에 발표된 논문은 현존 GPU 대비 100배 더 빠르고, 10,000배 더 에너지 효율적으로 LLM을 구동하는 혁신적인 컴퓨팅 아키텍처를 소개합니다. 이 돌파구의 핵심은 더 강력한 GPU를 만드는 것이 아니라, 아예 계산 방식을 바꾼 데 있습니다. 저자들은 Transformer의 어텐션 메커니즘을 근본적으로 재설계한 아날로그 인-메모리 컴퓨팅 구조를 선보였습니다. 이 접근법에서는 모델의 키-값 캐시 (KV 캐시)를 프로세서와 메모리 사이에 이동시키지 않고, 메모리 내부에 그대로 저장하며 계산까지 수행합니다. 데이터를 옮기는데 소모되는 시간과 에너지를 극적으로 줄임으로써, 초고속이며 초저전력으로 LLM 추론을 수행할 수 있게 된 것이죠. 이는 “친환경” AI 하드웨어 시대를 향한 의미 있는 도약으로 평가받고 있습니다.


현재 LLM의 병목 지점: 메모리 액세스

GPT-3나 PaLM 같은 현대의 LLM들은 토큰을 하나씩 생성하면서, 매 토큰 생성 시 셀프-어텐션을 통해 이전에 생성된 토큰들의 정보를 참고합니다. 이때 사용되는 이전 토큰들의 표현(키와 값 벡터)을 모아 놓은 KV 캐시는 생성이 진행될수록 커지는데, 새 토큰을 생성할 때마다 다시 읽어와야 하는 문제가 있습니다. 현행 GPU에서는 이 과정이 심각한 병목이 됩니다. 새 토큰을 낼 때마다 거대한 KV 캐시 전체를 GPU 외부 메모리에서 불러와 온칩 메모리(SRAM)로 옮겨야 하기 때문입니다. 심지어 KV 캐시는 용량이 방대하여 GPU 온칩 메모리에 한꺼번에 다 들어가지도 않는 경우가 흔합니다. 결국 이 전송 과정을 반복해야 합니다. 실제로 최신 하드웨어에서는 데이터 이동에 쓰이는 에너지가 연산 자체에 드는 에너지보다 커지는 상황입니다.


비유하자면, 매 문장을 읽을 때마다 책장을 오르락내리락 하며 무거운 책을 꺼내 오는 격입니다. 이렇게 데이터를 반복해서 가져오는 작업은 시간도 많이 걸리고 에너지도 크게 소모됩니다. 예를 들어 파라마터가 70억 개인 Mistral 7B 모델의 경우, 한 번의 추론에 약 8Gb(기가비트), 즉 1GB 가량의 KV 캐시 메모리가 필요합니다. 이는 일반적인 온칩 SRAM 용량을 훨씬 상회하는 수준으로, 매 토큰 생성 시 이 거대한 데이터를 불러오는 작업 자체가 **“대규모 언어 모델에서 에너지 소모와 지연 증가의 주된 원인”**이 됩니다.

메모리 병목을 완화하기 위해 토큰을 일부 생략하거나, KV 캐시를 압축하거나, 효율적인 어텐션 알고리즘을 쓰는 등 소프트웨어적 묘책들이 연구되어 왔습니다. 그러나 이런 알고리즘만의 개선에는 한계가 있습니다. 근본적인 해결을 위해서는 하드웨어적인 혁신이 필요하다는 공감대가 형성되어 있습니다. 결국 GPU는 이러한 메모리 집약적인 작업에 최적화되어 있지 않기 때문입니다. 이번 논문의 연구진은 하드웨어 수준에서 접근함으로써, 데이터 이동 부담을 없애고 계산 효율을 높이고자 했습니다. 핵심은 데이터를 가능한 한 제자리에서 처리하는 것입니다.


해결책: 아날로그 인-메모리 컴퓨팅

인-메모리 컴퓨팅이란 데이터를 저장한 그 자리에서 직접 연산을 수행하는 개념입니다. 이번 연구의 핵심 혁신은 Transformer 어텐션을 위한 아날로그 인-메모리 컴퓨팅 아키텍처입니다. 연구진은 **게인 셀(gain cell)**이라는 특별한 메모리 소자를 이용해 고밀도 아날로그 메모리 배열을 구축했고, 이 배열이 곧 KV 캐시를 저장하는 장소이자 어텐션의 행렬 곱셈을 수행하는 계산 장치 역할을 겸하도록 만들었습니다. 이 설계에서는 동일한 게인셀 메모리 어레이가 전체 KV 캐시를 기억하면서, 한편으로 어텐션에 필요한 내적(dot-product) 연산을 그대로 그 안에서 처리합니다. 덕분에 데이터를 옮기는 작업이 거의 사라집니다. 모델의 키/값 벡터들이 애초에 메모리 안에 있고, 그 자리에서 계산이 이루어지기 때문입니다. 이는 마치 책을 늘 책상 위에 펼쳐놓고 읽는 것과 같아서, 매번 서가에서 책을 꺼내오는 데 드는 시간을 없앤 격입니다. 그만큼 처리 속도가 빨라지고 에너지 낭비도 줄어듭니다.


게인 셀 메모리가 뭔가요? 게인 셀은 캐패시터(축전기)에 전하를 저장하고 전압을 유지하는 방식의 아날로그 메모리 소자입니다. 한 개의 게인 셀이 작은 축전기에 정보를 전하의 양으로 저장하고, 읽을 때는 전하량에 비례하는 전류를 생성하는 트랜지스터를 통해 값을 출력합니다. 일반 DRAM과 달리 읽어도 저장된 전하가 사라지지 않는 비파괴적 읽기가 가능하여, 병렬로 여러 셀을 동시에 읽더라도 데이터가 유지됩니다. 이는 어텐션처럼 같은 데이터를 반복 읽는 용도에 안성맞춤입니다. 또한 게인 셀은 쓰기 속도가 빠르고 소비 전력이 낮으며, 한 셀에 여러 수준의 전하(0과 1 이상의 다중 상태)를 저장할 수 있어 아날로그 값 저장에도 유용합니다. 셀 크기도 SRAM보다 작아 고밀도 메모리 구성이 가능하고, CMOS 공정으로 제조할 수 있어 기존 기술과도 양립할 수 있습니다. 심지어 3차원 적층도 가능하다고 하니, 향후 큰 모델의 KV 캐시도 충분히 칩 위에 올려놓을 수 있는 잠재력이 있습니다. 요컨대 게인 셀 메모리는 LLM 어텐션에 필요한 빠른 쓰기, 잦은 업데이트, 높은 병렬 읽기에 잘 맞는 신형 메모리 기술입니다.


아날로그 방식으로 어떻게 계산할까? 간단히 말해, 이 아키텍처에서는 어텐션의 핵심 연산인 곱셈-누적(dot-product 연산)을 디지털 회로 대신 물리적인 아날로그 동작으로 수행합니다. 새 쿼리 벡터가 들어오면, 쿼리의 각 요소 값에 해당하는 전압 신호들이 메모리 어레이의 한쪽(예를 들면 행 또는 열)에 인가됩니다. 그러면 어레이에 저장된 각 게인 셀이 자신이 들고 있던 키 값에 비례하는 크기의 전류를 출력하게 됩니다. 이 미세한 전류들은 배열 내에서 자연스럽게 합쳐지는데, 특정 한 줄(예를 들어 한 행)에서 흐르는 총 전류 합은 결국 쿼리 벡터와 그 행에 저장된 키 벡터의 내적 결과에 해당합니다. 이렇게 아날로그 회로 자체가 곱셈과 덧셈을 병렬로 한꺼번에 수행하여, 쿼리가 이전 모든 토큰들과의 유사도를 단번에 계산합니다. 수백개의 곱셈을 순차적으로 하는 대신, 물리 법칙을 이용해 동시에 처리하니 속도가 빠르고 에너지 소모가 매우 적습니다.


아날로그로 처리한 값을 결국 디지털로 읽어야 할 때가 문제입니다. 일반적으로 ADC(아날로그-디지털 변환기)가 필요하지만, 이는 전력 소모와 회로 면적 면에서 큰 부담이 됩니다. 연구진은 이 문제를 피하기 위해 아날로그 영역에서 최대한 끝까지 연산을 처리하고, 마지막에만 간소화된 방식으로 디지털 변환을 하는 전략을 취했습니다. 구체적으로는, 어텐션 과정의 활성화 함수 부분(Transformer에서는 보통 softmax를 사용)을 전적으로 아날로그 회로로 구현했습니다. *전하-펄스 변환 회로(charge-to-pulse)*라고 불리는 장치를 통해, 앞서 합산된 아날로그 전류값을 시간 폭이 다른 펄스 신호로 변환합니다. 전류의 양에 비례하여 펄스의 길이가 길어지도록 함으로써, 일종의 아날로그 형태의 활성화(정규화) 연산을 수행하는 것입니다. 이렇게 얻어진 펄스는 마지막에 간단한 펄스 카운터로 계측되어 디지털 값으로 변환됩니다. 이런 접근 덕분에, 전력 잡아먹는 거대한 ADC 대신 작은 카운터들만으로 결과를 얻을 수 있어 아날로그 계산의 이점을 살리면서도 최종 출력은 정확히 디지털 값으로 얻어낼 수 있었습니다.


Softmax 대신 HardSigmoid: 아날로그 구현을 단순화하기 위해 연구진은 Transformer 공식의 일부를 변형했습니다. 앞서 언급했듯이, 일반적으로 어텐션 점수에는 Softmax 함수를 써서 모든 토큰의 점수 합이 1이 되도록 정규화합니다. 그러나 Softmax는 모든 입력의 합을 구하는 글로벌 연산을 필요로 해 아날로그 회로로 구현하기에 복잡합니다. 대신 연구진은 HardSigmoid라는 비교적 단순한 활성화 함수를 사용했습니다. HardSigmoid는 시그모이드 함수의 선형 근사 형태로, 각 점수에 개별적으로 적용되는 함수입니다. 이 덕분에 복잡한 전역 합산이나 연산자간 연결 없이, 각 어텐션 점수를 로컬하게 처리할 수 있습니다. 하드웨어적으로는 앞서 소개한 전하-펄스 회로를 활용해 HardSigmoid를 구현했습니다. 놀라운 점은, 이러한 간소화에도 불구하고 모델의 정확도가 크게 떨어지지 않았다는 것입니다. 선행 연구에 따르면 시그모이드 기반 어텐션도 소프트맥스 못지않은 성능을 낼 수 있으며, 파라미터 규모가 수십억에 이르는 모델에서도 유사한 정확도를 보이는 것으로 보고되었습니다. 즉, Softmax를 희생한 것이 아니라 대안을 채택했다고 볼 수 있고, 실제 성능은 거의 유지하면서 하드웨어 구현 용이성은 크게 높였습니다.


GPT-2 수준 성능, 처음부터 다시 학습하지 않고 달성하다

아날로그 인-메모리로 LLM을 구현하면서 생기는 변화를 요약하면: 연산은 약간의 잡음과 오차가 있는 아날로그로 이뤄지고, Softmax 대신 HardSigmoid를 쓴다는 점입니다. 이러한 하드웨어 제약에 맞춰 모델을 조정하지 않으면 성능 저하가 생길 수 있습니다. 일반적으로는 이렇게 신경망의 수학이 바뀌면 처음부터 다시 학습(train)해서 최적의 파라미터를 찾아야 할 것입니다. 하지만 연구진은 LLM을 처음부터 다시 학습하지 않고도 기존 성능을 유지하는 똑똑한 방법을 제시했습니다.


핵심은, 사전에 소프트웨어로 학습된 GPT-2 모델(약 1억 24백만 파라미터 규모)을 출발점으로 삼고, 이를 새로운 아날로그 하드웨어에 맞춤 보정하는 것입니다. 저자들은 사전학습된 GPT-2를 하드웨어로 옮길 때 각 층의 가중치를 조정하는 초기화 알고리즘을 고안했습니다. 이 알고리즘은 레이어별 출력 분포와 하드웨어 특성을 고려하여 가중치를 스케일링하거나 보정합니다. 예를 들어 HardSigmoid를 쓰면 출력 범위가 Softmax와 다르므로 이에 맞게 일부 파라미터를 재조정하고, 아날로그 곱셈의 비선형성이나 잡음도 통계적으로 보완합니다. 이렇게 함으로써 기존 GPT-2가 가지고 있던 언어 지식을 최대한 유지하면서 하드웨어에 적합한 형태로 변환한 것입니다.


그 결과, 아날로그 인-메모리 LLM은 문장 예측 등의 테스트에서 기존 GPT-2에 필적하는 정확도를 달성했습니다. 즉, 하드웨어 제약으로 인해 모델이 달라졌음에도 불구하고, 성능은 GPT-2 수준으로 유지된다는 것입니다. 놀랍게도, 이러한 성능에 도달하기 위해 필요한 추가 학습 단계도 매우 적었습니다. 논문에 따르면, 이 파라미터 이식(weight transfer) 접근법을 통해 몇 천 번의 추가 미세 튜닝만으로 GPT-2와 동등한 성능을 얻었는데, 이는 처음부터 랜덤하게 학습을 시작하는 경우보다 훨씬 빠르게 수렴한 것이라고 합니다. 또한 연구진이 더 큰 모델(GPT-2-XL, ~15억 파라미터)로 확장 실험을 해본 결과, 아날로그 하드웨어 버전도 해당 규모의 사전학습 모델에 근접한 성능을 보였다고 합니다. 비록 약간의 차이는 있었지만, 처음부터 동일 조건에서 학습한 소프트웨어 모델과는 대등하게 경쟁했고, 기본 GPT-2보다는 훨씬 높은 성능을 냈습니다.


요컨대, 이번 연구는 기존에 학습된 대규모 언어모델을 새로운 아날로그 하드웨어에 손쉽게 옮겨올 수 있음을 보여주었습니다. 수백만~수십억 개의 파라미터를 가진 LLM을 다시 학습하는 데에는 막대한 비용과 시간이 드는데, 그런 재훈련 없이도 학습된 모델을 재활용할 수 있다는 점은 실용적인 관점에서 큰 장점입니다. 연구진의 소프트웨어-투-하드웨어 매핑 기법 덕분에, 비전통적인 아날로그 연산 기반 하드웨어에서도 우리가 익히 알고 있는 GPT-2 수준의 언어 능력을 구현할 수 있었습니다.


시사점: 손바닥 안의 “GPT-5”를 향하여

메모리 병목을 제거하고 에너지 사용을 극적으로 줄였다는 것은, 이 아날로그 인-메모리 어텐션 기술이 오프라인 동작하는 저전력 AI의 시대를 앞당길 잠재력이 있다는 뜻입니다. 어텐션 연산이 GPU 대비 100배 빠르고 10,000배 에너지 효율적으로 이루어진다면, 거대한 언어 모델이라도 휴대폰이나 소형 기기 안에서 실시간으로 구동하는 상상을 해볼 수 있습니다. 언젠가 “GPT-5” 수준의 모델이 내 손바닥 안 (예를 들면 스마트폰 속)에서 돌아가는 일이 꿈만은 아닐지 모릅니다. 비유하자면, 지금까지는 AI 모델을 구동하려면 데이터센터의 거대한 GPU 팜이 필요했다면, 앞으로는 여러분의 손 안에 작은 AI 슈퍼컴퓨터를 들고 다니는 셈이 될지도 모릅니다.


물론, 연구 단계에서 현실 세계의 제품으로 가기까지는 풀어야 할 숙제가 남아 있습니다. 이번에 사용된 게인 셀 메모리 기술은 아직 발전 중인 신기술이라 상용화된 칩에 바로 존재하는 것은 아닙니다. (저자들도 “해당 기술이 아직 완전히 성숙하지는 않았지만, 유망한 방향을 제시한다”고 언급했습니다.) 또한 이런 아날로그 IMC를 전체 시스템에 통합하려면, 아날로그 소자의 잡음 및 공정 변동성 문제, 나머지 (어텐션 이외) 디지털 부분과의 인터페이스 등 해결할 과제들이 있습니다. 그럼에도 불구하고 이번 연구는 그러한 문제들이 충분히 해결 가능함을 보여주는 **개념 실증(proof-of-concept)**이라고 할 수 있습니다. 저자들은 실제 언어 처리 벤치마크에서 높은 정확도를 유지하는 GPT-2급 모델을 구현했고, 필요한 회로 설계와 면적, 에너지 분석 수치를 논문에서 제시하였습니다.


더 크게 그림을 그려보면, 이처럼 특화된 하드웨어 덕분에 AI의 활용 범위가 대폭 확장될 것으로 기대됩니다. 현재 최고 성능의 모델들은 엄청난 전력을 소모하는 데이터센터에서 동작하기 마련이지만, 어텐션과 같은 핵심 연산을 10,000배 효율로 만들 수 있다면 머지않아 생성형 AI를 로컬 디바이스에서 직접 구동하는 것이 현실화될 수 있습니다. 네트워크에 연결되지 않은 상태에서도 복잡한 언어 작업을 수행하거나, 웨어러블 기기에서 실시간 번역과 Q&A를 처리하는 등 전력 제약이 있는 환경에서 거대 언어모델을 활용하는 시대가 열릴 수 있는 것이죠. 논문에서 강조하듯 이러한 성과는 “초고속, 초저전력 생성형 트랜스포머” 시대를 향한 중요한 걸음입니다. 아날로그 인-메모리 컴퓨팅이 가져다줄 AI 하드웨어의 미래가 매우 기대됩니다. 메모리와 프로세서의 경계를 허무는 이러한 접근법은, 높은 성능과 에너지 효율을 동시에 추구하는 새로운 길을 제시하며, 개인용 휴대기기부터 엣지 디바이스까지 어디서나 강력한 언어모델을 사용할 수 있는 세상을 한층 더 가까이 불러오고 있습니다. 어쩌면 머지않아, “손안의 GPT-5”가 현실이 될지 누가 알겠습니까!


(상기 요약은 Nature Computational Science 2025년에 게재된 “Analog in-memory computing attention mechanism for fast and energy-efficient large language models” 논문을 토대로 작성되었습니다.)



keyword
작가의 이전글MCP-OpenStack-Ops