MoE가 바꾼 모델 구조와, 그 뒤에 숨은 메모리 전쟁
AI 모델의 발전은 오랫동안 하나의 공식으로 설명되어 왔습니다. 더 많은 파라미터, 더 큰 연산량, 더 강력한 GPU입니다. 그러나 최근 대형 언어모델의 내부 구조를 들여다보면, 이 공식이 더 이상 충분하지 않다는 신호가 분명해지고 있습니다. 그 중심에 있는 개념이 바로 MoE(Mixture of Experts)입니다.
MoE는 하나의 거대한 모델이 모든 입력을 처리하는 방식이 아닙니다. 대신 여러 개의 ‘전문가 모델(Experts)’을 병렬로 구성해 두고, 입력이 들어올 때마다 일부 전문가만 선택적으로 활성화하는 구조입니다. 쉽게 말해, 모든 뇌세포를 항상 쓰는 것이 아니라 문제에 맞는 영역만 선택적으로 쓰는 방식입니다. 이 구조의 핵심적인 장점은 명확합니다. 전체 파라미터 수는 크게 늘릴 수 있으면서도, 실제 연산량은 제한할 수 있기 때문입니다.
이 방식은 AI 확장의 방향을 바꿉니다. 더 많은 연산을 쓰지 않고도 더 큰 모델을 설계할 수 있게 됩니다. 그래서 MoE는 '연산 효율을 높이는 구조'로 자주 설명됩니다. 그러나 여기서 한 단계 더 들어가 보면, 진짜 병목은 연산이 아니라 메모리라는 사실이 드러납니다.
MoE 구조에서는 전문가 모델 대부분이 매 순간 사용되지 않습니다. 하지만 사용되지 않는다고 해서 사라지는 것은 아닙니다. 이 전문가들은 모두 메모리에 상주해야 하고, 필요할 때 즉시 불러올 수 있어야 합니다. 즉, 연산은 줄어들 수 있지만, 저장해야 할 모델 상태와 가중치의 총량은 오히려 폭발적으로 증가합니다.
여기에 또 하나의 문제가 더해집니다. MoE 모델은 입력에 따라 어떤 전문가를 선택할지 판단해야 합니다. 이 과정에는 라우팅 정보, 중간 상태, 토큰별 선택 기록 등이 수반됩니다. 이는 단순한 모델 가중치 저장을 넘어, 동적이고 고빈도의 메모리 접근을 요구합니다. 메모리는 더 커져야 할 뿐 아니라, 더 빠르고, 더 자주 움직여야 합니다.
이 지점에서 AI 인프라의 중심축이 이동합니다. 과거에는 “얼마나 많은 연산을 할 수 있는가?”가 경쟁의 핵심이었습니다. 이제는 “얼마나 많은 모델 상태를 안정적으로 저장하고, 얼마나 빠르게 불러올 수 있는가?”가 성능과 비용을 동시에 좌우합니다. HBM, 온패키지 메모리, 메모리 인터커넥트, 랙 단위 메모리 설계가 갑자기 중요한 키워드로 떠오른 이유가 여기에 있습니다.
이 변화는 단순한 하드웨어 이슈가 아닙니다. AI 모델의 설계 철학 자체가 바뀌고 있기 때문입니다. 앞으로의 모델은 하나의 거대한 지능이라기보다, 다수의 지식 조각과 경험을 저장한 거대한 기억 창고에 가까워질 가능성이 큽니다. 추론은 이 기억을 얼마나 잘 꺼내 쓰느냐의 문제로 이동합니다.
이 흐름 속에서 기술 혁신의 방향도 달라집니다. 첫째, 모델 구조 측면에서는 MoE를 넘어 장기 기억, 외부 메모리, 지속적 컨텍스트 관리가 결합된 형태로 진화할 가능성이 큽니다. 둘째, 하드웨어 측면에서는 연산 가속기만큼이나 메모리 대역폭과 지연시간을 줄이는 설계가 핵심 경쟁력이 됩니다. 셋째, 시스템 차원에서는 단일 칩이 아니라 랙, 데이터센터 전체를 하나의 ‘기억 시스템’처럼 설계하는 접근이 강화될 것입니다.
AI의 발전은 더 이상 단순한 연산 경쟁이 아닙니다. 더 많은 것을 기억하고, 필요할 때 즉시 꺼내 쓰는 능력이 지능의 밀도를 결정합니다. MoE는 그 변화를 가장 먼저 드러낸 구조입니다. 그리고 이 구조가 던진 질문은 분명합니다. AI의 다음 전장은 계산이 아니라 기억입니다.
https://developer.nvidia.com/ko-kr/blog/applying-mixture-of-experts-in-llm-architectures/