brunch

깊이 쌓는다고 다가 아닌 세상

Nested Learning이 말하는 딥러닝의 착시 현상

by 미미니

우리는 지난 10년 동안 딥러닝에서 레이어를 더 쌓으면, 신(God)이 깃든다는 기묘한 믿음 속에 살았습니다.

Transformer 구조 하나를 잘 깎아서 파라미터를 100배, 1000배로 불리면 갑자기 AI가 철학을 논하고, 시를 쓰고, 복잡한 추론을 해내니까요. 우리는 이 현상을 두고 '깊이(Deep)가 지능을 만든다'라고 믿었습니다.

그런데, 그게 진짜 '물리적인 깊이(Layer Depth)' 때문이었을까요?

구글 리서치(Google Research)의 Ali Behrouz 팀이 NeurIPS 2025에 던진, 그야말로 핵폭탄급 논문이 하나 있습니다. 제목부터 도발적입니다.


Nested Learning: The Illusion of Deep Learning Architectures


이 논문의 핵심 메시지는 우리의 통념을 완전히 부수고 시작합니다.

"지금까지 우리가 '깊게 쌓았다'라고 생각한 건 착시였다. 진짜 지능의 깊이는 '공간'이 아니라 '시간'에 있다."


현대의 LLM은 "순행성 기억상실증" 환자다


논문은 시작부터 현재의 SOTA 모델들에게 아주 잔인한 진단을 내립니다. 지금의 거대 언어 모델들은 뇌과학적으로 볼 때 "전전두엽 손상으로 인한 순행성 기억상실증(Anterograde Amnesia)" 환자와 똑같다는 것입니다.


• 과거의 기억: 미리 훈련된 지식은 기억합니다. (옛날 일은 기억함)

• 현재의 의식: 컨텍스트 윈도우 내의 정보는 처리합니다. (지금 눈앞의 일은 봄)

• 치명적 결함: 새로 본 정보를 장기 기억(파라미터)으로 옮기지 못합니다.


모델은 수백만 토큰을 읽어도, 가중치(Weight)가 변하지 않습니다. 그래서 매번 똑같은 프롬프트를 입력할 때마다 "오, 처음 보는 정보군요!"라며 놀라는, 영원한 초기 알츠하이머 상태에 머물러 있는 셈입니다.


레이어(Layer)가 아니라, 빈도(Frequency)가 핵심이다


우리 뇌는 이렇게 작동하지 않습니다. 뇌는 부위마다 업데이트 주기가 다릅니다.


• 해마: 밀리초(ms) 단위로 빠르게 시냅스를 업데이트합니다. (단기 기억)

• 대뇌 피질: 수면 중 리플레이를 통해 아주 천천히, 견고하게 업데이트합니다. (장기 기억)

이 논문은 딥러닝의 모든 구성 요소를 서로 다른 주기로 업데이트되는 중첩된 최적화 문제로 재정의합니다. 이것이 바로 Nested Learning(NL)입니다.

여기서 소름 돋는 통찰이 등장합니다.

우리가 그동안 혁신적인 아키텍처라고 불렀던 Transformer, Mamba, RWKV, RetNet, 심지어 Adam 옵티마이저까지... 수학적으로 뜯어보니 NL(Nested Learning)의 아주 특수한 일부 케이스에 불과했다는 것입니다.

우리는 그동안 거대한 코끼리의 발톱만 만지면서 "이것이 딥러닝이다!"라고 외치고 있었던 것일지도 모릅니다.


옵티마이저는 도구가 아니다, '메모리'다


이 논문이 던지는 또 하나의 충격적인 관점은 옵티마이저(Optimizer)에 대한 재해석입니다.


• SGD: 1단계 메모리 (현재만 봄)

• SGD + Momentum: 2단계 메모리 (과거의 그래디언트를 압축해서 기억함)

• Adam: 3단계 메모리 (1st & 2nd moment를 기억함)


우리가 학습을 돕는 도구라고 생각했던 옵티마이저가, 사실은 과거의 정보를 압축 저장하는 메모리 모듈이었던 겁니다. 그렇다면 더 똑똑한 모델을 만들려면? 복잡한 레이어를 쌓을 게 아니라, 메모리의 시간적 깊이를 더 넓고 깊게 설계하면 됩니다.


그리하여 탄생한 괴물, HOPE


이론만 늘어놓는 논문이 아닙니다. 저자들은 이 이론을 증명하기 위해 HOPE라는 새로운 아키텍처를 제안합니다.


HOPE의 핵심은 두 가지입니다:

1. Continuum Memory System: 단일 MLP 대신, 서로 다른 업데이트 주기를 가진 여러 개의 MLP를 중첩시킵니다. (빠른 MLP <-> 중간 MLP <-> 아주 느린 MLP)

2. Self-Modifying Titan: 구글의 전작 Titans(2024) 모델이 스스로 자신을 업데이트하는 법(Self-modification)을 배우게 만듭니다.


동일한 760M, 1.3B 사이즈에서 Transformer++, RetNet, DeltaNet, Samba, Titans 등 쟁쟁한 경쟁자들을 대부분의 벤치마크에서 압도했습니다. 특히 장기 컨텍스트연속 학습에서 그 격차는 명확했습니다.



마무리: 더 넓은 지능의 세계로


딥러닝의 착시를 걷어내고 이 논문은 이렇게 요약할 수 있습니다.


"레이어를 공간적으로 더 쌓는 시대는 끝났다.

이제는 '얼마나 다양한 시간 스케일(Time-scale)로 기억을 관리하느냐'가 진짜 강함의 척도다."


난립하던 SOTA 아키텍처들을 하나의 수학적 프레임워크로 통일했고, Transformer의 성공 원인과 한계를 명확히 설명했으며, 다음 세대 아키텍처의 방향성(Multi-scale Update)을 제시하고, 실제로 증명한 이 묵직한 논문을 꼭 한 번 읽어보시길 추천합니다!


아마 내년이 되면, 엔지니어들끼리 이런 대화를 나눌지도 모릅니다.

"거, 모델 레이어 몇 개예요?" 대신,

"요즘 모델은 몇 단계 Nested Learning 쓰세요?"라고 말이죠.

keyword
매거진의 이전글RLVR vs SFT