매니폴드 하이퍼커넥션 논문 후기
브런치 친구들, 오늘 아침 페이스북에 하정우 AI미래기획수석님이 DeepSeek에서 나온 mHC 논문을 올리셔서 저도 한번 논문을 읽어 보았습니다. 올린 포스팅의 댓글 중에 우스개 소리로 이 논문을 분석하는 것이 공직자의 언어가 아니다(?)라는 댓글도 재미있었습니다. 안 그래도 이 논문은 중국 쪽 소셜 미디어에서 엄청나다고 해서 실제로 그런지 확인 할겸 이번 주에 읽어볼까 하던 참이었습니다. 글이 길어서 부분을 나눠 제가 이해 하는 만큼 한번 정리해 보았습니다.
먼저 저의 브런치 글을 읽기 전에 DeepSeek 에서 나온 최신 논문 부터 읽어 보시고, 저의 후기를 읽어 보셨으면 하는 바램입니다. 물론 LLM 전문가이거나 DeepSeek의 아키텍처에서 잘 아시는 분들이라면 상관없겠지만, 처음 접하는 분들은 이게 도대체 무슨 소리인가 싶을 정도로 처음 들어 보는 용어와 개념들이 많이 들어 있기 때문입니다. 그리고 이 논문 이전의 논문도 함께 읽어 보면 솔루션 변화의 추아를 이해하는 데 큰 도움이 됩니다.
이 논문을 접하고 처음 든 생각은, 작년 DeepSeek이 발표한 이후, mHC(Manifold-Constrained Hyper-Connections) 아키텍처가 과연 무엇이 달라졌는가라는 점이었습니다. 따라서, mHC 구조가 완전히 새로운 모델 아키텍처라기보다는 기존 트랜스포머의 잔차 연결(Residual Connection) 방식이 가진 한계를 극복하기 위해, 병렬적인 정보 흐름을 허용하는 Hyper-Connections(HC)를 도입하되, 그 불안정성을 수학적인 매니폴드 제약(Manifold Constraint)으로 제안했습니다.
기존 HC는 잔차 스트림을 확장하여 성능을 높였으나, 연결 방식이 무분별하여 신호가 폭발하거나 소실되는 부작용을 싱크혼-크놉 알고리즘을 도입하여 잔차 연결 행렬을 이중 확률 행렬 매니폴드 내로 제한함으로써 시스템의 안정적인 항등 매핑 속성을 안정적으로 유지시켰습니다. 그런데, mHC는 밀집성(dense connectivity)으로 인해 증가하는 메모리와 통신 오버헤드를 “구조적 제약 + 시스템 레벨 최적화”의 조합으로 제어했다는 점입니다. 그러한 해결책으로 싱크혼-크놉 알고리즘기반의 구조적 제약으로 폭주하는 상태를 막았고, 여러 개의 커널을 하나로 묶어 놓는 GPU 커널 레벨 최적화인 커널 퓨전 방법과 DualPipe 최적화, 선택적 재계산 방법 등을 통해 시스템 레벨에서 계산 시간 오버헤드를 약 6.7% 수준으로 억제했다는 것을 논문에서 주장했습니다.
즉, 그러한 해결책으로 인프라 최적화를 통해 하드웨어 오버헤드를 최소화하며 대규모 모델 훈련의 효율성을 확보했습니다. 그러한 증거로, 이 논문의 실험 결과로, 27B 규모의 모델에서도 뛰어난 수렴성과 성능을 입증하며 기초 모델 설계를 위한 실용적인 대안을 제시했습니다. 결과적으로 이 프레임워크는 복잡한 위상 구조에서도 수치적 안정성을 유지하며 언어 모델의 추론 능력을 대폭 향상시켰습니다.
DeepSeek 팀이 놀라운 점은 하드웨어와 소프트웨어를 전문가 수준으로 세세하게 잘 다룬다입니다. 그래서 많은 논문 리뷰어들이 이 논문에 대해 뛰어난 점들을 현재 앞다투어 소개하고 있는 것 같습니다. 그렇다면, 좀더 구체적으로 논문에 대해 살펴 보도록 하겠습니다.
작년에 발표된 DeepSeek의 기존 모델 계열은 전통적인 트랜스포머 구조에 매우 충실했습니다. Attention과 FFN, 그리고 그 사이를 잇는 잔차 연결(residual connection)이라는 검증된 구성 요소를 유지하면서, 모델을 키우는 방향 역시 비교적 보수적으로 선택해 왔습니다.
DeepSeek이 집중해 온 것은 새로운 연산 블록을 도입하는 것이 아니라, 이미 잘 알려진 구조를 얼마나 효율적으로, 그리고 얼마나 안정적으로 확장할 수 있는가였습니다. 이를 위해 MoE, 파라미터 효율화, 그리고 파라미터는 존재하지만 그중 일부만 실제로 계산에 참여하는 희소 계산(sparse computation) 기반의 계층 설계 같은 전략들이 활용되었습니다. 이 접근의 장점은 분명했습니다. 구현이 단순하고, 분산 학습에 유리하며, 학습 안정성도 비교적 예측 가능했습니다. 하지만 동시에 한계도 분명했습니다. 모델을 깊게 만드는 데에는 구조적인 제약이 존재했다는 점입니다.
기존 DeepSeek 아키텍처의 핵심 병목은 QKV나 FFN의 용량 문제가 아니었고, 옵티마이저나 학습 스케줄의 문제도 아니었습니다. 문제의 핵심은 잔차 연결(residual connection) 자체였습니다. 잔차(Residual)는 얕거나 중간 깊이의 모델에서는 매우 효과적이지만, 깊은 신경망(deep neural network)이 지나치게 깊어질 경우 각 층에서 누적되는 정보들이 서로 얽히기 시작합니다.
그동안 딥시크는 MoE를 통해 '옆으로(Width)' 모델을 키우는 데 집중해왔죠. 그런데 모델이 깊어지면 깊어질수록 정보가 층을 지나며 뭉개지고, 이른바 항등 매핑(identity mapping)이 깨지는 고질적인 문제가 발목을 잡았습니다. 쉽게 말해, 층을 200층 쌓아도 뒤로 갈수록 "내가 앞에서 무슨 생각을 했더라?"라며 논리를 잃어버리는 것과 같습니다. 참고로 잔차 연결에서의 항등 매핑이란, 입력이 다음 층으로 거의 그대로 전달될 수 있는 구조적 성질로, 한 층이 ‘아무것도 하지 않아도 되는 선택’을 가질 수 있음을 의미합니다.
즉, 학습은 가능하지만, 깊이를 늘릴수록 안정성은 급격히 떨어집니다. 이 때문에 기존 DeepSeek은 깊이(depth)를 늘리기보다는 폭(width)을 키우거나 MoE를 통해 효율적으로 모델 용량을 확장하는 전략을 택해 왔습니다.
mHC는 트랜스포머의 연산 블록 자체를 거의 바꾸지 않았습니다. Attention도, FFN도 그대로 입니다. 달라진 것은 오직 하나, 계층 간을 연결하는 방식인 잔차 연결 방식입니다. 기존 DeepSeek 구조에서는 각 층이 하나의 잔차 상태를 다음 층으로 전달합니다. 반면 mHC에서는 여러 잔차 상태를 동시에 유지합니다. 중요한 점은 이 잔차들이 단순히 늘어났다는 사실이 아니라, 그 잔차들이 결합되는 방식에 엄격한 구조적 제약이 걸려 있다는 점입니다.
mHC는 앞에서 말한 문제를 싱크혼-크놉 알고리즘이라는 수학적인 장치로 해결했습니다. 계층 간 연결을 '이중 확률 행렬'이라는 틀 안에 가둠으로써, 정보가 폭주하거나 소멸하지 않게 꽉 잡아준 겁니다. 다시 말해, 다중 잔차를 결합하는 연결 행렬을 이중 확률 행렬(Doubly Stochastic Matrix) 매니폴드 위상으로 투영함으로써, 잔차 결합이 항등 매핑 성질을 자연스럽게 보존하도록 만듭니다. 이중 확률 행렬은 모든 원소가 0 이상이고, 각 행과 열의 합이 모두 1인 행렬입니다. 이 제약은 잔차 결합 과정에서 특정 잔차가 과도하게 증폭되거나, 반대로 완전히 소멸되는 것을 방지합니다.
그 결과, 잔차 결합은 보존적이고 균형 잡힌 형태를 유지하게 됩니다. 싱크혼-크놉 알고리즘은 학습 중 생성된 임의의 연결 행렬을 반복적으로 정규화하여, 항상 이 이중 확률 행렬 매니폴드 위에 머물도록 만듭니다. 덕분에 mHC에서는 항등 매핑이 우연히 유지되는 것이 아니라 구조적으로 보장됩니다. 그래서, 이 설계 덕분에 mHC가 가져온 가장 중요한 변화는, 깊이(depth)가 다시 유효한 스케일링 축이 되었다는 점입니다.
기존 DeepSeek에서는 모델을 깊게 만들수록 학습 불안정성이 빠르게 커졌지만, mHC가 적용된 구조에서는 깊이가 증가해도 기울기 흐름이 비교적 안정적으로 유지됩니다. 이는 단순히 성능 수치의 문제가 아니라, 모델을 설계하고 학습하는 과정 전반에 실질적인 차이를 만듭니다. 그 결과, 모델 확장의 방향이 “더 넓게”에서 “더 깊게 생각하는 방향”으로 다시 열리게 되었다고 볼 수 있습니다.
여기서 소름 돋는 점은 수치로 증명된 '사고의 깊이' 입니다. 단순히 학습이 안정된 걸 넘어, 복합적인 추론 능력이 비약적으로 상승했습니다. 27B 모델 기준으로 기존 방식보다 수학(GSM8K)은 7.1%p, 논리 추론(BBH)은 7.2%p나 점수가 뛰었습니다. 지식(MMLU)보다 '생각하는 힘(reasoning)'이 필요한 영역에서 훨씬 더 드라마틱한 결과가 나온 결과를 논문에서 보실 수 있습니다.
물론 이런 제약이 아무 비용 없이 들어갈 수는 없습니다. 싱크혼 정규화와 멀티 잔차 결합은 계산과 메모리 오버헤드를 유발할 수 있습니다. mHC 논문이 흥미로운 이유는, 이 지점을 시스템 레벨에서 함께 해결했다는 점입니다. 먼저 커널 퓨전(Kernel Fusion)을 통해 잔차 결합, 정규화, 가중치 적용을 하나의 GPU 커널로 묶어 커널 런치 오버헤드와 메모리 접근 비용을 최소화했습니다. 이로 인해 이론적으로 추가된 연산이 실제 학습 시간에서는 거의 드러나지 않습니다.
또한 선택적 재계산(Selective Recomputing) 전략을 사용해 모든 중간 활성화 값(activation)을 저장하는 대신, 역전파 시 필요한 부분만 선택적으로 재계산함으로써 메모리 사용량을 크게 줄였습니다. 계산량을 조금 늘리는 대신, 대규모 모델 학습에서 가장 민감한 메모리 병목을 완화한 셈입니다. 이 두 가지가 결합되면서 mHC는 이론적으로만 가능한 구조가 아니라, 실제 LLM 스케일에서도 동작 가능한 구조로 완성됩니다.
학습 과정에서도 변화는 분명합니다. 기존 구조에서는 학습 후반부로 갈수록 loss 곡선이 요동치거나, 특정 층에서 기울기가 급격히 커지는 현상이 관찰되곤 했습니다. 초기화나 하이퍼파라미터에 대한 민감도도 높은 편이었습니다. 논문을 살펴보면, mHC가 적용된 이후에는 이러한 현상이 완화됩니다. 손실 함수 값(loss) 곡선은 더 매끄럽고, 기울기 놈(gradient norm) 역시 층 전반에 걸쳐 안정적으로 유지됩니다. 이는 모델 성능 이상의 의미를 가지는데, 훈련 자체가 쉬워진다는 점에서 대규모 모델을 다루는 입장에서는 상당히 중요한 개선으로 보아집니다.
물론 mHC가 모든 면에서 이득만 가져오는 것은 아닙니다. 여러 잔차 상태를 동시에 유지해야 하므로 활성(activation) 메모리 사용량은 증가합니다. 계산량보다는 메모리 부담이 커지는 구조이며, 특히 매우 긴 컨텍스트를 다루는 시나리오에서는 부담이 될 수 있습니다. 즉, mHC는 계산 효율을 극대화하는 구조라기보다는, 안정적인 깊이를 얻기 위해 메모리 용량을 지불하는 선택에 가깝습니다.
이 변화가 흥미로운 이유는 mHC가 DeepSeek의 기존 철학과 크게 어긋나지 않기 때문입니다. DeepSeek은 트랜스포머를 부정하지도 않았고, MoE를 대체하려 하지도 않았습니다. 멀티 잔차를 두고 연결하는 mHC 구조는 MoE의 Router–Experts–Dispatch/Combine 구조와 표면적으로 유사해 보일 수 있으나, 실제로는 router가 존재하지 않고 토큰을 특정 expert로 보내지 않습니다.
대신 모든 잔차 상태를 항상 계산에 포함시키고, 이들을 가중 결합함으로써 멀티 잔차 전체에 걸쳐 항등 매핑 성질을 유지하는 방식이며, 이는 희소 라우팅(sparse routing) 기반의 MoE와는 오히려 반대되는 밀집 연속적(dense connectivity) 구조에 가깝습니다. 그래서 이는 새로운 패러다임을 선언하기보다는, 이미 검증된 DeepSeek의 구조를 끝까지 밀어붙이겠다는 전략이 아닐까 생각합니다.
지금까지 mHC의 알고리즘과 아키텍처 관점에서 얘기했다면, 학습과 추론 관점에서 다시 보충해서 정리하자면 다음과 같습니다. mHC의 효과를 이해할 때 중요한 점은, 이 구조가 학습(training)과 추론(inference)에 동일한 방식으로 영향을 미치지는 않습니다.
논문에서 확인할 수 있는 실험 결과를 기준으로 보면, mHC의 주된 효과는 학습 안정성에 있으며, 추론 단계에서는 그 안정성이 만들어낸 모델 품질의 결과가 간접적으로 드러나는 형태에 가깝습니다. 논문에서는 이러한 설계가 실제 학습 과정에서 다음과 같은 효과로 이어진다는 점을 실험적으로 보여줍니다. 첫째, loss 곡선의 요동이 감소하고, 수렴이 보다 매끄럽게 진행합니다. 둘째, 계층 전반에 걸쳐 gradient norm이 안정적으로 유지됩니다. 셋째, 동일한 컴퓨트 예산에서 최종 수렴 loss가 기존 구조 대비 개선됩니다. 넷째, 모델 크기와 토큰 수를 늘려도 이러한 안정성이 유지됩니다.
반면 추론 단계에서 mHC의 영향은 학습 단계만큼 직접적으로 측정되지는 않습니다. mHC는 MoE처럼 토큰 단위로 계산을 생략하거나 연산량을 줄이는 구조가 아니며, 멀티 잔차를 유지하고 결합하는 과정이 포함되기 때문에, 추론 지연(latency)이나 처리량(throughput)이 개선된다고 논문에서 명시적으로 주장하지도 않습니다. 다만 논문에서 다루는 시스템 최적화 역시 주로 학습 단계의 오버헤드를 줄이는 데 초점이 맞춰져 있습니다.
추론 단계에서 mHC의 효과는, 깊은 계층까지 학습된 표현이 추론 시에도 안정적으로 유지되고, 복합적인 reasoning이 필요한 벤치마크에서 성능이 개선됩니다. 또한, 출력의 변동성이 줄어들고, 결과의 일관성이 높아집니다. 그러므로 mHC는 추론 과정 자체를 최적화하는 구조라기보다는, 학습 단계에서 확보한 안정성이 추론 결과의 품질로 이어지도록 보장한다고 생각됩니다.
이 논문을 읽고 난 후, DeepSeek의 mHC(Manifold-Constrained Hyper-Connections) 기술은 단순히 "성능이 좋은 모델"을 만드는 차원을 넘어, OpenAI의 o1(Strawberry)이 주도하고 있는 'Reasoning 모델' 경쟁에서 게임의 판도를 바꿀 수 있다고 생각이 들었습니다. 비즈니스 및 전략적 관점에서 mHC가 왜 결정적인 역할을 하는지 3가지 정도만 정리하자면 다음과 같습니다.
첫째, '생각의 깊이'를 위한 하드웨어적 한계 돌파입니다. OpenAI o1의 핵심은 추론 시 시간을 더 써서 단계별로 생각하는(System 2 thinking) 방식입니다. 하지만 이 '사고의 과정'을 담아낼 그릇인 Base Model 자체가 부실하면 아무리 시간을 줘도 한계가 있습니다. 그런데, 기존 모델들은 층이 깊어지면 정보가 유실되는 '깊이의 장벽'에 가로막혀 있었습니다. mHC는 싱크혼 제약을 통해 이 장벽을 허물고 극단적으로 깊은 모델(Ultra-deep model)을 안정적으로 학습시킬 수 있게 합니다. 그러므로 o1처럼 복잡한 논리 고리를 연결해야 하는 모델에게 mHC는 "더 긴 사고의 호흡"을 유지할 수 있는 신경망 구조를 제공합니다. 즉, OpenAI가 소프트웨어(RL/CoT)로 추론을 강화할 때, DeepSeek은 하드웨어적 설계로 아키텍처 단계에서 추론의 기초 체력을 압도적으로 키운 셈입니다.
둘째, '가성비 추론'의 표준 제시입니다. 이것은 중국이라서 가능할지 모르겠습니다. 미중 GPU 메모리 판매 제약으로 비싸지만 높은 성능과 효율을 자랑하는 NVIDIA GPU를 사용할 수 없기 때문에 DeepSeek 연구 팀은 중국 화웨이와 함께 인프라 최적화의 해를 찾았다고 보아집니다. OpenAI o1의 가장 큰 단점은 높은 추론 비용과 느린 속도입니다. 기업들이 실 서비스에 도입하기에는 비용 부담이 큽니다. mHC는 학습 오버헤드를 6.7%로 억제하면서도 추론 성능(GSM8K, BBH 등)을 대폭 끌어올렸습니다. 이는 DeepSeek이 "OpenAI o1급의 지능을 훨씬 저렴한 인프라 비용으로 제공하겠다"는 선언과 같습니다. 특히, 엔터프라이즈 시장에서는 '똑똑한 모델'만큼 '경제적인 모델'이 중요합니다. mHC 기반의 모델은 동일한 성능 대비 적은 컴퓨팅 자원을 소모하므로, API 가격 경쟁력에서 OpenAI를 압박할 수 있는 강력한 무기가 될 수 있습니다.
셋째, MoE를 넘어 'Dense의 귀환'을 뽑을 수 있겠습니다. 그동안 시장은 파라미터를 아끼는 희소 모델인 MoE가 정답이라고 믿어왔습니다. 하지만 MoE는 지식의 양은 많을지 몰라도 논리적 일관성을 유지하는 데는 한계가 있다는 지적이 있었습니다. mHC는 밀집형(Dense) 모델도 설계만 잘하면 압도적인 성능을 낼 수 있음을 증명했습니다. 이는 DeepSeek이 MoE(V3)와 Dense(mHC)라는 두 가지 강력한 아키텍처 포트폴리오를 모두 손에 넣었다고 생각하기 때문입니다.
그러므로 OpenAI의 o1이 "어떻게 생각하게 만들 것인가(Process)"에 집중할 때, DeepSeek은 mHC를 통해 "어떤 뇌 구조가 생각하기에 가장 적합한가(Structure)"에 대한 답을 내놓았습니다. 이것은 단순히 따라잡는 수준이 아니라, "더 깊고, 더 싸고, 더 안정적인" 추론 모델을 만들기 위한 기반 공사를 마쳤다는 뜻으로 해석할 수 있습니다.
정리하자면, 기존 DeepSeek이 “효율적으로 큰 모델”을 만드는 데 초점을 맞췄다면, mHC의 DeepSeek은 “안정적으로 깊은 모델”을 만들 수 있는 구조를 갖추게 되었습니다. mHC는 트랜스포머 이후의 아키텍처라기보다는, 트랜스포머가 최근의 파운데이션 모델을 만들 때, Agentic AI와 Reasoning에 보다 적합하도록 더 깊은 추론을 가능하게 해주는 연결 구조의 진화로 보입니다.
그리고 논문에서도 "Topology Design"의 중요성을 강조하며, 단순히 파라미터를 늘리는 것이 아니라 정보가 흐르는 '길'의 구조를 개선하는 것이 차세대 모델의 핵심임을 알게 되었습니다. 싱크혼-크놉(Sinkhorn–Knopp) 알고리즘의 수식 자체 보다 왜 그게 효과적인지 부터 고민하면서 논문을 읽어 보았습니다.
그동안 MoE 같은 희소(Sparse) 모델만이 스케일링 정답이라고 믿어왔습니다. 그런데 mHC는 "밀집(Dense) 모델도 제대로 연결만 하면 훨씬 더 깊고 정교한 Reasoning이 가능하다"는 걸 보여줬습니다. MoE가 여러 expert를 두고 "누가 잘 알아?"라고 묻는 방식인 폭의 확장이라면, mHC는 한 expert가 층을 거듭하며 "더 깊게 고민해봐"라고 채찍질하는 방식인 깊이의 확장과 같습니다.
특히, 이 '깊은 생각'의 비용이 비싸지도 않습니다. 커널 퓨전과 선택적 재계산이라는 공학적 삽질(?) 덕분에 학습 오버헤드를 고작 6.7% 로 막아냈습니다. 가성비의 딥시크답게, 시스템 레벨에서 병목을 꾹꾹 눌러 담았지만 이를 똑같은 환경으로 구성하게 실현해 보기란 만만치 않을 것 같습니다. 그래서, 이번 논문을 보며 제 고정관념이 깨졌습니다. "무조건 MoE가 효율적이다"라는 생각 대신, "안정적인 연결 구조만 뒷받침된다면 Dense 모델이 가진 잠재력이 훨씬 무섭다"는 걸 깨달았기 때문입니다.
여러분도 직접 이 논문을 읽어 보시고 분석해 보세요!혹시 제가 잘못 이해한 부분이 있다면 피드백 주세요!
* 참고: 이해를 돕기 위해 Google Notebook LM으로 아키텍처 다이어그램을 작성했습니다. 일부 한글이 깨어짐이 있습니다. 아울러 더 심화 학습을 하실 분들은 링크를 누르면, 관련 개념이나 논문 링크를 보실 수 있습니다.