DeepSeek mHC 트랜스포머의 한계를 넘다

1,000층의 기적을 만든 수학적 신호등

by 미미니

최근 AI 모델들은 점점 더 커지고 깊어지고 있습니다. 하지만 모델이 깊어질수록 엔지니어들은 보이지 않는 벽에 부딪힙니다. 바로 신호의 불안정성입니다. DeepSeek은 이 문제를 어떻게 해결했을까요? 2026년 최고의 화제작, deepseek mHC ​논문의 핵심을 파헤쳐 봅니다.


거인의 고민: 깊어질수록 미쳐버리는 모델


기존의 트랜스포머 모델은 층을 쌓을 때 '잔차 연결(Residual Connection)'이라는 1차선 도로를 사용합니다. 하지만 모델이 수백, 수천 층으로 깊어지면 이 도로는 마비됩니다. 신호가 너무 증폭되어 폭발하거나, 반대로 흔적도 없이 사라져 버리기 때문이죠.

이를 해결하기 위해 개발자들은 수많은 하이퍼파라미터를 조정하며 '학습의 기술'에 의존해 왔습니다. 하지만 DeepSeek은 말합니다. 기술이 아니라 설계를 바꿔야 한다고요.


mHC의 혁신: 초연결 고속도로와 수학적 통제


DeepSeek이 제안한 mHC(매니폴드 제약 초연결)는 크게 두 가지 혁신을 담고 있습니다.


하이퍼 커넥션

단순한 1차선 잔차 연결을 버리고, 여러 층 사이를 복합적으로 잇는 '다차선 고속도로'를 구축했습니다. 데이터가 흐를 수 있는 경로가 훨씬 풍부해지니, 모델은 더 복잡한 정보를 효율적으로 처리할 수 있게 됩니다.


매니폴드 제약

도로가 넓어지면 사고 위험도 커지죠? 이를 위해 DeepSeek은 이중 확률 행렬과 Sinkhorn-Knopp 알고리즘이라는 강력한 신호등을 설치했습니다.


매이폴드 제약의 핵심 개념: 에너지 보존 법칙을 만드는 수학


이 논문의 백미는 복잡한 신호를 통제하는 수학적 장치에 있습니다.


이중 확률 행렬

이 행렬은 가로(행)로 더해도 1, 세로(열)로 더해도 1이 되는 신비한 성질을 가집니다. AI 모델 내에서 이는 자원의 완벽한 균형을 의미합니다.

어떤 층으로 정보가 들어가든, 나가는 정보의 총량이 항상 일정하게 유지됩니다. 덕분에 1,000층을 지나도 신호가 폭주하거나 소멸하지 않는 에너지 보존 법칙이 모델 안에서 실현됩니다.


Sinkhorn-Knopp 알고리즘

하지만 처음부터 이런 완벽한 행렬을 만들기는 어렵습니다. 여기서 Sinkhorn-Knopp이 등판합니다. 이건 엉망진창인 행렬을 가져와서 가로 세로를 계속 맞춰가며 '세탁'해주는 알고리즘입니다. 매우 빠르고 '미분 가능'하다고 합니다. 즉, AI가 학습하는 도중에 실시간으로 신호등을 수리하고 최적화할 수 있다는 뜻입니다.


Nested Learning과의 시너지: 지능의 밀도를 높이다


논문에서 언급하지 않았지만, 여기서 한 걸음 더 나아가면 Nested Learning​과의 연결고리가 보입니다.

mHC가 안정적으로 정보를 전달하는 모델 아키텍쳐라면, Nested Learning은 그 안에서 어떻게 하면 중요한 지식을 잊지 않고 효율적으로 쌓을지를 결정하는 학습 전략입니다.

안정적인 mHC 지식 통로 위에서 Nested Learning이라는 학습 방법 시스템이 돌아갈 때, 모델은 인간처럼 깊은 사고를 할 수 있게 구성하는 데 한걸음 더 다가갈 수 있을 것으로 보입니다.


마무리: 수학적 우아함을 통한 효율성 확보


DeepSeek mHC는 우리에게 중요한 메시지를 던집니다.


1. 가성비의 승리: 단 6.7%의 추가 연산으로 모델의 성능을 비약적으로 향상했습니다.

2. 구조의 힘: 더 많은 GPU를 투입하는 것보다, 더 똑똑한 수학적 구조를 설계하는 것이 더 강력할 수 있음을 증명했습니다.


더 많은 GPU가 필요 없이도 모델을 더 똑똑하게 만드는 진짜 공학적 진보입니다.


더 나은 수학이 더 나은 모델을 낳고, 더 나은 모델이 더 나은 추론을 낳는다는 걸 보여주네요. 앞으로 등장할 초대형 모델(Frontier Models)들은 mHC와 같은 '제약 조건이 있는 구조'를 필수적으로 채택하게 될 수도 있을 것 같습니다.

keyword
매거진의 이전글인간 지능과 인공지능 사이의 인식론적 차이