AI의 뇌를 들여다보다 — 한국이 LLM MRI 만들다

비드래프트, LLM MRI 개발 / 허깅페이스에 공개

by SeaWolf

병원에서 뇌 MRI를 찍어보신 적 있으신가요?


의사가 모니터를 보면서 "여기가 언어를 담당하는 브로카 영역이고요, 여기가 시각을 처리하는 후두엽입니다"라고 설명해줍니다. 뇌의 어느 부위가 무슨 일을 하는지, 색깔로 한눈에 보이죠.

그런데 문득 이런 생각이 들었습니다.


"AI 모델도 이렇게 찍어볼 수 있지 않을까?"

요즘 ChatGPT, Claude, Gemini 같은 AI를 쓰면서 다들 느끼실 겁니다. 놀라울 정도로 똑똑한데, 왜 이런 답을 하는지는 아무도 모릅니다. 수학은 잘하는데 한국어는 어색하고, 코딩은 잘하는데 감정 이해는 서투른 모델도 있죠.


왜 그런 걸까요? 모델 안에 수학을 담당하는 부분과 한국어를 담당하는 부분이 따로 있는 걸까요?

학계에서는 이걸 "블랙박스 문제"라고 부릅니다. AI가 어떻게 작동하는지 내부를 들여다볼 수 없다는 거죠. Meta, MIT, Anthropic 같은 세계 최고 연구팀들이 이 문제를 풀려고 수년째 연구하고 있습니다.

그래서 저희가 직접 만들어봤습니다. 이름은 "Model MRI"입니다.

어떻게 작동하나면요


원리는 의외로 단순합니다.

AI 모델은 "레이어"라는 층이 수십 개 쌓여있는 구조입니다. 28층짜리 건물이라고 생각하시면 됩니다. 저희는 이 건물에서 층을 하나씩 빼봅니다.

3층을 빼봤더니 수학 답이 완전히 틀어졌다? 그럼 3층은 수학에 핵심적인 층입니다.

15층을 빼봤는데 아무 변화가 없다? 그럼 15층은 사실 별로 중요하지 않은 층입니다.

이걸 수학, 한국어, 코딩, 논리, 감성지능, 사실기억, 공간추론 — 7가지 능력에 대해 동시에 측정합니다. 그러면 "3층은 수학에 필수, 한국어엔 무관" 같은 정보가 나오죠.

이 결과를 히트맵으로 보여줍니다. 빨간색은 "이 층을 빼면 큰일 나는" 핵심 영역, 파란색은 "빼도 괜찮은" 중복 영역입니다. 비전문가도 한눈에 알 수 있습니다.


0.png


실제로 해봤습니다

Qwen3-0.6B라는 28층짜리 소형 모델을 스캔해봤습니다.

재미있는 결과가 나왔습니다.

0층(맨 아래층)을 빼면 모든 능력이 무너집니다. 중요도가 0.756으로 압도적 1위. 건물의 기둥 같은 존재입니다.


반면 13층은 중요도가 0.018. 7가지 능력 전부에서 꼴찌였습니다. 빼도 아무도 모릅니다.

코딩 능력은 좀 특이했습니다. 0층과 1층의 중요도가 0.96으로 거의 1에 가까웠어요. 코딩에 필요한 구문 구조 파악이 맨 아래 두 층에 극도로 집중되어 있다는 뜻입니다.

한국어는 다른 패턴이었습니다. 0층, 1층, 2층이 고르게 중요하고, 중간층은 거의 의미 없고, 25층에서 갑자기 다시 중요해집니다. 한국어 처리가 건물 양 끝에 몰려있는 거죠.


MODEL MRI - a Hugging Face Space by VIDraft.png


MODEL MRI - a Hugging Face Space by VIDraft (2).png


기존 연구와 뭐가 다른가요

사실 비슷한 시도는 있었습니다.

Meta의 Gromov 연구팀이 2024년에 "깊은 레이어를 잘라도 성능이 별로 안 떨어진다"는 유명한 논문을 냈고, ICLR이라는 세계 최고 학회에 채택됐습니다. MIT의 Lad 연구팀은 레이어를 빼거나 교환하면서 추론 단계를 분석했고요. Logit Lens라는 도구는 모델 내부를 관찰하는 방법을 제시했습니다.


하지만 이 연구들에는 공통된 한계가 있었습니다.


첫째, 전부 "전체 성능이 몇 점 떨어졌다"만 측정했습니다. 수학이 떨어진 건지 한국어가 떨어진 건지 구분을 못했어요.


둘째, Logit Lens는 들여다보기만 하지 실제로 레이어를 조작해보지는 않았습니다. 의사가 MRI만 찍고 수술은 안 하는 것과 비슷하죠.


셋째, 모델 병합 도구인 mergekit은 "A 모델의 어느 부분을 B 모델에 합칠지"를 사람이 감으로 정해야 했습니다. 데이터 근거가 없었어요.


저희는 이 세 가지를 다 해결했습니다.

수학, 한국어, 코딩, 논리 등 7가지 능력을 동시에 분리 측정합니다. 실제로 레이어를 빼고 넣어보면서 인과관계를 확인합니다. 그리고 두 모델을 비교 스캔해서 "A 모델의 수학 레이어를 B 모델에 이식하세요"라는 처방전과 실행 코드까지 자동으로 만들어줍니다.


MODEL MRI - a Hugging Face Space by VIDraft (1).png


진짜 목표는 "능력 이식"입니다


사실 MRI 스캔 자체가 최종 목표는 아닙니다.

진짜 하고 싶은 것은 이겁니다. 수학을 잘하는 모델에서 수학 영역만 뽑아서, 한국어를 잘하는 모델에 꽂는 겁니다.


예를 들어볼게요. 수학 특화 모델을 스캔합니다. "레이어 7에서 10이 수학 핵심이네." 범용 모델도 스캔합니다. "같은 구간이 약하네." 그러면 수학 모델의 레이어 7에서 10의 가중치를 범용 모델에 40% 비율로 섞어줍니다. 이 과정을 자동으로 해주는 mergekit 설정 파일까지 만들어줍니다.

모델 크기가 다르면요? 저희가 이전에 만든 "Darwin"이라는 기술이 있습니다. DimensionAdapter라는 장치로 차원을 변환해서 이식할 수 있어요.

결국 여러 모델에서 가장 뛰어난 능력 영역만 골라서, 하나의 베이스 모델에 선택적으로 이식하는 겁니다. 진단부터 수술까지 원스톱이죠.


이게 왜 중요한가요

세 가지 측면에서 가치가 있습니다.

학술적으로 보면, LLM 내부가 왜 블랙박스인지, 어떤 구조로 되어있는지를 기능 단위로 시각화해서 보여주는 최초의 웹 기반 도구입니다. 이미 실제 스캔에서 "소형 모델은 U자형 중요도 패턴을 보인다"거나 "논리는 특정 구간에 집중되어 있지만 감성은 넓게 퍼져있다" 같은 새로운 발견이 나오고 있습니다.


기술적으로 보면, 모델 병합이나 프루닝을 할 때 "어디를 자르고 어디를 살릴지"를 경험이 아니라 데이터로 결정할 수 있게 해줍니다. 자동차 엔진을 감으로 튜닝하던 시대에서 컴퓨터 진단기가 등장한 것과 같은 전환입니다.


산업적으로 보면, 기업들이 가장 많은 시간과 돈을 쓰는 "우리 업무에 맞는 AI를 어떻게 만드느냐"에 직접 답을 줍니다. 한국어가 약한 글로벌 모델에 한국어 능력을 이식하거나, 불필요한 레이어를 찾아 추론 비용을 절감하거나 — 이런 최적화를 수 주가 아니라 수 시간 만에 할 수 있게 됩니다.

사용법은 놀랍도록 간단합니다

HuggingFace Space에 접속해서, 모델 ID를 입력하고, "스캔 시작" 버튼을 누르면 끝입니다. 30초 후에 히트맵이 나오고, 회로가 자동으로 발견되고, 처방전이 생성됩니다. 코딩이나 AI 전문 지식은 필요 없습니다.

모델 ID만 알면 됩니다.


앞으로의 계획

지금은 0.6B, 1.7B 등 소형 모델로 검증을 마쳤습니다. 앞으로 7B, 14B, 70B급 대형 모델까지 스캔 범위를 넓히고, 실제로 능력 이식 후 벤치마크 점수가 얼마나 오르는지 정량 검증을 할 예정입니다.


사람의 뇌를 이해하기 위해 MRI가 혁명을 일으킨 것처럼, AI의 뇌를 이해하기 위한 도구가 필요한 시대입니다. 저희는 그 첫 걸음을 내딛었습니다.


허깅페이스에서 체험 해 보세요: https://huggingface.co/spaces/VIDraft/MODEL-MRI



작가의 이전글SiteAgent, 브라우저 AI 에이전트 등장