서로 다른 LLM 2개를 교배하고 진화하여 자식을 낳다

단순 Merge가 아닌 Evolution을 가능케하다

Apr 4. 2026

"자식이 부모를 넘어서는 것, 그것이 진화다."

찰스 다윈이 갈라파고스 제도에서 핀치새의 부리를 관찰하며 깨달은 것은, 생존에 유리한 형질만이 다음 세대로 전달된다는 단순하고도 강력한 원리였다. 2026년, 그 원리가 AI 모델의 세계에서 그대로 재현되고 있다.

오늘 소개할 Darwin-9B-Opus는 단순히 잘 만든 언어모델이 아니다. 이것은 AI가 AI를 낳는 시대, 그 진화의 메커니즘 자체를 증명하는 하나의 실험이다.

왜 '다윈'인가

AI 업계에서 "모델 병합(merge)"이라는 기술이 있다. 두 개의 언어모델을 하나로 합치는 것이다. 마치 요리사가 두 가지 소스를 섞듯, 모델 A의 가중치 50%와 모델 B의 가중치 50%를 합쳐서 새로운 모델을 만든다.

문제는 이 비율을 정하는 방법이다.

기존 방식은 개발자의 직감에 의존한다. ratio=0.5, density=0.9처럼 대략적인 숫자를 넣고 돌려본다. 잘 되면 운이 좋은 것이고, 안 되면 다시 숫자를 바꿔본다. 수십억 개의 파라미터에 동일한 비율을 일괄 적용하는 것은, 뇌의 모든 뉴런에 같은 약을 같은 용량으로 투여하는 것과 다르지 않다.

Darwin은 이 문제를 정면으로 해결한다. 이름 그대로, 자연선택의 원리를 모델 병합에 적용했다.

Darwin이 하는 일 — 세 가지 혁신

1. 자동 파라미터 탐색

Darwin은 수백 가지 파라미터 조합을 스스로 생성하고 테스트한다. 사람이 직감으로 "0.5 대 0.5"를 넣는 대신, 진화 알고리즘이 0.481 대 0.519 같은 비대칭 조합을 찾아낸다.

실제로 Darwin-35B-A3B-Opus(형제 모델)가 발견한 최적값을 보면 그 정밀함에 놀라게 된다. 어텐션(attention) 레이어는 16.8%만 변경하고, FFN(Feed-Forward Network)은 84.1%를 교체했다. 이것은 "주의력 패턴은 아버지의 것을 거의 보존하되, 지식 저장소는 어머니의 것으로 대폭 갱신하라"는 뜻이다.

사람이 이 조합을 찾으려면 몇 년이 걸릴지 모른다. Darwin은 181초 만에 해냈다.

2. 벤치마크 기반 적자생존

Darwin은 후보 모델을 병합할 때마다 실제 벤치마크로 성능을 측정한다. 점수가 높은 개체만 다음 세대로 전달되고, 낮은 개체는 도태된다. 이것이 바로 적자생존(survival of the fittest)이다.

GPQA Diamond라는 대학원 수준의 과학 추론 문제에서, Darwin이 만든 자식 모델은 아버지 모델(Qwen3.5)을 18.2% 능가했고, 어머니 모델(Claude 추론 증류 모델)과 동등한 수준에 도달했다. 아버지의 범용성과 어머니의 추론력, 양쪽의 장점만 골라서 물려받은 것이다.

3. Model MRI — 병합 전 CT 촬영

Darwin V5에서 추가된 이 기능은 가장 혁신적이다. 모델을 병합하기 전에, 각 부모 모델의 레이어별 중요도를 미리 스캔한다. 마치 의사가 수술 전에 CT를 찍듯, 어떤 레이어가 핵심적이고 어떤 레이어가 대체 가능한지를 사전에 파악하는 것이다.

이를 통해 진화의 탐색 공간을 대폭 축소하고, 레이어별로 초정밀 병합 비율을 적용할 수 있게 되었다.

Darwin-9B-Opus — 누구나 써볼 수 있는 진화의 결과물

Darwin 엔진의 힘을 직접 체험할 수 있도록, VIDRAFT 팀은 두 가지를 공개했다.

모델: FINAL-Bench/Darwin-9B-Opus

Qwen3.5 Dense 아키텍처 기반의 9B 파라미터 모델이다. BF16 정밀도로 A10G GPU 하나에서 구동되며, 131K 토큰의 컨텍스트 길이를 지원한다. Apache 2.0 라이선스로 상업적 사용까지 자유롭다.

데모 Space: FINAL-Bench/Darwin-9B-Opus

별도의 설치 없이, 브라우저에서 바로 Darwin-9B-Opus와 대화할 수 있다. 커스텀 프론트엔드로 구축된 이 데모는 다음과 같은 기능을 제공한다.

Thinking Mode: 모델이 답변 전에 스스로 추론 과정을 거치는 Chain-of-Thought 모드. 복잡한 문제일수록 빛을 발한다. 추론 과정은 접이식 블록으로 표시되어, 모델이 어떻게 생각하는지를 투명하게 볼 수 있다.

6가지 프리셋: 일반 대화, 코딩, 수학, 창작, 번역, 리서치 — 각 분야에 최적화된 시스템 프롬프트가 준비되어 있다.

웹 검색 통합: Brave Search API를 통해 실시간 웹 검색 결과를 참조하며 답변할 수 있다.

PDF 분석: PDF 파일을 업로드하면 텍스트를 추출하여 분석해준다.

실시간 스트리밍: transformers의 TextIteratorStreamer를 활용한 토큰 단위 실시간 스트리밍으로, 응답이 한 글자씩 타이핑되듯 나타난다.

왜 9B인가 — 작지만 강한 이유

Darwin에는 35B짜리 형제 모델(Darwin-35B-A3B-Opus)도 있다. MoE(Mixture of Experts) 아키텍처에 256개의 전문가 뉴런을 갖춘 대형 모델이다. 하지만 35B 모델을 돌리려면 H100 GPU가 필요하다.

9B 모델은 다르다.

A10G 하나, 즉 Hugging Face Spaces의 기본 GPU 티어에서 돌아간다. 누구나 무료에 가까운 비용으로 접근할 수 있다. 그러면서도 Darwin의 진화적 병합이 만들어낸 추론 능력은 고스란히 담겨 있다.

이것이 Darwin 프로젝트의 철학이기도 하다. 진화는 거대함이 아니라 적응에서 온다. 환경(하드웨어 제약)에 맞춰 최적의 형질을 갖추는 것, 그것이 진정한 생존이다.

기존 Merge 도구와의 비교

Darwin은 mergekit 위에서 동작한다. mergekit이 메스라면, Darwin은 수술 전 CT를 찍고, 로봇팔로 메스를 잡고, 수술 후 건강검진까지 해주는 시스템이다.

누가 만들었나

Darwin은 VIDRAFT(비드래프트)가 개발했다. VIDRAFT는 FINAL Bench(AGI 수준 검증을 위한 벤치마크 프레임워크)를 만든 팀이기도 하다. FINAL Bench는 허깅페이스 데이터셋 전체 인기순위에서 글로벌 5위까지 올랐으며, 서울신문·아시아경제·IT조선 등 주요 언론에 보도된 바 있다.

Darwin은 VIDRAFT의 AGI 아키텍처 4계층 중 최상위에 위치한다. AETHER(지혜의 불, Proto-AGI), PROMETHEUS(인식의 불, 월드모델), HEPHAESTUS(구현의 불, 로봇 엔진) — 이 삼신기(Three Sacred Fires) 체계의 정점에서, Darwin은 LLM 자체를 진화시키는 엔진으로 기능한다.