지니젠AI, K-AI 리더보드 종합 2위 · 블랙웰 GPU 선정
4월 14일, 두 통의 소식이 동시에 날아왔다.
하나는 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 운영하는
'K-AI 리더보드'에서 종합 2위를 기록했다는 것.
또 하나는 정보통신산업진흥원(NIPA) 주관 '첨단 GPU 활용 지원 사업'에 선정되어
엔비디아 차세대 블랙웰(Blackwell) GPU 16장을 확보하게 되었다는 것이다.
지니젠AI는 2025년 10월에 설립됐다. 창업 6개월. 정규 직원은 소수.
그런 팀이 전국 LLM 성능 순위에서 2위를 차지하고, 국가 최첨단 GPU 인프라까지 확보했다.
어떻게 가능했을까.
K-AI 리더보드, 그게 뭔데?
K-AI 리더보드는 한국 정부가 운영하는 공식 LLM 평가 플랫폼이다.
NIA가 구축한 비공개 데이터셋으로, API 호출 없이 모델 자체의 실력만을 측정한다.
ChatGPT에게 물어보는 것이 아니라, 모델 가중치를 직접 올려서 순수한 언어 지능을 평가받는 구조다.
평가 항목은 다섯 가지다.
KMMLU-Pro는 의사, 변호사, 기술사 등 전문직 자격시험 수준의 한국어 지식과 추론을 측정한다.
CLIcK은 한국 문화, 역사, 법률, K-pop까지 아우르는 한국어 문화 이해도를 본다.
HLE(Ko)는 현존하는 가장 어려운 한국어 논리 추론 문제다.
MuSR(Ko)는 복합 문맥 속에서 다단계 추론을 수행하는 능력을 본다.
Com2-main(Ko)는 대화 속 의도를 정확히 파악하는 능력을 평가한다.
쉽게 말해, 한국어를 얼마나 깊이 이해하는지를 국가가 직접 측정하는 시험이다.
지니젠AI가 제출한 Rogue-27B-KR은 종합 0.549를 기록해 전국 2위에 올랐다.
1위 QuettaLLMs-V3의 0.560과의 차이는 고작 0.011이다.
특히 한국어 문화·언어 이해 항목인 CLIcK에서는 0.791로, 1위의 0.794와 불과 0.003 차이다.
소수점 셋째 자리 싸움이다. 사실상 동점이라는 평가가 나오는 이유다.
이 점수가 의미하는 것은 명확하다. 모델 크기나 GPU 물량이 아니라, 데이터 품질과 한국어에 대한 깊은 이해가 실질 성능을 결정한다는 것이다.
Rogue-27B-KR은
Qwen3.5-27B Dense 기반의 28B 파라미터 모델로, Thinking Mode(추론 모드)와 262K 컨텍스트를 지원하며 Apache 2.0 라이선스로 공개되어 있다. 다년간 한국어 콘텐츠 데이터를 분석하며 축적한 고품질 학습 데이터와 자체 최적화 알고리즘을 통해, 베이스 모델의 추론 능력은 보존하면서 한국어 특유의 문법적 미묘함과 맥락 이해도를 비약적으로 향상시켰다.
NIPA '첨단 GPU 활용 지원 사업' 선정으로 확보한 블랙웰 GPU 16장은 단순한 하드웨어가 아니다. 블랙웰은 엔비디아의 최신 세대 AI 전용 GPU로, 이전 세대 H100 대비 학습 성능이 수 배 향상된 것으로 알려져 있다. 창업 6개월 차 스타트업이 이 인프라를 국가 지원으로 확보한 것은 이례적이다.
확보한 블랙웰 GPU 인프라를 기반으로, 언어모델 내부의 블랙박스를 해소하는 LLM X-RAY 플랫폼과 자동 평가 모델을 완성할 것이다. 현존하는 LLM 평가 도구가 모델의 외부 성능 수치만 측정하는 데 그쳤다면, LLM X-RAY는 모델 내부에서 특정 지능이 어느 레이어에서 발현되는지를 직접 투시한다. 한국 최초의 LLM 해석 가능성 상용 플랫폼을 고도화하는 것이 다음 목표이다
이번 성과에서 주목할 점은 서로 다른 국가기관이 독립적으로 심사했다는 사실이다. K-AI 리더보드는 모델의 실질 성능을 평가한다. 첨단 GPU 지원 사업은 기술 개발 역량과 사업화 가능성을 심사한다. 기준도 다르고 목적도 다른 두 기관이 동시에 지니젠AI를 선택했다.
기술력과 성장성이 국가 차원에서 이중으로 검증된 셈이다.
https://huggingface.co/ginigen-ai/Rogue-27B-KR