벤치마크 1위 AI가 한국어를 잘하는 것은 아니다

순위표가 말해주지 않는 한국어 성능의 현실

벤치마크가 높았던 모델이 준 실망

2025년 1월 DeepSeek-R1이 공개된 직후, 기술 커뮤니티의 반응은 뜨거웠다. 벤치마크 점수가 GPT-4급이라는 분석이 돌았고, 오픈소스 모델이 드디어 상용 서비스와 겨룰 수 있게 되었다는 기대가 퍼졌다. 로컬 LLM에 관심이 있던 사람이라면 한 번쯤 설레는 마음으로 모델을 내려받아 봤을 것이다.

나도 그랬다. 제조 현장에서 쓸 수 있는 도구를 만들어온 입장에서, 벤치마크 상위권 오픈소스 모델은 늘 관심 대상이다. DeepSeek를 내려받고, 한국어로 업무 관련 질문을 넣어봤다. 간단한 질문에는 한국어로 답했다. 그런데 조건을 몇 개 붙이거나 맥락이 복잡해지면 상황이 달라졌다. 답변 중간에 알 수 없는 글자가 섞여 나오거나, 아예 중국어로 응답이 돌아왔다. DeepSeek 개발팀도 R1 논문에서 이 현상을 인정했다. 영어와 중국어 중심으로 학습된 모델이 다른 언어 입력을 받으면 학습 비중이 높은 언어로 회귀하는 것이다. 벤치마크 순위표에서는 상상하기 어려운 장면이었다.


벤치마크 수치로는 한국어 실력을 알 수 없음

왜 이런 일이 생기는가. 주요 벤치마크 — MMLU, HumanEval, GSM8K — 는 대부분 영어 기반으로 설계되어 있다. 중국어권 모델이라면 중국어 벤치마크도 함께 공개하지만, 한국어 성능을 측정하는 표준 평가 체계는 글로벌 순위표에 포함되지 않는다. 순위표에서 1위를 차지한 모델이 한국어에서도 1위라는 보장이 없는 구조다.

DeepSeek는 영어와 중국어 코퍼스를 중심으로 학습된 모델이다. 한국어 데이터의 비중이 낮으니, 복잡한 한국어 질문에서 모델이 중국어로 돌아가는 현상이 발생한다. 실제로 한국어 사용성 평가에서 DeepSeek R1은 테스트 대상 모델 중 최하위권을 기록했다. 결과적으로 국내에서 DeepSeek를 실무에 적용하는 사례는 드물다. 반면 영어권과 중국어권에서는 DeepSeek를 적극 활용하고 있다. 같은 모델인데 언어 환경에 따라 쓸 만한 도구가 되기도, 쓸 수 없는 도구가 되기도 하는 것이다.

흥미로운 대비 사례가 있다. 알리바바가 만든 Qwen이다. Qwen도 중국 출신 모델이지만, 한국어 품질이 DeepSeek보다 높다. Qwen3 기준으로 119개 언어와 방언을 학습했다. 알리바바는 알리익스프레스를 통해 전 세계 시장을 상대하는 기업이다. 영어와 중국어만으로는 사업이 돌아가지 않는 구조이고, 그 사업적 필요가 모델 설계에 반영되었다. 물론 Qwen의 한국어도 완벽하지는 않다. 가끔 중국어식 표현이 섞이기도 한다. 그러나 한국어를 정식 지원 언어로 포함시킨 모델과, 영어·중국어 중심으로 설계된 모델의 차이는 실사용에서 분명하게 드러난다. 국내에서 로컬 LLM을 활용하려는 시도가 DeepSeek보다 Qwen 쪽으로 기울고 있는 배경이다.


한국어 능력은 직접 확인해야 하는 영역

벤치마크가 쓸모없다는 이야기가 아니다. 벤치마크는 모델의 전반적인 추론 능력을 비교하는 출발점이다. 문제는 출발점을 도착점으로 착각하는 데 있다.

후보군이 정해지면, 내 언어로 내 업무에 직접 넣어본다. DeepSeek와 Qwen의 사례가 보여주듯, 같은 점수대의 모델도 설계 목적에 따라 한국어 성능은 전혀 다르다. 모델을 만든 조직이 어떤 시장을 겨냥했는지, 학습 데이터에 내 언어가 얼마나 포함되어 있는지 — 순위표 뒤의 맥락을 읽는 것이 판단의 시작이다.


ChatGPT Image 2026년 3월 14일 오전 04_37_25.png

#AI #언어모델 #벤치마크 #한국어 #실력

매거진의 이전글읽히는 알림의 조건