#AI 산업혁명
한국어 특화 LLM의 진화: KT의 '믿:음 2.0'과 한국형 벤치마크의 의미
글로벌연합대학교 인공지능융합연구소장
버지니아대학교 이현우 교수
1. 한국어에 최적화된 LLM, ‘믿:음 2.0’의 출현
국내 인공지능 기술의 발전은 새로운 전환점을 맞이하고 있다. KT가 공개한 한국어 특화 대규모 언어모델(LLM) ‘믿:음 2.0’은 단순히 기술력 경쟁을 넘어, 한국 사회와 문화적 문맥을 정밀하게 해석하고자 하는 야심 찬 시도다. 특히 이 모델은 단순한 텍스트 생성 수준을 넘어서, 언어에 내재된 사회적 의미와 감정, 관습까지 포착할 수 있는 ‘문화 지능’을 탑재하려는 방향성을 지니고 있다.
KT는 이를 실현하기 위해 국내 문화와 문맥을 정밀히 반영하는 자체 벤치마크를 개발했으며, 이는 한국어 LLM의 성능을 진단하고 고도화하는 데 중요한 기준점으로 작용한다. 특히 ‘믿:음 2.0’은 단지 언어를 처리하는 AI가 아닌, ‘한국적인 맥락을 이해하는 AI’로 기능하고자 하는 기술 철학의 산물이다.
2. 한국어 LLM 평가의 새로운 기준, Ko-Sovereign의 탄생
KT와 고려대학교가 공동 개발한 ‘Ko-Sovereign’ 벤치마크는 한국어 언어모델 평가의 새로운 이정표라 할 수 있다. 이 지표는 한국어 특유의 문화·사회·민속적 요소를 반영하여, 단순 언어 생성 능력이 아닌, ‘문화적 독해력’을 측정한다. 즉, 단어의 의미뿐만 아니라 그것이 사용되는 맥락과 사회적 암묵지를 얼마나 AI가 정확히 인식하느냐를 중심으로 평가가 이루어진다.
이와 더불어 KT는 ▲한국어 참조(K-Referential) ▲고난이도 참조(K-Refer-Hard) ▲실용 어법(K-Pragmatics) 등의 다양한 평가 지표를 마련해 LLM의 언어 능력을 다면적으로 분석하고 있다. K-Pragmatics는 특히 한국어의 경어법, 속담, 관용 표현, 고유어 등을 바르게 이해하고 사용할 수 있는지를 시험함으로써, LLM이 일상 언어 사용에 얼마나 적합한지를 가늠하는 데 큰 역할을 한다.
3. 영어 기준에선 다소 아쉬운 성과, 그러나 수학 성능은 최고
‘믿:음 2.0’은 한국어에 있어 독보적인 이해도를 보였지만, 글로벌 기준의 영어 벤치마크에서 엑사원 3.5나 라마 3.1, 큐원3와 같은 모델들에 비해서는 상대적으로 낮은 성능을 보였다. 이는 ‘믿:음 2.0’이 명확히 한국어에 특화되어 개발되었음을 시사하며, 영어 성능까지 겸비한 글로벌 모델과는 지향점이 다르다는 점을 분명히 한다.
흥미로운 점은 수학 능력 평가 지표인 GSMBK에서 ‘믿:음 2.0’의 베이스모델이 91.6점으로 가장 우수한 성적을 기록했다는 것이다. 이는 수학 문제 해결 과정에서 필요한 논리적 추론 및 정답 도출 능력에 있어 이 모델이 상당한 강점을 가지고 있음을 보여준다. LLM이 단순 언어 모델을 넘어서, 멀티모달적 문제 해결 능력을 키워가고 있다는 증거이기도 하다.
4. 오픈 소스 흐름과 산업 지형의 변화
KT의 ‘믿:음 2.0’ 발표는 SK텔레콤이 전날 공개한 '에이닷엑스 4.0' 시리즈와 함께 국내 대기업들의 LLM 오픈소스 경쟁이 본격화되었음을 보여준다. 이는 국내 AI 생태계 전반에 신호탄을 던진 사건으로, 후발주자들에게도 기술 기반을 마련할 수 있는 여건이 조성되고 있음을 시사한다.
AI 스타트업 ‘뤼튼’ 역시 이러한 흐름에 주목하고 있다. 뤼튼은 여러 LLM을 조합해 무료 AI 서비스를 제공하는 서비스형 AI 기업으로, “한국어에 특화된 오픈소스 모델들이 공개되는 것을 환영한다”고 밝혔다. 이는 오픈소스 LLM의 확산이 국내 서비스 경쟁력을 제고하고, 다양한 분야에 AI를 빠르게 적용할 수 있는 기반이 될 수 있음을 의미한다.
5. 기술 적용은 아직 신중… ‘서비스화’의 문턱에서
그럼에도 불구하고 AI 모델을 실제 서비스에 도입하는 일은 단순 공개보다 훨씬 더 복잡한 과정을 요구한다. 뤼튼은 “성능, 비용, 안정성 등 여러 요소를 고려해야 하기 때문에 아직 도입 여부를 결정하기에는 이른 단계”라고 전했다. 이는 단순히 모델의 성능이 우수하다는 것만으로는 곧바로 제품화나 상용화가 이루어질 수 없다는 AI 산업의 현실을 반영한다.
결국, 서비스화로 이어지기 위해서는 LLM의 기술적 성능뿐만 아니라, 인프라 비용, 유지 관리, 업데이트 체계 등 종합적인 생태계 조건이 갖추어져야 한다. 그럼에도 불구하고 KT와 SKT의 연이은 오픈소스 행보는 국내 AI 산업의 저변 확대와 경쟁력 강화를 위한 결정적 계기로 작용할 가능성이 높다.
결론: 한국어 AI의 새로운 기준을 세우다
‘믿:음 2.0’은 단순한 모델 이상의 의미를 지닌다. 이는 기술력의 진보뿐 아니라, 한국어 문화·사회적 맥락을 이해하는 AI 개발이라는 측면에서 중요한 상징성을 띤다. KT의 행보는 한국어 LLM의 자주성과 정교성을 확보하려는 시도이자, 글로벌 기준에 종속되지 않은 ‘한국형 AI 생태계’ 구축의 신호탄이기도 하다.
앞으로 이와 같은 모델이 실제 서비스에 도입되어 국민 생활의 편의를 실질적으로 높이는 데까지 연결된다면, 이는 단순한 기술적 성과를 넘어선, 문화와 언어에 뿌리 내린 AI 혁신의 진정한 사례로 기록될 것이다.