# AI 산업혁명
한국형 LLM 진화의 이정표
SK텔레콤 ‘에이닷 엑스 4.0’의 오픈 소스 공개와 그 의미
글로벌연합대학교 인공지능융합연구소장
버지니아대학교 이현우 교수
1. 한국형 인공지능 모델, ‘에이닷 엑스 4.0’의 전면 공개
2025년 7월 3일, SK텔레콤이 대형언어모델(LLM) 개발의 새로운 전기를 마련했다. 자사의 한국어 특화 LLM인 ‘에이닷 엑스(A.X) 4.0’을 오픈 소스로 공개한 것이다. 이는 단순한 모델 공개 이상의 의미를 갖는다. 한국형 LLM의 역량과 정체성을 세계에 알리고, 나아가 국내외 개발자 커뮤니티와 기업이 AI 기술을 실용적으로 응용할 수 있는 기반을 제공함으로써, 한국의 AI 생태계 자립에 결정적 기여를 할 것으로 기대된다.
이번 공개는 글로벌 오픈소스 플랫폼 ‘허깅페이스(HuggingFace)’를 통해 진행되었다. SK텔레콤은 표준 모델(72B, 720억 매개변수)과 경량 모델(7B, 70억 매개변수)을 나란히 공개함으로써, 다양한 용도와 환경에 따라 유연하게 선택할 수 있는 옵션을 제공했다. 특히 ‘큐원2.5’ 오픈 소스를 기반으로 한국어 데이터를 추가 학습시킨 방식은, 단순한 재활용이 아니라 한국 실정에 최적화된 성능 튜닝이라는 점에서 의미가 깊다.
2. 한국어에 최적화된 설계 — 독자 토크나이저와 처리 효율의 진화
‘에이닷 엑스 4.0’의 핵심 강점 중 하나는 ‘토크나이저(tokenizer)’의 자체 설계다. 기존의 글로벌 모델들이 영문 중심 구조를 따르는 데 반해, SK텔레콤은 한국어 고유의 문법 구조와 의미 단위에 최적화된 토크나이저를 개발하여 모델에 적용했다. 그 결과, 동일한 한국어 문장을 입력했을 때 GPT-4o 대비 33% 높은 토큰 효율을 나타내는 등 실제 서비스 적용 시 처리 비용과 리소스를 획기적으로 줄일 수 있는 기술적 우위를 확보하게 되었다.
이는 단지 기술적인 수치 이상의 의미를 지닌다. 한국어는 조사, 어미 변화, 복합어 구조 등으로 인해 토큰화가 복잡한 언어 중 하나이다. 이러한 한국어의 특성을 반영하지 못하면, 아무리 성능이 뛰어난 글로벌 모델이라 하더라도 정확성과 효율성이 크게 떨어진다. SK텔레콤이 독자 토크나이저를 설계한 것은 한국형 LLM이 글로벌 모델의 아류가 아닌, 실질적 대안을 제시할 수 있다는 것을 보여주는 상징적인 선택이다.
3. 벤치마크 성능 — GPT-4o를 넘어선 국산 모델
이번 공개된 ‘에이닷 엑스 4.0’은 한국어 능력 평가 벤치마크인 KMMLU에서 78.3점을 기록했다. 이는 GPT-4o가 기록한 72.5점보다 높은 수치로, 한국어 이해와 처리 능력에서 세계 최고 수준의 성능을 입증한 것이다. 또 다른 벤치마크인 CLIcK에서는 83.5점을 기록해, 역시 GPT-4o(80.2점)보다 우수한 성적을 보였다.
벤치마크는 단순한 수치가 아니라, 실제 기업 비즈니스와 일상 환경에서 모델의 활용도를 평가할 수 있는 기준이다. 특히 한국어에 특화된 평가 항목에서 이처럼 두각을 나타낸 것은, SK텔레콤이 한국어와 한국 문화에 최적화된 언어모델 개발에 성공했다는 방증이다. 이는 단지 기술 우위를 넘어서, 국가적 기술 자립과 문화 주권 확보라는 측면에서도 중요한 진보라 할 수 있다.
4. 온프레미스 전략과 데이터 주권의 확보
기업 입장에서 AI 모델 도입 시 가장 큰 걸림돌 중 하나는 ‘데이터 보안’이다. SK텔레콤은 이러한 현실적인 요구에 부응하기 위해, ‘에이닷 엑스 4.0’을 온프레미스(on-premise) 방식으로도 제공한다. 이는 기업들이 자사의 내부 서버에 모델을 직접 설치하고 운영할 수 있게 하여, 외부 유출 없이 데이터 보안을 극대화할 수 있도록 한 조치다.
이와 함께 SKT는 모델 학습에 사용된 데이터 또한 외부와 연동하지 않고 자체 확보한 데이터만을 활용했다고 밝혔다. 이는 데이터 주권(data sovereignty) 측면에서 매우 중요한 진전이다. 특히 의료, 금융, 공공기관 등 민감한 데이터를 다루는 산업에서 국산 AI 모델의 신뢰도와 도입 가능성을 크게 높이는 요소가 된다. SKT는 이러한 전략을 통해, 단순한 기술 공개가 아닌 산업 전반의 신뢰 기반 생태계 구축에 초점을 맞추고 있다.
5. 추론 모델과 멀티모달로의 확장 — 미래 전략의 방향
SK텔레콤은 이번 ‘에이닷 엑스 4.0’ 공개에 이어, 7월 중으로 수학 문제 해결과 코드 개발 능력이 강화된 ‘추론형 모델’을 추가로 발표할 계획이다. 이는 단순한 언어 생성에서 벗어나, 고차원적 논리와 문제 해결 역량을 AI에 부여하는 시도라 할 수 있다. 특히 이 모델은 교육, 소프트웨어 개발, 법률 문서 분석 등 고정밀 작업에 있어 차세대 AI의 실질적 활용 가능성을 여는 관문이 될 것이다.
더 나아가 SK텔레콤은 이미지와 텍스트를 동시에 이해하는 멀티모달(Multimodal) AI로의 진화를 예고했다. 이는 시각적 데이터와 언어 데이터를 통합적으로 분석하고 생성할 수 있는 기술로, 향후 메타버스, 스마트 시티, 디지털 헬스케어 등 다양한 분야에서 활용도가 극대화될 수 있다. 이러한 전략은 단기적인 성능 향상에 그치지 않고, 중장기적 관점에서 한국형 AI 기술을 글로벌 수준으로 도약시키는 기반이 될 것이다.
결론: 한국 AI 생태계의 분기점, SKT의 도전과 과감한 행보
SK텔레콤의 ‘에이닷 엑스 4.0’ 오픈소스 공개는 단순한 모델 배포가 아니다. 이는 한국 AI 기술이 더 이상 글로벌 기술 종속을 벗어나, 독자적 생태계를 형성하고 글로벌 경쟁력까지 갖추려는 야심찬 선언이라 볼 수 있다. 오픈소스화는 개발자들에게는 기회의 문을 열고, 기업들에게는 기술 자립의 가능성을 제공하며, 국가적으로는 AI 주권 강화를 위한 전략적 자산이 된다.
지금까지 AI 기술은 영어 기반 글로벌 기업의 전유물처럼 여겨졌지만, 이번 ‘에이닷 엑스 4.0’은 한국어라는 언어적 장벽을 오히려 기술 우위의 지점으로 전환시킨 상징적 사례다. 이와 같은 행보가 지속된다면, SKT는 단순한 통신회사를 넘어, 한국을 대표하는 AI 리더로서의 입지를 공고히 하게 될 것이다. 그리고 이는 결국, 한국이 디지털 주권을 확보하고 세계 AI 생태계의 주체로 나아가는 핵심 동력이 될 것이다.