brunch

매거진 메타AI대학교 이현우 이사장

라이킷 4 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 세계메타버스ai연맹 이사장 이현우 교수 Dec 05. 2024

한국어 AI의 진화

한국어 AI의 진화

라마3-모티프-102B, 최강 한국어 성능 모델의 탄생

메타ai뉴스 논설위원 이현우 교수

1. 한국어 AI 모델의 새로운 가능성

2024년 12월 3일, 국내 AI 인프라 솔루션 전문 기업 모레(MOREH)는 한국어 기반 대형언어모델(LLM)인 ‘라마3-모티프-102B(Llama-3-Motif-102B)’를 오픈 소스로 공개했다. 이번 발표는 한국 AI 기술 역사에서 중요한 전환점으로 평가된다. 대부분의 대형언어모델이 영어 중심으로 개발되면서 한국어는 부차적 언어로 간주돼 왔다. 그러나 라마3-모티프-102B는 이 한계를 뛰어넘어 한국어 성능을 극대화하며 글로벌 기술 수준을 능가하는 결과를 보여주고 있다.

현재 AI 기술은 인공지능 연구소, 대기업, 학계 등 다양한 주체가 협력하며 빠르게 발전하고 있다. 하지만 한국어를 완벽히 이해하고 처리할 수 있는 모델 개발은 여전히 큰 도전 과제다. 그동안 한국어 특유의 어미 변화, 단어 순서, 복잡한 문맥 이해 등은 AI 모델에 큰 장애물로 작용했다. 모레의 라마3-모티프-102B는 이러한 문제를 해결하고, 한국어 처리 능력을 세계 최고 수준으로 끌어올리는 데 성공했다.

라마3-모티프-102B의 공개는 단순히 하나의 모델 개발을 넘어서, 한국 AI 생태계 전반에 중요한 변화를 가져올 것으로 보인다. 특히 모레는 이번 모델을 통해 한국어 기반 LLM 개발에서 글로벌 선도 기업들과 어깨를 나란히 할 수 있는 가능성을 보여줬다. 이 모델의 성능은 영어 중심 모델의 한계를 극복하고, 다양한 전문 분야에서 한국어 기반으로 실행 가능한 최적의 솔루션을 제공할 수 있음을 입증했다.

이 글에서는 라마3-모티프-102B가 탄생하게 된 배경과 목표, 성능 비교 및 기술적 혁신, 그리고 향후 전망을 상세히 분석하며, 이 모델이 한국어 AI의 미래에 어떤 기여를 할지 살펴볼 것이다.

2. 라마3-모티프-102B의 탄생 배경과 목표

라마3-모티프-102B의 탄생은 기존 AI 모델의 한계를 극복하려는 모레의 전략적 목표에서 시작되었다. 이 모델은 기존 ‘라마3.0 70B’를 기반으로 하여 매개변수를 1020억 개로 대폭 확장했다. 매개변수란 AI가 데이터를 처리하고 학습하는 데 필요한 가중치 값으로, 매개변수의 수는 모델의 처리 능력과 성능을 결정짓는 중요한 요소이다. 라마3-모티프-102B는 이러한 매개변수를 대규모로 확장해 새로운 차원의 성능을 실현했다.

모델 개발 목표는 크게 세 가지로 나뉜다.

첫 번째 목표는 기존 모델의 성능을 최대화하는 것이다. 이는 단순히 모델의 크기를 키우는 것뿐만 아니라, 데이터 처리와 학습 효율을 최적화하여 기존 모델의 한계를 넘어서는 결과를 창출하는 것을 의미한다. 모레는 이미 영어 LLM ‘MoMo-70B’를 통해 오픈 LLM 리더보드에서 세계 1위를 기록한 경험이 있다. 이를 바탕으로 라마3-모티프-102B에서도 유사한 성공을 거두기 위해 철저히 준비했다.

두 번째 목표는 기존 모델 이상의 성과를 창출하는 것이다. 이를 위해 라마3-모티프-102B는 더욱 복잡한 문장을 학습하고, 대화에서 자연스러운 표현을 만들어내는 데 주력했다. 이러한 개선은 한국어의 문법적 특성과 어휘적 다양성을 반영하는 데 필수적이었다.

마지막으로, 세 번째이자 최종 목표는 완전한 한국형 파운데이션 모델 개발이다. 대부분의 AI 모델은 영어를 중심으로 개발된 후, 다른 언어로 번역되거나 수정된다. 그러나 모레는 처음부터 한국어를 중심으로 설계된 모델을 개발함으로써 글로벌 AI 생태계에서 독립적인 경쟁력을 확보하고자 했다.

3. KMMLU 벤치마크: 한국어 성능의 독보적 결과

라마3-모티프-102B는 한국어 AI 평가 체계인 KMMLU(Korean Multidisciplinary Machine Learning Understanding) 벤치마크에서 64.74점을 기록하며 1위를 차지했다. 이는 기존의 라마 3 70B가 기록한 54.5점과 비교해 10점 이상 높은 수치로, 단순한 개선이 아닌 혁신적인 성과를 의미한다.

KMMLU는 단순히 한국어 번역된 문항을 평가하는 것이 아니라, 인문학, 사회학, 과학 및 기술 등 45개 전문 분야에 걸쳐 전문가 수준의 질문으로 구성되어 있다. 이는 모델의 단순한 언어 처리 능력뿐만 아니라, 문제 해결 능력과 지식 기반 추론 능력을 평가하는 데 중점을 둔다. 라마3-모티프-102B는 이러한 평가에서 오픈AI의 GPT-4o(64.11점)와 알리바바의 큐원2(64.1점)를 능가하며 한국어 AI 모델의 최고 성능을 입증했다.

이 모델의 성능은 단순히 기술적 개선에서 끝나지 않는다. 라마3-모티프-102B는 1870억 개 이상의 토큰을 학습 데이터로 사용하며, 이는 기존 한국어 AI 모델과 비교해 월등히 방대한 양이다. 특히 웹 상에서 수집한 데이터를 넘어, 국내 특허와 연구 보고서 등 고품질 데이터를 학습에 활용함으로써 전문 분야에서도 탁월한 성과를 보여주었다.

이와 같은 벤치마크 결과는 라마3-모티프-102B가 한국어 AI 연구와 실무 응용에서 새로운 가능성을 열어주었음을 시사한다.

4. 기술적 혁신과 글로벌 경쟁력

모레의 기술적 혁신은 라마3-모티프-102B의 성공을 가능케 한 핵심 요소다. 특히 모레는 자체 개발한 모아이(MoAI) 플랫폼을 통해 LLM 개발 및 학습 효율을 극대화했다. 모아이는 고도의 병렬 처리 기법을 사용해 모델 학습 속도를 높이고, GPU 가상화 기술을 도입함으로써 개발 비용을 대폭 절감했다.

또한, 모레는 글로벌 반도체 기업 텐스토렌트와 협력하여 엔비디아의 독점적 CUDA 소프트웨어 구조를 뛰어넘는 솔루션을 개발하고 있다. 이는 AI 데이터센터 구축과 운영의 효율성을 높이는 데 중점을 두며, 라마3-모티프-102B와 같은 대형언어모델 학습에 최적화된 환경을 제공한다.

특히, 텐스토렌트 NPU와 모레의 소프트웨어를 결합한 AI 데이터센터 솔루션은 단순히 추론에 그치지 않고 파운데이션 모델 학습까지 가능하게 하며, 글로벌 AI 시장에서의 경쟁력을 크게 향상시킬 전망이다. 이러한 기술적 혁신은 라마3-모티프-102B의 성공뿐만 아니라, 모레가 글로벌 AI 생태계에서 핵심 플레이어로 자리잡는 데 기여할 것이다.

5. 향후 전망: 한국형 AI의 완성

라마3-모티프-102B의 개발은 단순히 기술적 성과로 끝나지 않는다. 모레는 이번 모델을 기반으로 다양한 산업 분야에서 활용 가능한 AI 솔루션을 개발할 계획이다. 특히, 의료, 법률, 금융 등 전문 영역에 특화된 LLM 개발이 주요 목표 중 하나다. 이는 특정 산업 분야의 요구를 충족시키는 맞춤형 AI 모델의 필요성이 커지고 있는 현재 시장에서 중요한 전략으로 평가된다.

또한, 모레는 멀티모달 모델 개발을 통해 텍스트와 이미지를 동시에 처리할 수 있는 AI 기술 확장을 준비 중이다. 이를 통해 다양한 데이터 유형을 처리할 수 있는 AI 생태계를 구축하며, 한국형 AI 기술의 미래를 선도할 계획이다.

모레의 조강원 대표는 라마3-모티프-102B를 오픈 소스로 공개한 이유에 대해 "국내 AI 생태계가 글로벌 수준으로 도약할 수 있도록 하기 위함"이라고 밝혔다. 이는 단순히 기술력을 과시하기 위한 것이 아니라, 한국 AI 산업 전반의 발전을 위한 중요한 기회로 작용할 것이다.

6. 결론: 한국어 AI의 미래를 열다

라마3-모티프-102B는 한국어 AI의 가능성을 새롭게 정의하며,한국어 AI 기술 발전의 새로운 장을 열었다. 이번 모델의 성공은 단순히 기술적 성과를 넘어 한국이 글로벌 AI 경쟁에서 독립적이고 선도적인 위치를 차지할 수 있음을 입증한다.

한국어는 그 특유의 언어적 복잡성으로 인해 대형언어모델 개발에서 항상 어려움을 겪어왔다. 하지만 라마3-모티프-102B는 매개변수의 확장과 방대한 데이터 학습을 통해 이러한 한계를 뛰어넘으며, 세계 최고 수준의 한국어 AI 모델로 자리매김했다. KMMLU 벤치마크에서 기록한 독보적인 성과는 이 모델이 단순히 한국어를 처리하는 데 그치지 않고, 전문 분야 지식 기반 추론까지 가능하게 함을 보여준다.

앞으로 모레는 라마3-모티프-102B를 기반으로 다양한 산업 분야에서 활용할 수 있는 전문화된 AI 모델을 개발하고, 멀티모달 AI 기술을 통해 데이터 유형을 확장하며 한국형 AI의 미래를 지속적으로 구축할 예정이다. 또한, 국내 AI 생태계를 활성화하고 글로벌 경쟁력을 강화하기 위해 오픈 소스 공개를 통해 산업 전반에 기여할 계획이다.

라마3-모티프-102B의 성공은 단순히 하나의 모델로 끝나지 않는다. 이는 한국어 AI 기술의 새로운 가능성을 열어주었으며, 앞으로 AI 기술이 인간의 삶을 더욱 풍요롭게 하고, 다양한 문제를 해결하는 데 중요한 역할을 할 것임을 보여주는 사례로 남을 것이다. 한국형 AI의 완성은 이제 단지 꿈이 아니라, 점점 현실로 다가오고 있다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari