brunch

매거진 알아두면 쓸데있는 IT 잡학사전

라이킷 15 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 이재훈 Apr 08. 2024

네이버 AI 1위, 그런다고 사람들이 쓸까?

네이버 AI 1위 소식, 기쁨보다 우려가 더 큰 이유

HyperCLOVA X Technical Report

네이버클라우드 "하이퍼클로바X 성능 14개 모델 중 1위"

4월 2일, 네이버클라우드 하이퍼클로바X 팀이 아카이브를 통해 테크니컬 리포트를 공개했습니다. 이 리포트에는 하이퍼클로바X가 영어, 수학, 코딩 분야에서 경쟁력을 갖추고 있으며, 한국 문화에 맞춘 대규모 언어 모델로 한국어에 특화된 성능을 보유하고 있다고 설명하고 있습니다. 더 나아가 일본어, 아랍어 등 다국어 능력과 안정성 측면에서도 높은 지표를 보유했다는 것을 강조했습니다.

특히, 현시점에서 가장 뛰어난 성능을 자랑하고 있는 라마2, GPT-4, SOLAR 등을 비교군으로 선정하여 다양한 지표에서 이들보다 높은 성능을 갖추었다고 소개했는데요. 대표적으로 몇 가지 살펴보면 다음과 같습니다.

먼저, 토크나이저 지표입니다. 한국어를 잘 이해하고 처리할 수 있는 언어 모델을 만들기 위해서는 '토큰화'라는 과정이 매우 중요합니다. 토큰화는 문장을 의미 있는 작은 단위로 나누는 것을 말하는데요. 한국어는 그 구조상 단어가 변형되기 쉽고, 같은 단어라도 문맥에 따라 의미가 달라질 수 있기 때문에 이 과정이 특히 중요합니다.

예를 들어, 한국어에서는 같은 명사에 추가되는 어미에 따라 동사가 될 수도, 형용사가 될 수도 있습니다. 글로벌 기업들은 각 나라별 언어적 특성을 완벽히 파악하기 쉽지 않아, 토큰화 과정에서 어려움을 겪는 경우가 많은데요. 이로 인해, 같은 의미를 가진 문장이라 할지라도 영어로 답변을 받았을 때보다 한글로 답변을 받았을 때 인코딩이 비효율적인 경우가 많았습니다. 네이버는 이를 효과적으로 처리할 수 있도록 연구했고, 더 적은 비용으로 더 좋은 성능을 발휘할 수 있게 됐습니다.

다음으로는 생성형 AI의 성능을 평가하는 핵심 항목을 바탕으로 주요 오픈소스 모델들과 비교한 성능 지표를 살펴보겠습니다. 영어 성능 지표에서 라마2에 살짝 뒤처질 뿐, 수학, 코딩 등을 포함한 나머지 지표에서는 하이퍼클로바X가 모두 앞서는 모습을 확인할 수 있습니다.

국내 IT 기업의 자존심이라고 볼 수 있는 네이버가 이와 같은 소식을 전한 것은 분명 기뻐할 일입니다. 그러나 개인적으로는 이번 발표 소식에 기쁘기보다 오히려 걱정이 되기 시작했습니다.

빛 좋은 개살구?

벤치마크 결과에서 아무리 높은 성능을 보였더라고 하더라도 사용되지 못하면 의미가 없습니다. 하이퍼클로바X가 적용된 '큐(Cue:)' AI 검색 서비스는 지난 2023년 9월에 베타 서비스를 시작했지만, 7개월이 지난 지금까지도 정식 서비스 출시는 요원한 상태입니다. 현재 대기명단을 등록하고 승인받아야만 사용이 가능한 상태로, 아직까지 일반 대중들의 접근이 어려운데요. 그 사이 ChatGPT가 출시한 지는 벌써 1년 6개월이라는 시간이 훌쩍 지나갔습니다.

또한, 지금의 성능을 갖춘 상태로 서비스가 출시한다고 하더라도 과연 좋은 반응을 이끌어낼지도 미지수입니다. 이미 네이버가 발표하기 전에도 GPT-4의 성능을 뛰어넘었다고 발표한 곳은 몇몇 있었습니다. OpenAI의 최대 경쟁사로 불리는 'Anthropic'의 'Cluade 3(Opus ver.)'는 GPT-4를 넘어선 것은 물론 AI 최초로 IQ 테스트에서 100점을 넘는 성적을 기록했다고 알려졌습니다. 특히, 네이버와 마찬가지로 검색 엔진 기반의 포털인 구글 역시도 뛰어난 성능의 제미나이를 발표했지만 사람들은 여전히 ChatGPT를 선호하고 있습니다. 왜 그럴까요?

여기에는 ChatGPT가 누린 초기 선점 효과와 그로 인해 이미 익숙해진 UI/UX가 중요한 역할을 했는데요. 그러나 이보다 더 큰 요인은 대다수의 사용자들이 현재 제공되는 ChatGPT의 성능으로도 충분히 만족하고 있다는 점입니다. 물론, 조금 더 고차원적인 답변을 위해서 더 뛰어난 성능을 가진 모델이 필요로 할 수 있지만, 이런 사용자층은 전체 시장에서 차지하는 비중이 작아 대세에 큰 영향을 주기 어렵습니다.

네이버가 한국에서 높은 포털 점유율을 보유하고 있는 지금, 로컬라이제이션이 잘 되어 있는 모델을 기반으로 한 AI 서비스를 출시된다면, 한국을 한정해 많은 관심을 끌 수 '있을 수도' 있습니다. 그러나 여기에는 서비스를 무료로 제공해야 한다는 전제 조건이 붙습니다. 현재 제공되고 있는 무료 서비스들도 충분히 우수한 상황이기에 네이버가 결정적인 와우포인트 없이 유료 서비스를 선보인다면, 사용자의 관심을 끌기 어려울 것으로 보입니다.

그러나 문제는 이러한 대형 언어 모델의 서비스 운영비용은 굉장히 높다는 점인데요. 무료로 서비스를 제공하자니, 금액적인 리스크를 네이버가 감당해야 한다는 딜레마에 빠질 수밖에 없습니다.

LLM? 이미 시장의 눈은 더 높은 곳에..

앞서 언급했듯, 대형 언어 모델 간의 성능 비교는 이제 크게 중요하지 않게 됐습니다. 냉정히 말하면, 상향 평준화된 LLM 시장에 이제야 네이버가 비슷한 수준에 도달했다고 볼 수 있습니다. 이렇듯 네이버가 모든 역량을 LLM 모델에 집중하는 동안, 글로벌 경쟁사들은 '멀티모달(Multi-Modality)' 기능, 즉 더 높은 목표를 향해 나아가고 있습니다. 이제 생성형 AI 경쟁력은 단순한 텍스트 기반 서비스에서 갈리는 것이 아니라, 이미지, 음성, 영상까지 다양한 형태의 입력과 출력을 제공하는 능력에 의해 결정될 예정입니다.

OpenAI는 'DALL-E'를 활용해 이미지를 생성하고, 'SORA'를 활용해 동영상을 생성하며, 'Voice Engine'을 통해 음성까지 복제할 수 있는 능력까지 보유하게 됐습니다. 그리고 궁극적으로는 이 모든 기능을 ChatGPT로 통합 구축할 것으로 예상되는데요. 이 말은, 앞으로는 음성로 그림을 그려달라고 할 수 있으며, 이미지를 보여주고 설명을 듣거나 토론을 할 수 있으며, 대본을 주고 영상을 만들어 달라고 할 날이 머지않았다는 의미입니다.

상황이 이렇게까지 전개되었지만, 아쉽게도 이번 네이버의 발표에서 멀티모달 역량에 대한 내용을 찾아볼 수 없었습니다. 리포트 중간에 앞으로 멀티모달 역량에 집중하겠다는 계획을 보여주는 것이 전부였습니다. 제가 리포트를 보면서 마냥 기뻐할 수만은 없었던 이유입니다.

그럼에도 아직 기회는 남아있다

사실 네이버는 애초에 B2C 시장을 어느 정도 포기한 것으로도 보입니다. 그동안 공식석상에서도 AI 활용 전략에 대한 질문에 대해, 대부분 커머스 분야의 고도화나 B2B 클라우드 서비스의 경쟁력을 끌어올리는 데 활용하겠다는 답변이 대부분이었습니다. 이는 상대적으로 외산 AI 제품이 한국 서비스에 적용되기 어려운 점을 공략하겠다는 의미로 풀이되는데요. 실제로 이러한 전략은 과거부터 유용하게 활용된 것으로, 현재 네이버가 국내에서 AI 기술력이 가장 우수하다고 평가받고 있는 만큼, 이번에도 이 전략은 통할 수 있을 것으로 기대됩니다.

또한, 이번 리포트 발표에서 아랍어 등의 다국어 능력을 강조했던 점은 네이버가 '소버린 AI' 사업에 대한 의지가 강하다는 것을 시사합니다. '소버린 AI' 사업이란, 상대적으로 AI 기술력이 낮은 국가를 대상으로 현지 언어와 문화에 최적화된 AI 모델을 구축해 주는 사업을 말하는데요. 최근 사우디 아람코와 체결한 '아랍어 LLM 기반 소버린 AI 개발 협약'은 이러한 전략의 일환이라고 볼 수 있습니다. 이 경우 기업이 아닌 국가를 상대로 사업을 펼치기 때문에 사업 규모 측면에서 상대적으로 볼륨이 클 수 있다는 장점이 있습니다. (소버린 AI가 궁금하다면? '빅테크 기업의 침략으로부터 나라를 지켜라 : 소버린AI' 편을 참고하세요!)

한국 빅테크의 자존심을 세워주길

비록 다소 부정적인 전망이 담겨 있었지만, 그럼에도 네이버가 이만큼까지 기술력을 끌어올린 것은 정말 대단한 업적이라 평가할 수 있습니다. 대형 언어 모델을 자체적으로 보유한 국가 자체도 몇 없을뿐더러, 그중에서도 글로벌 경쟁을 이어나가고 있는 기업은 더더욱 귀합니다.

다만, 앞서 말씀드렸던 것처럼 네이버는 한국 빅테크 기업의 자존심이라 할 수 있기에, 더욱 힘을 냈으면 하는 바람으로 글을 작성해 보았습니다. 특히, 단순히 한국어에 특화된 모델이 아니라, 기술력과 사용성에 중점을 둔 범용 모델로 발전시켜 글로벌 시장에서도 경쟁력을 지속적으로 발휘해 나가길 바라며 글을 마무리하겠습니다.