sLLM은 무엇일까? GPT와 다른 점은?
마이크로소프트는 2024년 주목하는 키워드로 sLLM을 선정했을 만큼 소규모 언어 모델에 대한 관심이 커지고 있다. sLLM은 대형 언어 모델(LLM)의 축소 버전으로서 더 적은 리소스로 자연어 작업을 수행할 수 있는 모델이다. GPT와 같은 거대 언어 모델은 데이터 리소스가 많이 필요하고, 클라우드 인프라에 의존하는 경우가 많지만, sLLM은 클라우드의 연결 없이 로컬장치에서 효율적으로 사용할 수 있다는 장점이 있다.
이렇게 소규모 언어 모델(sLLM)은 GPT 4와 같은 대규모 언어 모델 대비 효율적이고, 비용을 줄일 수 있는 대안으로 각광받고 있는 요즘이다. GPT, 제미니와 같은 대규모 언어 모델은 많은 데이터가 필요하고, 사용하는데 높은 비용이 소모된다. 오픈 AI의 GPT 4의 경우 약 7,835만 달러가 소모될 정도로 많은 비용이 든다. 이렇게 투자되는 비용이 크니 서비스로 수익화까지 연결되기가 어려운 구조다. 그러다 보니 2024년 하반기에는 AI에 대한 의구심이 확산되는 분위기가 형성되기도 하였다.
마이크로소프트는 소규모 언어 모델인 파이-2, 3와 같은 모델을 앞다투어 발표하여 간단하고 쉽게 텍스트 분류나 감정 분석을 할 수 있도록 설계하였다. 학습하는데 필요한 매개변수는 기존 대규모 언어 모델의 1/10 수준이지만 응답 수준은 대규모 언어 모델에 뒤지지 않도록 개발하였다. 구글 역시 '제미나이 나노, 제미나이 1.5 플래시' 모델을 투자하면서 작지만 성능이 뛰어난 언어모델에 대한 관심을 이어나가고 있다. 학습하는데 필요한 매개변수는 줄이면서 특정 분야에 특화시켜 빠르고 가벼운 방향으로 모델을 개발하고 있다.
sLLM은 학습 데이터의 양이 작기 때문에 비용 효율적이고 빠르다는 특징이 있다. 저렴하고 가벼운 이유는 대규모 언어 모델 대비 데이터를 학습하는 양이 현저히 적기 때문이다. 또한 특정 산업에 특화되었다는 특징을 지니고 있는데, 데이터를 선택과 집중하여 학습하기에 특정 산업에 특화될 수밖에 없다. 기존의 챗 GPT는 수리, 문학, 과학, 예술 등 모든 분야를 통틀어 질문을 해서 곧잘 대답을 잘하는 편이다. 영역에 상관없이 모든 데이터를 학습시켰기 때문이다. 자연스레 방대한 데이터를 사용할 수밖에 없는 반면, sLLM은 특정 산업에 필요한 양만큼만 학습해 특정 산업에 전문적으로 활용할 수 있다.
또한 사내 구축형(온프레미스) 기반으로 운영할 수 있다. 대규모 언어 모델은 워낙 방대한 양의 데이터가 활용된 연산하고 처리하는데 일반 개인 PC나 핸드폰에서 진행하는데 한계가 있다. 기업 데이터의 외부 유출에 민감한 회사의 경우 모델을 회사 내부에서 만들어 처리하기를 원한다. 또한 모델 자체가 어떻게 작동하는지 알 수가 없어 어떤 잠재적 편향, 위험성이 있는지 모를 때 역시 기업의 입장에선 불안하기 마찬가지다. 이런 위험 요소를 없애기 위해 기업 내부에서 직접 운영할 수 있는 사내 구축형 모델을 주목하고 있다.
비용이 많이 들고, 폐쇄적인 대규모 언어 모델과 달리 특정 산업에 특화되어 가볍고 경제적인 sLLM은 앞으로도 국내외 계속 발전될 가능성이 크다. 최근 국내에서도 2024년 9월 말, 네이버 클라우드가 금융 특화 sLLM을 개발하여 미래에셋증권 환경을 구축한 사례가 있다. 엘지 유플러스 역시 자체 sLLM인 익시젠을 IPTV등 향후 개발하는 여러 기기에 접목하는 전략을 발표한 바 있다. AI가 데이터를 학습하기 위해 비용 소모적인 반면 투자 수익률이 미비하다는 회의론이 팽배한 가운데 과연 sLLM이 대안이 될 수 있을지는 시간을 들여 지켜볼 필요가 있다.