brunch

You can make anything
by writing

C.S.Lewis

작은 고추가 맵다, sLLM의 정의와 장점

 


“언어 모델? 기왕이면 큰 게 좋은 거 아냐?”


생성형 AI(Gen AI)의 대표주자인 챗GPT가 인기를 얻으며 덩달아 대형 언어 모델(LLM)에 대한 인지도가 올라갔다. 언어모델은 수많은 데이터를 학습해 자연스러운 문장을 이어나갈 수 있는 모델로, 언어 모델의 크기를 결정 짓는 것은 매개변수(파라미터)의 개수이다. 보통 1,000억 개 이상의 파라미터를 가질 때 대형 언어 모델이라 분류한다. 쉽게 설명하면, 파라미터는 사람의 뇌에서 정보를 학습하고 기억하는 시냅스와 유사한 역할을 하는 설정값이다. 때문에 매개변수의 수가 많을수록 높은 성능을 자랑하고, 복잡하고 정교한 기능을 가능하게 한다. 많은 빅테크 기업들이 그들이 가진 언어모델의 매개변수 수를 언급하며 성능을 강조하는 이유가 바로 이것이다. 


그렇다면 무조건 많은 매개변수를 가진 언어모델이 가장 좋은 언어모델일까

때와 상황, 언어모델을 사용하는 목적에 따라 다르겠지만, 꼭 그러한 것은 아니다. 파라미터의 수가 많으면 언어모델은 복잡하고 정교한 기능을 수행할 수 있지만, 더 많은 컴퓨팅 자원을 필요로 하고 언어모델 훈련 시간 또한 오래 걸린다. 해당 언어 모델이 어떤 목적으로 활용되는지에 따라 다르겠지만, 때론 비즈니스 목표에 맞게 최적화된 경량 모델을 이용하는 것이 유리할 수 있다.



소형 언어 모델(sLLM), 그게 뭔데?


소형 언어 모델(sLLM)이란 그 이름에서부터 알 수 있듯이, 매개변수의 수가 수십억 내지 수백억대로 비교적 크기가 작은 언어 모델을 말한다. (오픈AI의 GPT-3.0과 GPT-3.5의 매개변수는 1,750억 개이며, 구글의 팜(PaLM)의 경우 5,400억 개에 달한다.) sLLM은 슈퍼 컴퓨터를 사용하지 않아도 머신러닝이 가능해 파라미터를 줄여 비용과 시간을 아낄 수 있으며, 미세조정(fine-tuning)으로 정확도를 높이는 맞춤형 LLM이다. 즉, LLM의 장점을 유지하면서도 비즈니스 비용을 절감할 수 있는 것이다. 특정 분야에서는 미세조정과 고품질의 데이터 학습을 통한 깊이 있는 데이터 학습으로 기존 LLM과 맞먹는 성능을 보여준다. 


소형 언어 모델은 2023년 초, 메타의 ‘라마(LLaMA)’가 공개되며 주목받기 시작했다. 메타는 라마를 매개변수 개수에 따라 총 4가지 버전으로 내놓았다. 그중 가장 작은 모델은 매개변수가 70억 개의 매개변수를, 가장 큰 모델도 650억 개로 경쟁사들과 비교했을 때 월등한 차별성을 보였다. 메타는 적은 매개변수의 수를 강점으로 내세우며 용량을 1/10 수준으로 낮춘 결과를 발표했다. 이에 따라 훨씬 적은 컴퓨팅 파워가 요구돼 모바일이나 노트북으로도 활용할 수 있도록 실용성을 극대화했다고 강조했다. 실제로 일부 개발자들이 노트북이나 심지어 휴대폰에서도 작동되는 라마 응용 버전을 내놓기도 했다.


그동안 대형 언어 모델은 높은 구동 비용이 단점으로 지적되어왔다. 그 크기만큼이나 모델을 훈련하고 유지하는 데 막대한 비용과 시간이 소요되는 것이다. 구글의 팜은 4,000개의 칩으로 이뤄진 슈퍼컴퓨터 2대로 50일 이상 훈련되었고, 챗GPT의 GPT-3는 초기 훈련 비용에만 1000만 달러(한화 약 132억  원)가 들었다. chatGPT의 큰 흥행에도 불구하고, 개발사 오픈AI는 최근 수천억 원대의 영업 손실을 기록했는데 그 원인으로 훈련 및 유지를 위한 비용이 지목됐다. 그에 반해 소형 언어 모델은 상대적으로 훈련에 필요한 데이터, 시간, 비용이 적다는 점이 큰 장점으로 여겨진다.




한 눈에 정리하는, LLM(대형 언어 모델)과 sLLM(소형 언어 모델)의 차이점


1. 언어모델의 크기

LLM은 매개변수의 개수와 용량이 상대적으로 크고, sLLM은 상대적으로 적은 파라미터의 개수와 용량을 가진다. 이로서 높은 컴퓨팅 리소스를 요구하는 LLM과 달리, sLLM은 더 작은 컴퓨팅 리소스에서도 작동이 가능하다.

 

2. 성능

규모가 큰 LLM은 많은 학습데이터를 기반으로 다양한 분야에서 높은 성능을 보이고, sLLM은 최적화를 통해 비교적 작은 크기에도 우수한 성능을 보인다. 


3. 활용성

LLM은 대규모 서버 등 높은 컴퓨터 리소스를 필요로 하는 상황에 활용되는 반면, sLLM은 모바일, 노트북에서도 활용될 수 있다. 




한 눈에 정리하는, LLM(대형 언어 모델)의 장점


1. 저렴한 훈련 및 운영 비용

필요한 파라미터만을 사용하는 덕분에 클라우드 컴퓨팅 비용과 전력 소모가 적으며, 비교적  및 머신러닝 학습 시간과 유지 비용을 아낄 수 있다. 


2. 가벼운 사용

작은 모델의 크기 덕에 훈련 시간이 짧고, 요청에 빠르게 반응할 수 있다. 이 덕에 고가의 서버를 구축하지 않아도 된다는 장점 덕에 여러 기기나 어플리케이션에 통합될 수 있고, 모바일과 노트북에서의 사용이 가능하다. 또한 오프라인에서도 작동이 가능하다는 장점이 있다. 


3. 사용자 맞춤화

LLM에 비해 적은 데이터로 미세조정(fine-tuning)을 구현해 정확도를 높여, 특정 분야에서 성능을 발휘하는데 용이하다. 




sLLM 활용 사례 


1. 스탠포드 대학교 연구팀의 ‘알파카 7B’



스탠퍼드대학교 소속 연구원 뉴아틀라스는 메타의 ‘라마’(LLaMA)중에서 매개변수가 70억 개로 가장 작은 버전(7B)을 기반으로 한 소형 언어 모델 ‘알파카 7B’를 선보였다. 알파카는 오픈AI가 제공하는 API를 통해 언어모델의 사후 훈련에 사용할 수 있는 5만 2000개의 샘플 데이터를 확보했다. AI 반도체를 탑재한 컴퓨터 8대를 통해 단 3시간 만에 모델 교육을 완성했다. 연구진은 ‘알파카 7B의 성능을 이메일이나 소셜 미디어 내 글 작성, 생산성 도구 등에서 GPT와 비교했다. 그 결과 알파카는 90대 항목에서, GPT는 89개 항목에서 우수한 성능을 보였다. 놀랍게도 개발에 소요된 비용은 오픈AI의 API 사용 비용인 약 500달러와 라마 7B 사용 비용 약 100달러로 총 600달러(약 78만 원)에 불과했다. (참고로, 오픈AI가 2020년 선보였던 GPT-3.0은 훈련에 1000만달러, 한화로 약 130억원이 소요됐다.) 연구진은 “모델 크기와 훈련 데이터가 작은 데도 이런 결과가 나온 데 대해 우리도 무척 놀랐다”고 언급했다. 또한 알파카를 대화형으로 시험했을 때, 종종 챗GPT와 비슷한 행태를 보였으며, 특히 개발 과정을 최적화했다면 더욱 싸게 모델을 만들 수도 있었다고 주장했다. 하지만, 동시에 크기나 다양성 측면에서 성능의 한계가 있다는 점을 인정했다.  

 

2. 스케터랩의 ‘Pingpong-1’ 


관계형 챗봇 서비스 이루다를 제공하는 스타트업 스케터랩에서 ‘pingpong-1’이라는 sLLM을 개발했다.사회적인 상호작용을 제공할 뿐만 아니라, 지식 데이터를 학습해 논리적인 상호작용까지 가능한 파운데이션 모델이 그것이다. 감정과 지식을 넘나드는 폭넓은 주제의 대화를 구사하고, 감성 소구에 특화된 카피라이팅 등 다양한 역량을 가지고 있는 모델이다. 다시 말해 '이루다'와 같은 소통형 챗봇에 '챗GPT'와 같은 지능이 더해진 것이다. 핑퐁-1의 매개변수는 70억개(7B)이다. 


3. 갓잇AI의 ‘엘마’

갓잇AI가 챗봇 애플리케이션에 적용할 수 있는 기업용 소형언어모델 '엘마(ELMAR)'를 출시했다. 엘마는 클라우드가 아닌 온프레미스(사내구축형) 형태의 가성비 높은 솔루션이라고 소개했다. 이번에 갓잇AI가 출시한 엘마는 미세조정 과정을 통해 성능을 높일 수 있는 것이 큰 특징이다. 피터 레란 갓잇AI 회장은 "모든 기업이 크고 강력한 모델이 필요한 것은 아니며, 데이터가 외부로 반출되는 것을 원하지 않는 기업이 많다"는 점을 지적했다. "엘마는 사내에 구축해 가볍게 실행할 수 있으면서도 미세 조정을 통해 다른 LLM의 성능을 따라잡을 수 있도록 한 모델"이라고 덧붙였다. 이어 갓잇AI는 엘마의 성능이 뒤쳐지지 않는다는 점을 입증하기 위해 100개의 데이터셋에 대한 '환각률' 벤치마크 테스트를 진행했으며, 오픈AI의 '챗GPT(GPT-3.5 터보)' 'GPT-3' 'GPT-4'와 돌리, 알파카 등을 비교 평가했다. 테스트 결과 미세 조정 과정을 거치치 않은 sLLM은 특정 작업에서 성능이 크게 떨어지는 점이 발견됐다. 이에 갓잇AI는 거짓말을 탐지하는 '진실 검사기'라는 미세 조정 프로세스를 추가해 보완했고, 미세 조정 후에는 GPT-3 터보와 동등한 결과를 얻었음을 보고했다. 공개한 데이터에 따르면, 환각률은 14.08%에서 1.408%로, 10분의 1로 줄어들었다.




sLLM의 방향성 


특정한 분야에서의 sLLM 사용은 데이터를 깊이있게 학습할 수 있다는 장점 덕에 기업 맞춤형 사용에 적합하다. 이러한 배경에서, 시간이 지나면 sLLM은 결국 '기업 전용 LLM'로 변할 것이라는 예측도 나왔다. 온프레미스(On-premises)는 기업 및 기관 내부 서버에 설치하는 구축형 방식으로, 비교적 사내 민감 데이터의 유출 가능성이 낮다. 또한 이는 생성형 AI가 가지는 가장 큰 리스크인 환각 현상의 가능성을 현저히 낮출 수 있다. 온프레미스 sLLM은 특정 분야, 여기서는 내부 조직의 선별된 데이터로만 훈련을 할 수 있다. 이는 거짓 정보의 가능성을 낮추고 비즈니스 상황에 맞는 최적화된 결과를 도출하는 맞춤형 모델이 될 것이다. 시스코 수석부사장은 "모든 회사는 다른 기업에서 복제할 수 없는 '사용자 지정 데이터셋'을 가지게 될 것이고, 이를 기반으로 특정한 AI 모델을 가지게 될 것"이라 언급한 점과 상통한다. 


또한, sLLM은 클라우드를 거치치 않고 기기에 설치가 가능하다. 이 장점 덕에 오프라인에서도 사용이 가능함으로 온디바이스 AI에 적합하다. 온디바이스 AI에서 대형언어모델(LLM)을 실행하게 되면 상당한 컴퓨팅 리소스가 발생하게 되는데, 이를 오프라인 상태에서도 실행할 수 있는 작은 언어모델인 sLLM을 사용해 해결하는 것이다. sLLM은 크기와 실행 가격이 경제적이기 때문에 AI에 접근성을 높일 수 있다. 온디바이스AI의 수요 증가는 sLLM을 향한 관심 및 활용 증대로 이어질 것이다. 




마무리하며


현재, 모든 서비스에 대형 언어 모델을 적용하는 것은 비용이 부담되고 무겁다. 이러한 문제를 해결하기 위해, 경량화된 언어 모델의 적용이 새로운 트렌드로 부상하고 있다. 이러한 소형 언어 모델은 특정 산업이나 분야에 특화되어 설계되고 최적화될 수 있으며, 이를 통해 버티컬 AI(Vertical AI)로서의 활용이 가능해진다. sLLM은 일상 대화 능력에서는 대형 언어 모델에 뒤질 수 있지만, 특정 분야에 대한 깊이 있는 학습과 데이터의 품질을 바탕으로 더욱 정확하고 전문적인 답변을 제공할 수 있는 잠재력을 가지고 있다. 또한 대형 모델의 폐쇄성과 활용의 어려움에 비해, sLLM은 적은 파라미터 수에서 오는 가벼움과 유연성으로 인해 다양한 애플리케이션과의 통합이 용이하다는 장점으로 큰 주목을 받고 있다. 


시스코 수석본부장인 지투 파텔이 한 말처럼, 모든 기업이나 조직이 대규모의 강력한 언어 모델을 필요로 하는 것은 아니다. 데이터의 외부 유출을 극도로 꺼리는 기업일수록 sLLM에 대한 수요가 늘어날 것이다. 소형 모델은 기업이나 조직의 요구에 맞춰 보다 경제적이고 신속하게 개발할 수 있으며, 보유한 데이터를 활용하여 맞춤형으로 구축될 수 있다. 이러한 이유로, 보안에 민감한 기업이나 국가 정부에서의 발전이 기대된다. 





작성자: ITS 25기 이윤지

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari