brunch

You can make anything
by writing

C.S.Lewis

by 최재철 Jul 22. 2024

SLM과 LLM: 작은 언어 모델과 큰 언어 모델


SLM(소규모 언어 모델)과 LLM(대규모 언어 모델)은 모두 언어를 이해하고 생성하는 AI 모델입니다. 이름에서 알 수 있듯이, SLM은 작은 규모의 모델이고, LLM은 큰 규모의 모델입니다.

SLM이라는 경량형의 AI 언어 모델이 2024년경부터 등장하고 있습니다.

LLM은 그 이름대로 대규모가 학습을 한 모델이기 때문에 개발 비용, 운용 비용도 방대합니다. 반면 SLM은 소규모 설계로 되어 있어 운용의 유연성이 뛰어나 2024년 이후 많은 기업들이 SLM의 개발·제공을 진행하고 있습니다. SLM이란 무엇인가? LLM과 어떻게 다른가? 장/단점등을 상세하게 소개하며, 현재 대표적인 SLM 모델에 대해서도 소개하겠습니다.


SLM과 LLM의 차이  

규모: LLM의 대표적인 예인 GPT-4는 약 1.76조 개의 파라미터(모델이 학습한 변수)를 가지고 있습니다. 반면, SLM은 보통 수십억 개의 파라미터를 가집니다. 예를 들어, Microsoft의 Phi-3-mini는 38억 개의 파라미터를 가지고 있습니다.


데이터 학습: LLM은 매우 다양한 데이터를 학습하지만, SLM은 특정 분야의 데이터에 특화되어 학습합니다. 예를 들어, 의료 분야에 특화된 SLM은 의학 논문이나 진료 기록을 중심으로 학습합니다.


LLM에 비하면 범용성이 부족한 부분은 있지만, 그만큼 모델의 크기를 소규모로 억제할 수 있고, 학습·트레이닝한 특정 영역이나 분야에 관해서는 LLM 이상의 성능을 발휘할 수 있습니다. 


(ex#1) 금융 기관에서 대출 심사 자동화

금융기관에서는 대출신청서나 재무제표 등 대량의 문서를 처리해야 합니다. 이 문서에는 금융 특유의 전문 용어와 정형 표현이 많이 포함되어 있습니다. SLM을 사용하면 이러한 문서를 자동으로 분석하여 대출 여부를 결정할 수 있습니다.


(ex#2) 법률 사무소에서 계약서 검토 효율성

법률 사무소에서는 계약서 검토에 많은 시간과 노력을 소비합니다. 계약서에는 법률 특유의 전문 용어와 복잡한 문장 구조가 많이 포함되어 있으므로 검토에는 고급 전문 지식이 필요합니다. SLM을 활용하면 계약서 검토를 반자동화하고 작업 효율을 크게 향상시킬 수 있습니다.



SLM의 장점  

개발 비용 절감: SLM은 LLM보다 모델 크기가 작기 때문에 계산에 필요한 GPU 성능과 에너지 소비가 적습니다. 이로 인해 개발 비용이 절감됩니다.


학습 및 훈련 시간 단축: SLM은 특정 목적과 분야에 맞는 데이터를 학습하기 때문에, LLM보다 학습 시간이 크게 단축됩니다. 예를 들어, LLM은 몇 주에서 몇 개월이 걸리는 반면, SLM은 며칠 만에 학습을 완료할 수 있습니다.


다양한 기기에서 사용 가능: SLM은 스마트폰이나 엣지 AI(네트워크 단말기기)에서 오프라인으로도 사용하기 쉬운 장점이 있습니다. 예를 들어, 네트워크가 연결되지 않은 상태에서도 스마트폰 카메라로 촬영한 이미지를 인식할 수 있습니다.


할루시네이션 발생률 낮음: LLM은 방대한 양의 정보를 학습하여 가끔 사실이 아닌 답변을 할 수 있지만, SLM은 특정 범위나 태스크에 맞춘 데이터를 학습하기 때문에 이런 오류가 발생하기 어렵습니다.


SLM의 단점  

범용성 부족: SLM은 특정 분야에 특화되어 있어 LLM처럼 범용적으로 사용하기 어렵습니다.


데이터 수집 어려움: 특정 분야에 맞는 데이터를 수집하기 어려울 수 있습니다. 예를 들어, 의료나 법률 분야의 경우, 데이터 수집과 학습에 전문 지식이 필요합니다.


전문 지식 필요: SLM을 학습시키고 트레이닝하기 위해 해당 분야에 대한 고도의 전문 지식이 필요합니다.


대표적인 SLM 모델  

    Phi-3 : Microsoft가 개발한 SLM으로, 다양한 벤치마크에서 높은 성능을 발휘합니다. 모델 종류로는 Phi-3-mini(38억 파라미터), Phi-3-small(70억 파라미터), Phi-3-medium(140억 파라미터)가 있습니다.      

phi-3

    Tiny Llama  : Meta사의 Llama 아키텍처를 기반으로 한 TinyLlama는 11억 개의 파라미터를 가지고 있으며, 다양한 언어 처리 작업에서 뛰어난 성능을 보입니다. 프로그래밍 언어 처리에도 강점을 가지고 있습니다.      

TinyLlama

    Gemma 7B  : Google DeepMind에서 개발한 모델로, 70억 개의 파라미터를 가지고 있으며 다양한 웹 문서와 프로그래밍 코드 등을 학습했습니다. Low Rank Adaptation (LoRA) 기술을 사용해 특정 작업에 맞게 사용자 정의가 가능합니다.      

Gemma 7B

    Mistral 7B  : Mistral AI 팀이 개발한 모델로, 70억 개의 파라미터를 가지고 있습니다. 수학, 코드 생성, 추론 분야에서 뛰어난 성능을 발휘하며, 여러 클라우드 플랫폼에서 쉽게 배포할 수 있습니다.      

Mistral 7B

마무리

SLM과 LLM은 각각 장단점이 있으며, 목적과 용도에 따라 적합한 모델을 선택해야 합니다. SLM은 작은 규모와 특정 분야에 특화된 학습 덕분에 개발 비용 절감, 빠른 학습 시간, 다양한 기기에서의 사용 등의 장점이 있습니다. 반면, LLM은 방대한 데이터를 학습하여 범용적으로 사용되지만, 개발 비용과 시간이 많이 듭니다. 각자의 장점을 살려 적절히 활용하는 것이 중요합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari