LLaMA-2 해부하기

본격적인 오픈 소스(Open Source) LLM 시대를 열다

by 알바트로스

Apr 14. 2024

지난 시간에는 오픈소스 진영을 대표하는 Meta AI의 야심작 LLaMA에 대해 알아보았습니다. 혜성처럼 등장해 거대 기업의 생성형 AI 독점을 견제해 온 LLaMA는 GPT-3을 능가하는 매우 강력한 오픈소스 모델임에 분명하지만, 상업적으로 이용이 불가능하고 학술적 용도의 개발에만 한정된 라이선스 정책 때문에 널리 활용되지 못하고 있었습니다.

Meta AI는 2023년 7월 LLaMA2 모델 발표와 함께 라이선스 정책을 상업적 용도까지 확대하며 본격적인 오픈소스 기반 AI의 시대를 열었습니다. 이제 개인과 기업들은 LLaMA2를 활용해 비교적 적은 리소스(시간과 돈)를 들여 특정 도메인(domain)과 업무(task)에 특화된 생성형 AI를 구축하고 활용할 수 있게 되었습니다.

LLaMA2의 등장은 후일 LLaMA2의 자식 격인 Alpaca와 Vicuna 그리고 Code LLaMA를 비롯한 다양한 파생모델 탄생의 밑거름이 되며 나름의 sLLM(small LLM) 생태계를 구축했다는 점에서도 의의가 있습니다. LLaMA에서 파생된 다양한 작은 사이즈의 모델들은 LLaMA1 논문에서 간략히 다루었던 것과 같은 거대자본의 독점을 저지하고 실제로 생성형 AI 보급화에 기여하고 있기도 합니다.

그렇다면 LLaMA2는 기존의 LLaMA에 비해 어떤 점이 개선되었을까요? 이번시간에는 논문 Llama 2: Open Foundation and Fine-Tuned Chat Models을 리뷰하며 LLaMA2를 해부해 보는 시간을 가지도록 하겠습니다. (논문이 무려 77p에 달하는 관계로 너무 어렵거나 디테일한 부분은 과감하게 생략한 점 양해 부탁드립니다.)

1. LLaMA2를 통해 해결하고자 했던 문제

2023년 7월 출시당시 Meta AI는 LLaMA2의 매개변수(parameter)를 70억(7B), 130억(13B), 700억(70B) 개의 총 세 가지 버전을 공개하였으며, 대화형 모델에 최적화된 LLaMA2-chat 역시 동일한 세 가지 크기의 매개변수 (7B, 13B, 70B)로 출시하였습니다.

주목할만한 점은 역시 기존모델 대비 대폭 향상된 성능입니다. LLaMA2는 오픈 소스 기반 LLM 중 가장 성능이 좋은 SOTA 모델로 상식추론, 지식, 문해력 등 다양한 항목에서 뛰어난 성능을 보여주며, OpenAI의 GPT-3.5(gpt-3.5-turbo) 버전에 버금가는 성능을 자랑합니다.

출처 : Llama 2: Open Foundation and Fine-Tuned Chat Models

이러한 성능 개선의 배경에는 훈련 데이터 숫자의 증가가 있습니다. LLaMA2는 기존 모델 대비 40%가량의 데이터를 추가적으로 훈련에 사용하였으며 입출력 가능한 문장의 토큰수(context length) 역시 2048개에서 4096으로 대폭 증가시켰습니다.

출처 : Llama 2: Open Foundation and Fine-Tuned Chat Models

재미있는 점은 LLaMA2 역시 GPT-3.5, GPT-4과 방법론적으로 매우 유사한 접근방식을 통해 성능을 개선하고 있다는 점입니다. LLaMA2 역시 GPT-3.5 해부하기에서 다루었던 것과 같이 SFT(Supervised Fine-tuning)과 인간 피드백에 의한 강화학습(RLHF)을 통해 모델 성능을 개선합니다. 차이점으로는 어텐션(attention) 메커니즘에 변화를 주었고, RLHF를 반복적으로 수행했으며 이때 PPO(Proximal Policy Optimization) 통한 미세조정(Fine-tuning) 과정에서 알고리즘에 약간의 변화를 주었다는 점 정도입니다.

Llama 2: Open Foundation and Fine-Tuned Chat Models

2. LLaMA2의 한계점

오픈 소스 LLM의 고질적인 문제로 한국어 질문에 대한 인식과 답변을 제대로 하지 못한다는 점이 LLaMA2의 가장 큰 한계점이라고 할 수 있습니다. LLaMA2는 기존 오픈소스 LLM에 비해 한국어를 가장 잘하는 것으로 알려져 있지만 여전히 GPT-4와 비교하면 성능이 현저히 떨어집니다.

Llama 2: Open Foundation and Fine-Tuned Chat Models

이는 LLaMA2에 활용된 언어별 훈련 데이터의 분포를 보면 명확해집니다. 훈련 데이터의 무려 89.7%가 영어인 반면에, 한국어는 고작 0.06%에 불과한 것을 알 수 있습니다. 이러한 한계점을 극복하기 위해서는 LLaMA2를 비롯한 오픈소스 언어모델에 한국어 데이터를 추가학습할 필요가 있습니다. 최근에는 NIA(한국 정보화진흥원)과 스타트업 업스테이지가 '한국어 리더보드'를 공동 개설해 운영하는 등 한국어 데이터셋 확보를 통한 한국어 특화 LLM의 개발을 촉진하는 등 다양한 시도들이 계속되고 있습니다.

3. LLaMA2가 가지는 의의

2023년 2월 LLaMA1의 등장 이후, 같은 해 7월 성능이 개선된 LLaMA2이 등장하고 완화된 라이선스 정책을 표방하면서 LLaMA는 독자적인 생태계를 구축해 왔습니다. LLaMA의 대표적인 파생 모델로는 Stanford 대학교에서 개발한 Alpaca와 UC Berkley와 UC Sandiago 등 대학교의 연구진들이 개발한 Vicuna가 있습니다.

LLaMA 생태계(출처 : 나무위키)

이들 모델은 LLaMA2보다도 훨씬 적은 매개변수(2B~13B)로 다양한 데이터와 기법들을 활용하여 준수한 성능을 자랑하는데, 이처럼 작지만 강한 LLM 모델들을 sLLM(small LLM)이라고 합니다. 한 발 나아가 국내의 여러 대학과 연구기관에서는 이들 sLLM에 부족한 한국어 데이터를 추가 학습하여 한국어에 특화된 모델들을 만들려는 시도를 이어가고 있습니다. 다음시간에는 LLaMA2의 생태계에 대해 조금 더 자세히 소개하도록 하겠습니다.

keyword

Brunch Book 토, 일 연재

연재 생각하는 기계의 원리 - 2편

전체 목차 보기

이전 14화LLaMA-1 해부하기LLaMA 생태계 탐험하기(1)다음 16화