brunch

연재 중 생각하는 기계의 원리 - 2편 13화

라이킷 20 댓글 1

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 알바트로스 Apr 07. 2024

LLaMA 시리즈 해부하기

오픈소스 진영을 대표하는 Meta의 야심작

OpenAI는 진짜로 오픈되어 있을까? 에서 다루었듯이 생성형 AI는 OpenAI로 대표되는 폐쇄진영과 소스코드 및 매개변수(parameter)와 훈련 데이터 등을 투명하게 공개하는 오픈소스 진영으로 나뉩니다. GPT-1부터 4까지 지난 다섯 번에 걸쳐 각 모델의 논문을 리뷰한 '모델 해부하기' 시리즈에서 살펴보았듯이 OpenAI가 시작부터 폐쇄진영을 대표하지는 않았습니다. Microsoft에서 대규모 투자를 받는 등 회사의 영리적 성향이 강해지면서 OpenAI가 개발자 커뮤니티와는 멀어져 가는 행보를 보이고 있는 것은 확실해 보입니다.

Meta(구 Facebook)은 오픈소스 진영을 대표하는 회사입니다. Meta는 생성형 AI 서비스 제공에 있어서 만큼은 아주 개방적인 정책을 펼치고 있는 회사로, 자체 개발한 생성형 AI인 LLaMA의 소스코드를 공개하는 방식으로 오픈소스 전략을 적극적으로 추진하고 있습니다. 이를 통해 개발자들은 다양한 프로젝트에서 LLaMA를 원하는 목적에 맞게 커스터마이징하여 활용할 수 있게 되었지요.

이런 개방성과 투명성 덕분에 메타는 인공지능 분야의 생성형 AI 개발 프로젝트에서 가장 주목받고 있는 빅테크 기업 중 하나로 자리매김하고 있습니다. 이번 시간에는 챗GPT를 견제하기 위한 Meta의 야심작 LLaMA 시리즈에 대해 소개하는 시간을 가져보도록 하겠습니다.

1. LLaMA(Large Language Model Meta AI)란?

Meta에서 공개한 LLaMA는 깃헙을 통해 직접 모델을 다운로드하고 훈련하여 활용할 수 있는 오픈소스 기반 초거대언어모델(LLM)입니다. LLaMA를 공개하면서 Meta는 이 프로젝트가 초거대 인공지능 모델을 교육하는 데 필요한 막대한 컴퓨팅 성능으로 인해 방해를 받아온 현장에 대한 액세스를 민주화하는 데 도움이 될 수 있다고 주장하기도 했습니다.

Meta의 LLaMA는 70억, 130억, 330억, 650억 개의 매개변수를 가지는 네 가지 모델로 구성되어 있습니다. 이 모델들은 1750억 개의 매개변수를 가진 GPT-3.5와 비교했을 때 매개변수 수가 적지만 그럼에도 불구하고 준수한 성능과 모델 학습의 유연성을 자랑하며 개발자들 사이에서 인기를 끌고 있습니다.

출처 : Meta

2. LLaMA 시리즈의 활용성과 유연성

LLaMA시리즈의 다른 큰 장점은 가벼운 용량과 확장성입니다. 매개변수(parameter) 수가 다른 모델의 10분의 1 수준에 불과하기 때문에 고성능 GPU뿐만 아니라 다양한 에지 디바이스, 예를 들어 스마트폰 등에서도 AI 생성을 구현할 수 있다는 점에서 매력적입니다. 이런 특징은 특정 목적에 맞게 개발되는 소규모 초대형 언어 모델(sLLM)의 개발에도 큰 도움이 됩니다.

출처 : A Survey of Large Language Models

실제로 LLaMA에 기반한 Code-LLaMA 뿐 아니라 스텐포트 대학교에서 개발한 Alpaca 및 Vicuna 등 다양한 소형 초거대언어모델(sLLM) 개발에 활발히 활용되며 스스로의 생태계를 키워나가고 있습니다. OpenAI의 GPT를 활용한 개발 프로젝트가 GPT-3 수준에 멈추어 있는 것과 비교하면 매우 고무적인 일입니다.

3. 라이선스 정책을 대폭 확대한 LLaMA(Large Language Model Meta AI) 2

메타는 2023년 7월에 LLaMA2를 선보였습니다. LLaMA2는 사전 학습 말뭉치(pre-training corpus)가 1조 4천억 개에서 2조 개로, 약 40% 증가하며 모델의 학습 데이터 범위가 크게 확장되었습니다. 매개변수도 기존의 네 가지에서 70억 개, 130억 개, 700억 개 세 개의 모델로 통합되었습니다.

출처 : Meta

그러나 LLaMA2가 기존 LLaMA 모델과 가장 크게 다른 점은 라이선스 사용 정책입니다. 초기 LLaMA는 연구원, 학계, 정부 및 시민 단체 등에게 비상업적 목적으로만 일부를 공개했던 반면, LLaMA2는 상용 활용이 가능한 라이선스로 공개되었지요. 이는 메타가 LLaMA2를 연구뿐만 아니라 다양한 상용 환경에서도 활용할 수 있도록 허용함으로써 LLM의 사용 범위를 확장하려는 의도를 보여줍니다. 이번시간에는 오픈소스 진영을 대표하는 LLaMA 시리즈에 대해 간략히 살펴보았습니다. 다음시간부터는 본격적으로 논문 리뷰를 하며 LLaMA를 해부해 보는 시간을 가져보도록 하겠습니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari