Llama 3 출시
몇일전에 Meta는 오픈 소스 LLM(대형 언어 모델)의 가장 강력한 최신 버전인 Llama 3을 출시했습니다 .
이번 릴리스에는 80억 개의 매개변수가 포함된 Llama 3 8B와 700억 개의 매개변수가 포함된 Llama 3 70B의 두 가지 모델 버전이 함께 제공됩니다.
8B 모델은 기존 Llama 2모델과 거의 비슷한 성능을 보여주고 있습니다
70B 모델의 경우
HumanEval 점수 81.7점 으로 Gemini Pro 1.5 (71.9) 기존 다른 타사 모델의 성능을 능가합니다 . 그러나 여전히 최고 성능 모델인 GPT4 Turbo(85.7)에 비해 약간 부족합니다.
Meta-Llama-3–8B 및 Meta-Llama-3–8B-Instruct는 현재 HuggingFace 인기 목록의 최상위에 있습니다.
이는 공식적으로 단 몇 시간 만에 출시부터 인기 1위로 올라서는 가장 빠른 모델입니다.
Meta는 이번 릴리스에서 라마2 대비 많은 개선 사항을 포함했습니다.
토크나이저 개선: 128K 토큰의 vocabulary로 언어를 더 효율적으로 인코딩해 성능 향상
추론 효율성 개선: 8B, 70B 모델 모두 Grouped Query Attention(GQA) 적용
Instruction-tuning 혁신: SFT, Rejection Sampling, PPO, DPO 기법 활용한 정교한 모델 얼라인먼트
Llama 3은 8K 토큰 컨텍스트 창을 통해 Llama 2에 비해 컨텍스트 길이를 두 배로 늘렸습니다.
Llama 3 모델은 24,000개의 GPU가 탑재된 2개의 클러스터에서 공개적으로 사용 가능한 온라인 데이터의 새로운 혼합을 통해 15조 개가 넘는 토큰에 대해 최대 8배 더 많은 데이터로 학습되었습니다.
사전학습데이터 중 5%를 비영어권 데이터로 구성
메타 Llama 3를 Foundation Model로서 다운 받아야 하므로 허깅페이스 메타 Llama-3-8B-Instruct 모델을 페이지에서 신청을 하셔야 합니다. 신청하고 일정 시간이 지나면 메타에서 승인이 나면 모델을 다운로드 받을 수 있습니다.