Llama 3.1 로컬 설치

두 가지 방법

by 최재철

Aug 19. 2024

Meta Llama 3.1의 최신 모델이 출시되었습니다. 이 글에서는 컴퓨터에 Llama 3.1을 로컬로 설치하는 방법을 설명드리겠습니다.

Llama 3.1 모델 이해

Llama 3.1에는 (8B, 70B 및 405B 매개변수) 3개의 크기가 있습니다. 각 모델 크기에는 다른 기능과 리소스 요구 사항이 있습니다.

Llama 3.1 8B : 제한된 계산 리소스에 이상적이며 텍스트 요약, 분류, 감정 분석 및 언어 번역에 탁월합니다.

Llama 3.1 70B : 콘텐츠 작성, 대화형 AI, 언어 이해, 엔터프라이즈 애플리케이션에 적합합니다.

Llama 3.1 405B : 가장 큰 LLM이며 엔터프라이즈급 애플리케이션, 연구, 합성 데이터 생성에 적합합니다.

Llama 3.1은 무엇인가요?

Meta는 최근 8B 및 70B 모델의 업그레이드 버전과 405B 매개변수를 자랑하는 새로운 모델를 발표했습니다. 새로운 거대 405B 매개변수 모델은 150개 이상의 벤치마크 데이터 세트에서 GPT-4보다 성능이 뛰어납니다. 또한 업그레이드된 8B 및 70B 모델은 성능 평가에서도 각각의 경쟁사를 능가합니다.

Llama 3.1 벤치마크. 이미지 출처: https://ai.meta.com/blog/meta-llama-3-1/

Llama 3.1을 실행하는 첫번째 방법

먼저 HuggingFace의 Meta-Llama-3.1–8B 페이지를 방문하여 모델에 대한 액세스를 요청합니다 . 양식을 작성하고 라이선스 조건에 동의하여 프로세스를 완료합니다.

LLAMA 3.1 커뮤니티 라이센스 계약페이지

양식 작성

권한이 떨어지면 다음 코드를 실행하여 모델을 다운로드합니다.

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3.1-405B-Instruct"

pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto", )

그런 다음 아래 코드에서 추론을 수행합니다.

messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
messages,
max_new_tokens=256, )

print(outputs[0]["generated_text"][-1])