brunch

You can make anything
by writing

C.S.Lewis

by 최재철 Aug 19. 2024

Llama 3.1 로컬 설치

두 가지 방법

Meta Llama 3.1의 최신 모델이 출시되었습니다. 이 글에서는 컴퓨터에 Llama 3.1을 로컬로 설치하는 방법을 설명드리겠습니다.


Llama 3.1 모델 이해

Llama 3.1에는 (8B, 70B 및 405B 매개변수) 3개의 크기가 있습니다. 각 모델 크기에는 다른 기능과 리소스 요구 사항이 있습니다.  


Llama 3.1 8B : 제한된 계산 리소스에 이상적이며 텍스트 요약, 분류, 감정 분석 및 언어 번역에 탁월합니다.

Llama 3.1 70B : 콘텐츠 작성, 대화형 AI, 언어 이해, 엔터프라이즈 애플리케이션에 적합합니다.

Llama 3.1 405B : 가장 큰 LLM이며 엔터프라이즈급 애플리케이션, 연구, 합성 데이터 생성에 적합합니다.


Llama 3.1은 무엇인가요?

Meta는 최근 8B 및 70B 모델의 업그레이드 버전과 405B 매개변수를 자랑하는 새로운 모델를 발표했습니다. 새로운 거대 405B 매개변수 모델은 150개 이상의 벤치마크 데이터 세트에서 GPT-4보다 성능이 뛰어납니다. 또한 업그레이드된 8B 및 70B 모델은 성능 평가에서도 각각의 경쟁사를 능가합니다.


Llama 3.1 벤치마크. 이미지 출처: https://ai.meta.com/blog/meta-llama-3-1/


Llama 3.1을 실행하는 첫번째 방법

먼저 HuggingFace의 Meta-Llama-3.1–8B 페이지를 방문하여 모델에 대한 액세스를 요청합니다 . 양식을 작성하고 라이선스 조건에 동의하여 프로세스를 완료합니다.


LLAMA 3.1 커뮤니티 라이센스 계약페이지

양식 작성

권한이 떨어지면 다음 코드를 실행하여 모델을 다운로드합니다.


import transformers
import torch  

model_id = "meta-llama/Meta-Llama-3.1-405B-Instruct"  

pipeline = transformers.pipeline(    
                  "text-generation",     
                  model=model_id,     
                  model_kwargs={"torch_dtype": torch.bfloat16},
                  device_map="auto", )

그런 다음 아래 코드에서 추론을 수행합니다.

messages = [    
                       {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},     
                       {"role": "user", "content": "Who are you?"},
                     ]  
outputs = pipeline(     
                  messages,     
                  max_new_tokens=256, )

print(outputs[0]["generated_text"][-1])

이것으로 구현이 완료됩니다.



Llama 3.1을 실행하는 두번째 방법


Llama 3.1을 로컬에서 실행하려면 먼저 Ollama를 설치합니다. 다음 단계를 따르세요.  

ollama.com을 방문하고 다운로드 버튼을 클릭하여 Ollama 설치 프로그램을 받으세요.


다운로드가 완료되면 설치 프로그램을 실행하고 화면의 지시를 따르세요.

설치 후 Ollama가 자동으로 시작됩니다. 화면 오른쪽 하단에서 아이콘을 찾을 수 있습니다. 시작되지 않으면 시작 메뉴로 가서 "Ollama"를 검색하여 실행합니다.


Ollama를 열고 오른쪽 상단 모서리에 있는 "모델" 섹션으로 이동합니다.


“Llama 3.1”을 찾아 클릭하세요.


"링크 복사" 버튼을 클릭하여 설치 명령을 복사합니다.


터미널을 열고 복사한 명령어를 붙여넣습니다. 명령어 : ollama run llama3.1

모델을 테스트하려면 curl과 같은 HTTP 클라이언트를 사용하여 http://localhost:11434 로 요청을 보냅니다

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt":"하늘은 왜 파란색인가요?"
}'

Llama 3.1을 실행하는 데 필요한 사양

Llama 3.1 8B라면 NVIDIA RTX3090이나 RTX4090 등의 고성능 가정용 GPU라면 쾌적하게 동작합니다만, 70B와 405B는 매우 높은 스펙이 요구되어 개인이 로컬로 움직이는 것은 현실적으로 불가능합니다.

405B 모델의 경우 NVIDIA A100 및 H100과 같은 데이터 센터용 GPU가 여러 대 필요합니다.


마무리

로컬 머신에서 Llama 3.1 모델을 설정하고 실행하여 개인 정보 보호 및 오프라인 액세스를 보장할 수 있습니다. 개발자, 연구자 또는 일반인이든 클라우드 서비스에 의존하지 않고도 대규모 언어 모델의 기능을 탐색할 수 있습니다.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari