로컬 LLM의 성패는 정확도·속도·예산이 결정한다

좋은 장비보다 먼저 따져야 할 세 가지 기준

로컬 LLM 구축이 실패하는 이유는 생각보다 단순하다. 유명한 하드웨어를 샀는데도 정확도가 기대에 못 미치고, 속도가 느려서 현업이 외면하면 그 시스템은 곧 애물단지가 된다. 문제는 장비가 아니라 선택 기준이다. 로컬 LLM의 성패를 가르는 변수는 세 가지, 정확도·속도·예산이다.



s02.png 프로젝트 성공은 정확도-속도-예산의 분배에 달려있다


정확도는 업무 요건에서 정한다

정확도는 벤치마크 점수가 아니라, 해당 업무에서 오류 없이 쓸 수 있는가의 문제다. 해당 업무에서 원하는 동작을 하는가, 오류는 없는가, 할루시네이션은 없는가 등 여러각도에서 정량적으로 평가해야 한다. 실무 프로젝트에서 정확도 기준을 잘못 잡으면 시스템 전체가 흔들린다.

언어모델은 크기가 클수록 정확도가 높아진다. 업무용 로컬 LLM 환경에서 정확도를 중요하게 본다면, 검토 대상은 대체로 70B급 이상으로 올라가기 쉽다. 이 수준의 정확도를 가진 언어모델을 실용적인 속도로 실행하려면 VRAM이 충분한 GPU가 필요하다. VRAM이 부족해서 모델 전체를 GPU에 올리지 못하고 DRAM이나 SSD를 활용하면 동작 속도가 급격하게 느려진다.

물론 모델 크기를 키우는 것만이 정확도를 높이는 방법은 아니다. RAG를 적용하면 특정 도메인에서 작은 모델의 정확도를 끌어올릴 수 있고, 파인튜닝으로 특정 업무에 특화된 모델을 구성하는 방법도 있다. 먼저 정해야 할 것은 "모델의 응답 정확도가 업무에 활용한 수준인가"다. 이 기준이 없으면 한없이 더 큰 모델, 더 비싼 하드웨어를 찾게 된다.


로컬 언어모델이 지켜야 할 최저 속도

속도는 토큰 생성 속도(tokens/sec)로 측정한다. 모델이 클수록 정확도는 높아지고 속도는 느려진다. 정확도와 속도는 반대 방향으로 움직인다. 한국어 환경에서는 영어보다 토큰 밀도가 높아 같은 tokens/sec라도 체감 속도가 더 느리다. 1인 사용 환경에서 15~25 토큰/초가 불편하지 않은 수준이고, 40 토큰/초 이상이면 쾌적한 편이다. 하지만, 4명이 동시에 사용한다면 시스템의 전체 속도는 최소한 60 토큰/초 이상, 10명 이상의 팀 환경이라면 150 토큰/초 이상의 속도가 나와야 사용 가능한 속도가 된다.

간단한 질문 답변 용도로 사용한다면 15 토큰/초 도 쓸 수 있지만, 코딩 용도로 사용하는 로컬 LLM 이라면 30-토큰/초 라고 해도 느리다고 생각할 수 있다.

이렇게 사용자와 사용 용도에 따라서 달라지는 최소한의 속도는 보장해야 지속적으로 사용이 가능하다.


예산이 정확도와 속도의 상한을 정한다

정확도를 높이려면 더 큰 모델이 필요하고, 더 큰 모델을 빠르게 실행하려면 더 많은 VRAM과 GPU 성능이 필요하다. 예산이 무한대라면 최대 정확도와 최대 속도를 만족할 수 있지만, 예산은 한정되어 있기 때문에 정확도와 속도의 비율을 적절하게 조정해서 결정해야 한다.


로컬 언어모델 구성은 두 단계로 나눌 수 있다. 개인이나 소수의 팀이 사용하 단계는 25~35B 모델을 사용하면서 동시 사용자가 1~2명 수준이라면, RTX 5090 32GB 카드나 맥북 프로 M5 Max 64GB가 선택지다. 25~35B 모델 기준으로 RTX 5090은 40~50 tokens/sec, M5 Max 맥북은 30~40 tokens/sec 수준으로 알려져 있다. 속도 면에서는 RTX 5090 시스템이 유리하지만 100~200만 원 정도 비용이 더 든다. 중급 단계는 70B나 120B 규모의 모델을 사용하거나 동시 사용자 5~10명 수준을 고려하는 구성이다.


좀 더 많은 사람이 사용하거나 정밀한 모델을 활용 할 때 사용하는 하드웨어로는 RTX Pro 6000 카드와 맥북프로 를 활용하는 것을 생각할 수 있다. M5 Max 128GB 맥북 프로는 700~900만 원 수준으로 120B급 모델을 88 토큰/초로 실행한다. NVIDIA RTX PRO 6000 Blackwell은 96GB VRAM을 갖추고 120B급 모델을 181 토큰/초로 실행한다. 맥북프로의 두 배 이상의 속도 차이지만 RTX PRO 6000 카드 단독 가격만 1,600만 원 수준이고, 시스템 전체를 구성하면 2,000만 원 수준까지 필요하니 두 배 이상의 예산이 필요하다. 동시 사용자 수나 컨텍스트 크기에 따라서 맥북을 고를 수도 있고 RTX Pro 6000 카드를 선택할 수도 있다. 예산 범위 안에서 프로젝트 목표에 맞는 정확도와 속도의 균형을 찾아야 한다.


로컬 LLM 프로젝트에서 고려해야 하는 질문은 3가지이다.


이 업무가 요구하는 정확도는 어느 수준인가?

동시 사용자를 고려한 최소 속도는 얼마인가?

주어진 예산으로 정확도와 속도를 조건을 충족할 수 있는가?


이 세 가지 기준을 바탕으로 로컬 LLM 구축 프로젝트를 진행 할 때 만족스러운 결과를 얻을 수 있다.


관련글: 로컬 LLM 서버를 활용할 때 유용 Claude Code Channel(클로드 코드 채널)

->실제 로컬 LLM을 언제 어디서나 사용하기위한 도구


관련글 : 로컬 LLM, 하드웨어부터 사면 실패한다



#LLM #로컬모델 #전략 #구축 #RTX #맥북 #M5 #OSS-120B #QWEN3.5-35B #claude #code #channel

매거진의 이전글원하는 결과물을 말하면 AI가 만들어주는 시대가 왔다