목적에 걸맞은 모델부터 결정하자.
Open Claw 등이 엄청난 인기를 끌면서 로컬 환경에서 LLM을 실행하려는 시도가 늘었고, 하드웨어로는 맥 미니가 자주 언급된다. 가격 대비 성능이 좋고 전력 효율이 높기 때문에 개인용 AI 환경을 구축하려는 사람들에게 매력적인 선택지이기 때문이다.
하지만 로컬 LLM을 실제로 구성해 보면 곧 한 가지 질문이 등장한다. “맥 미니 16GB 하드웨어로 로컬 언어모델을 충분히 사용할 수 있을까?”
이 질문에 답하려면 하드웨어부터 논의할 것이 아니라 먼저 사용할 모델을 결정해야 한다. 로컬 LLM 환경에서는 모델이 요구하는 메모리와 처리 속도가 하드웨어 구성을 사실상 결정하기 때문이다. 로컬 LLM을 결정하는 방법과 하드웨어를 결정하는 방법을 정리해 본다.
로컬 LLM 환경을 설계할 때 흔히 하는 실수는 하드웨어를 먼저 구매하는 것이다. 하지만 실제 순서는 그 반대다. 먼저 사용할 언어모델의 크기와 성능 수준을 정하고, 그 모델이 요구하는 메모리와 연산 성능을 기준으로 하드웨어를 선택해야 한다.
대부분의 로컬 환경에서는 오픈소스 모델을 사용하는데, 이때 Ollama나 LM Studio 같은 도구를 이용하면 다양한 모델을 쉽게 시험해 볼 수 있다. Ollama는 무료 및 유료로 제공되는 cloud models 기능을 통해 로컬 GPU 없이도 일부 모델을 시험할 수 있어 고가의 하드웨어 없이도 모델 적합도를 확인하는 데 도움이 된다.
예를 들어 OpenAI의 OSS-20B 모델은 대략 16GB 수준의 메모리 환경에서 실행되는 사례가 많다. 다만 실제 요구 메모리는 양자화 방식이나 콘텍스트 길이에 따라 달라질 수 있다. 반면 알리바바의 Qwen 3.5 9B 모델은 양자화 버전 기준으로 6~7GB 수준의 메모리에서 실행되는 경우가 많다. 운영체제와 기타 프로그램이 사용하는 메모리를 고려하면 RAM 16GB 맥 미니에서는 20B급 모델을 여유 있게 사용하기는 쉽지 않다. 반면 7B~9B급 모델은 비교적 현실적인 선택이 된다. 만약 QWEN 3.5 9B 모델이 원하는 수준의 응답을 하지 못한다면 OpenAI의 OSS-20B 모델이나 QWEN 3.5 35B 모델 등으로 바꾸어서 사용해 보는 등의 방법으로 원하는 응답 수준을 하는 모델을 먼저 결정해야 한다.
애플 실리콘 환경에서는 CPU와 GPU가 통합 메모리를 함께 사용하기 때문에 실제로 활용 가능한 메모리는 더 줄어든다. 이 때문에 로컬 환경에서는 규모가 작은 모델의 양자화 버전이 가장 현실적인 선택이 된다.
현재 맥 미니 16GB 환경에서 비교적 안정적으로 실행되는 모델들은 다음과 같다.
Qwen 3.5 7B
Qwen 3.5 9B (양자화 모델)
Gemma 3 4B / 7B
Mistral 7B 계열 모델
Nemotron 3 Nano 4B(nvidia)
이 모델들은 메모리 요구량이 비교적 낮고 Ollama나 LM Studio를 통해 실행하기도 쉽다. 특히 Qwen 계열은 한국어 성능이 비교적 안정적인 편이라 로컬 환경에서 자주 사용된다.
반면 20B 이상 모델은 RAM 16GB 환경에서는 여유가 거의 없다. 모델이 실행되더라도 콘텍스트 길이나 동시 작업 수에 따라 성능이 크게 떨어질 수 있다. 이런 경우에는 메모리 용량이 더 큰 맥미니를 활용할 수도 있고, 혹은 nvidia의 GPU를 고려할 수 있다.
하드웨어 성능을 판단할 때 참고할 수 있는 지표 중 하나는 토큰 생성 속도(tokens per second)다. 이는 LLM이 텍스트를 생성하는 속도를 의미한다. 다만 토큰 속도는 모델 구조, 양자화 방식, GPU 유무, 프롬프트 길이에 따라 크게 달라지기 때문에 절대적인 기준이 존재하는 것은 아니다.
특히 한국어 환경에서는 영어보다 토큰 밀도가 높기 때문에 같은 tokens/sec라도 체감 속도가 더 느리게 느껴지는 경우가 많아서 영어권 자료를 참고하면 속도가 답답하게 느껴지기도 한다. 실무적으로 한국어 환경에서 자주 언급되는 체감 기준은 다음과 같다.
15~25 tokens/sec : 개인 사용에서 크게 불편하지 않은 속도
40~60 tokens/sec : 비교적 여유 있게 사용할 수 있는 속도
여러 사용자가 동시에 접근하는 환경에서는 더 높은 처리 성능이 필요하다. 결국 사용자 수와 작업 유형에 따라 필요한 하드웨어 성능도 달라진다. 예를 들어서 2명이 사용하면 최소 30 tokens/sec 이상이 되어야 하고, 4명이 사용한다면 최소 40 tokens/sec 이상이 지원되는 하드웨어를 골라야 한다.
메모리가 부족할 경우 여러 대의 장비를 연결해 모델을 실행하는 방식도 가능하다. 예를 들어 16GB 맥 미니 두 대를 연결하면 OSS-20B 모델이나 QWEN 3.5 35B와 같이 더 큰 모델을 실행하는 구성을 만들 수 있다.
하지만 이런 방식은 일반적으로 모델 전체가 하나의 GPU VRAM에 올라가는 구조보다 성능이 불리하다. 실제 운영 환경이라기보다는 실험적인 구성이거나, 반드시 로컬 LLM을 사용해야 하는데, 적합한 GPU를 구하지 못하는 경우에 어쩔 수 없이 고려하는 방식이다.
로컬 LLM 환경을 구축하려는 이유는 여러 가지가 있다. 대표적으로는 다음과 같은 경우다.
보안상의 이유로 내부 데이터를 외부 서비스로 보내기 어려운 경우
특정 작업을 자동화하기 위한 전 도구 구축
하지만 전담 인프라 담당자가 없는 환경이라면 클라우드 LLM을 사용하는 것이 더 현실적인 경우도 많다.
예를 들어 Groq.com 플랫폼은 NVIDIA와 추론 기술 라이선스 협력을 할 정도의 고속 추론 서비스를 제공하고 있는데 OpenAI의 OSS-120B 모델을 500 tokens/sec의 속도로 지원하면서 일정 사용량까지는 무료로 제공한다. 또한 Microsoft Azure의 OpenAI의 GPT-5.4 계열을 포함한 최신 모델이 제공되어서 오픈소스 모델보다 완성도가 높은 LLM을 사용할 수 있다. 이렇게 모델 성능과 하드웨어 구매 및 유지 비용을 고려하면 클라우드가 더 효율적인 경우도 적지 않다.
최근 런칭 된 애플의 M5 Max 칩을 사용한 맥북 14인치(M5 Max, RAM 128GB) 의 경우에는 OpenAI OSS-120B를 사용할 때 88token/sec로 동작한다고 한다. 혼자 사용하기에는 아주 빠르고, 3명이 동시에 사용해도 괜찮은 정도의 성능인데, 판매가는 약 940만원이다. 이 하드웨어 비용과 클라우드 사용비용을 비교해서 결정하는 것이 좋다.
현재 로컬 LLM 활용은 초기 단계로, 아직 실전적인 적용 방법론이 널리 알려지지 않아서 처음 도전하는 경우에는 혼란이 많은 상황이다. 하지만 기본 원칙은 비교적 단순하다.
사용할 모델을 먼저 결정한다
모델이 요구하는 메모리와 성능을 확인한다
그 기준에 맞춰 하드웨어를 선택한다
로컬 LLM 환경을 고민할 때 가장 중요한 질문은 결국 하나다. 어떤 컴퓨터를 살 것인가가 아니라, 내가 하려는 작업에는 어떤 모델이 적합한가를 확인하고, 모델과 사용할 인원을 고려해서 필요한 메모리와 GPU 성능을 결정하여 로컬 LLM을 구현한다.
#AI #LLM #생성형AI #언어모델 #GPT #Ollama #LM-Studio #맥미니 #Mac #M5 #Max