로컬 LLM 8B 모델과 20B 모델의 차이

수행하려는 작업의 성격에 걸맞은 모델 선택


로컬 LLM 이야기를 꺼내면 빠지지 않는 질문이 있다. “요즘 8B(파라미터 80억 개, 약 6GB 메모리 필요)도 꽤 잘 나온다는데, 굳이 20B급까지 가야 하느냐”는 것이다. 이 질문은 그럴듯하다. 실제로 8B급 모델은 예전의 소형 모델과 다르다. 짧은 요약, 문장 다듬기, 간단한 분류, 정해진 양식의 초안 작성쯤은 생각보다 그럴듯하게 처리한다. 한두 번 써보면 “이 정도면 됐는데?”라는 말이 절로 나온다.

문제는 여기서 너무 빨리 결론을 내린다는 데 있다. 8B가 의외로 잘하는 일과, 8B로는 끝내 버거운 일은 분명히 다르다. 로컬 LLM에서 중요한 것은 숫자의 위세가 아니라, 어떤 일까지 맡길 수 있느냐는 경계다. 사용자는 대개 바로 그 경계에서 만족하거나, 실망한다.


8B급 모델이 잘하는 일은 대체로 심부름이다

실사용 후기를 종합하면 8B급 모델이 비교적 안정적으로 처리하는 일은 분명하다. 메일을 분류하고 짧게 정리하는 일, 웹페이지 한 장을 요약하는 일, 회의 일정을 캘린더에 등록하는 일, 정해진 포맷으로 텍스트를 바꾸는 일 같은 것들이다. 입력이 짧고, 해야 할 판단이 많지 않고, 정답의 구조가 어느 정도 정해져 있는 작업들이다.

이런 일에서 8B는 꽤 만족스럽다. 실제 영어권 OpenClaw 사용자들도 캘린더 등록, 기본 자동화, 가벼운 이메일 처리 같은 작업은 소형 로컬 모델로도 충분히 돌아간다고 말한다. 벤치마크보다 중요한 것은 체감인데, 이 구간에서는 “쓸 만하다”는 반응이 분명히 존재한다.

그래서 8B를 전면 부정할 이유는 없다. 문제는 많은 사람이 이 만족을 너무 넓게 일반화한다는 데 있다. 메일 정리와 일정 등록이 잘 되었다고 해서, 그다음 단계의 조사와 보고서 작성까지 비슷하게 될 것이라고 기대하는 순간부터 계산이 어긋난다.


20B가 필요한 일은 조사와 정리의 결합이다

체급 차이는 대개 두 번째 종류의 작업에서 드러난다. 메신저 명령 하나를 받아 자료를 조사하고, 여러 결과를 비교하고, 그 내용을 다시 요약해 짧은 보고서로 정리하는 일이다. 여기서는 단순히 문장을 매끈하게 쓰는 능력만으로는 부족하다. 검색 결과 여러 개를 읽고, 무엇이 핵심인지 가르고, 앞에서 받은 지시를 뒤에서도 유지하고, 결과물을 한 번에 정리할 수 있어야 한다.

바로 이 대목에서 8B는 자주 흔들린다. 사용자가 보기엔 “아예 못 쓰는 건 아닌데, 꼭 한 군데씩 빠진다”는 느낌에 가깝다. 한 문단은 그럴듯하지만 비교가 부실하고, 비교는 했지만 결론이 약하고, 결론은 냈지만 앞의 조건을 놓친다. 실사용자들이 작은 모델에 대해 “뭔가 아쉽다”라고 말할 때, 대개는 바로 이 종류의 붕괴를 가리킨다.

20B급(200억 파라미터, 약 20GB 용량)으로 올라가면 이 구간의 안정성이 분명히 좋아진다. 자료를 읽고 고르는 힘, 지시를 끝까지 붙드는 힘, 결과를 한 덩어리로 묶는 힘이 한 단계 올라간다. 그래서 단순한 심부름이 아니라, 조사와 요약이 결합된 준사무 작업부터는 20B 이상이 권장된다는 말이 나오는 것이다.


이 구분은 감상이 아니라 후기와 벤치마크에서 확인된다.

여기서 조심할 점이 하나 있다. “8B는 여기까지, 20B는 여기부터”라는 구분은 제조사가 정해놓은 공식선이 아니다. 사용자 후기와 벤치마크를 종합해 보면 대체로 그렇게 느껴진다는 뜻이다.

영어권 OpenClaw 사용자들의 후기를 보면, 8B는 캘린더, 이메일 분류, 짧은 자동화 작업에는 쓸 만하지만 여러 단계를 잇는 작업에서는 중간에 흐름을 놓치거나 handoff를 망친다는 말이 반복해서 나온다. 반대로 20B급이나 27B급 이상으로 가면 “느리더라도 훨씬 실전적이다”, “계속 데리고 일할 수 있다”는 반응이 늘어난다.

정량 데이터도 방향은 비슷하다. OpenClaw 벤치마크인 PinchBench에서는 7B급 모델과 20B급, 27B급 모델 사이의 성공률 차이가 꽤 크게 벌어진다. 공식 벤치마크 성능에서도 차이가 나는데, Qwen 2.5의 7B Vs. 32B, Gemma 3 모델의 4B VS. 27B 모델의 격차는 꽤 크게 나타난다. 벤치 마크 수치가 곧바로 사용자 만족도를 뜻하지는 않는다. 그러나 왜 사람들의 체감이 그렇게 갈리는지는 충분히 설명해 준다. 간단한 작업에서는 차이가 작아 보이지만, 조사와 정리, 긴 맥락 유지가 붙는 순간 격차가 커진다는 뜻이기 때문이다.


핵심은 비서와 동료의 차이다

그래서 8B와 20B의 차이를 한 문장으로 줄이면 이렇다. 8B는 메일을 정리하고 웹페이지 하나를 요약하고 일정을 등록하는 데는 제법 쓸 만한 비서다. 그러나 메신저 명령 하나를 받아 자료를 찾아보고, 그 결과를 비교해 요약하고, 보고서 초안까지 써내는 단계로 가면 곧 체급 차이가 드러난다. 그때는 20B 이상이 비로소 업무 보조에 가까워진다.

이 차이는 로컬 모델을 사용하는 사람이 투자해야 하는 시간과 관계있다. 작은 모델이 적은 예산으로 시작할 수는 있다. 하지만 문맥을 자주 놓치고, 문장 구조가 자주 무너지고, 사람이 직접 손을 대야 하는 상황이 계속되어야 한다면, 절감한 예산이 무색해진다.

그래서 로컬 LLM을 고민하는 사람에게 정말 필요한 질문은 이것이다. 나는 AI에게 심부름을 시키려는가, 아니면 조사와 정리까지 맡기려는가. 전자라면 8B 급 모델도 충분히 만족스러울 수 있다. 그러나 후자라면 20B급 모델 이상부터 봐야 한다. 로컬 LLM의 만족도는 바로 그 경계에서 갈린다.


Gemini_Generated_Image_n0n396n0n396n0n3.png 파라메터 차이는 수행하는 업무능력과 연관된다


#AI #로컬LLM #LM-studio #Ollama #8B #20B #Qwen #Gemma #능력 #OpenClaw #벤치마크


연관글:로컬 LLM, 하드웨어부터 사면 실패한다

연관글:로컬 LLM의 성패는 정확도·속도·예산이 결정한다




매거진의 이전글AI 시장 메모리 수요의 역설