아직도 chatGPT API에 월 20달러 내고 있냐

로컬 7B로 갈아타고 NVIDIA 논문 읽고 깨달은 진실

by the게으름

Sep 13. 2025

"아직도 chatGPT API에 월 20달러 내고 있냐?"

로컬 7B로 갈아타고 NVIDIA 논문 읽고 깨달은 진실

TL;DR

Claude API 매달 20달러? 로컬 7B로 대체 가능.

NVIDIA 논문: 작은 모델이 에이전트의 미래.

시작법: Ollama + Qwen 2.5 7B, VRAM 8~16GB면 충분.

자동화, AI agent, API.

29달러.

매달 빠져나가는 돈이었다.

Make.com 9달러, Claude API 20달러.

AI 자동화에 빠져 있었다. Claude의 두뇌를 빌려 쓰는 대가로 매달 20달러씩 내면서.

자동으로 이메일 분류하고, 자동으로 보고서 요약하고, 자동으로 답장 보내고. 미래가 온 줄 알았다. 클러드 코드가 나오고, 바이브 코딩을 알게 되고, make.com 구독을 취소했다. 9달라를 아꼈다.

그러다 Claude Code로 바이브 코딩하던 어느 날. AI agent를 만들고, 습관처럼 클러드 소넷 api를 돌리다가 든 생각.

"잠깐, 이거 굳이 API로 해야 하나? 로컬로 못 돌리나?"

데스크탑에 4060 Ti 16GB 꽂혀있는데 게임만 하고 있었다.

이 녀석으로 뭔가 할 수 있지 않을까?

찾아보니 있더라. 집에서도 돌릴 수 있는 AI가.

SLM AI. (Small language model AI)

SLM: 1–7B급 소형 모델. 에이전트용 반복·정형 태스크에 유리.

LLM은 많이들 들어 보셨을 거다. 우리가 흔히 쓰는 챗지피티나 클러드. 이런 애들이 이거다.

Large language model AI.

7B 모델 깔고 놀란 날

Qwen 2.5 7B 설치는 생각보다 간단했다.

Ollama 깔고, 모델 다운받고. 끝.

처음엔 의심했다.

"설마 이 작은 게 Claude만큼 하겠어?"

테스트 삼아 평소 하던 작업을 던져봤다.

JSON 파싱, 텍스트 요약, 코드 리뷰. 되더라. 아니, 그냥 되는 정도가 아니었다.

API 콜 기다리는 지연시간도 없고, 토큰 제한 걱정도 없고. 무엇보다 속도가 미쳤다. 로컬이니까 당연하지만.

내가 Make.com에서 짜놓은 시나리오들을 하나씩 로컬로 옮겨봤다.

대부분 그냥 됐다.

안 되는 것들? 솔직히 복잡한 추론이나 긴 글쓰기 정도였다.

근데 내가 하는 작업 중에 그런 게 몇 개나 됐을까?

특히나 AI agent가 하는 일중에는?

거의 없다.

그러다 이 논문을 발견했다

%ED%99%94%EB%A9%B4_%EC%BA%A1%EC%B2%98_2025-09-11_144049.png?type=w800

"Small LLMs are the Future of Agentic AI."

NVIDIA가 2025년 6월에 낸 논문.

"Small LLMs are the Future of Agentic AI."

제목부터 도발적이다.

"AI 에이전트의 미래는 작은 모델이다."

첫 페이지부터 펀치를 날렸다. IT 대기업의 50% 이상이 이미 AI 에이전트를 쓰고 있다.

시장 규모? 2024년 52억 달러에서 2034년 2000억 달러로 성장 예정.

LLM API 시장은 겨우 56억 달러인데, 인프라 투자는 570억 달러.

논문은 단도직입적으로 말한다.

"대부분의 에이전트 작업은 반복적이고, 한정적이며, 대화형이 아니다."

그리고 증거를 던진다.

Microsoft Phi-2, 겨우 2.7B 모델이 코드 생성과 기본 추론에서 30B 모델과 동등한 성능을 낸다.

속도는 15배 빠르면서 말이다. Phi-3 7B는 70B 모델급이고, Huggingface SmolLM2 1.7B는 2년 전 70B 모델 수준이다. 추론 비용? 7B는 175B 대비 10-30배 저렴하다.

왜 훨씬 작은대, 같은 성능을 내냐고?

생각해보자, 우리가 부엌에서 무나 배추를 써는데, 엄청난 세계적인 명검이나 우리집 장미칼이나 비슷하게 썰린다는거다. 어차피 ai agent가 하는 일들은 엄청난 추론도, 복잡한 일도 아니다. 좀 단순한 일을 반복적으로 할 뿐. 그러니 작은 모델을 써도 비슷한 성능을 낸다는 거다.

이게 무슨 말인지 아는가? 우리가 호구였다는 거다.

마트에 장보러 가면서 루이비통 백 들고 가서 대파 담아오는 격이었다.

겨우 이메일 정리나 시키자고 chatGPT 4o API값을 낸다고?

이건 참새 잡겠다고 대포 쏘는 격이다.

아니 모기 잡겠다고 핵무기 날리는 꼴인가?

da1dc6d3-49fd-40a6-9a4d-0a8e67cfc43b.png?type=w800

무랑 배추를 이렇게 썰고 있던거다.

LLM AI와 SLM AI, 아니 대체 얼마나 small하길래?

크기를 체감하기 쉽게 비유하면:

GPT-4 = 엠파이어 스테이트 빌딩 (443m)

Claude Opus 4.1 = 부르즈 칼리파 (828m)

GPT-3 = 63빌딩 (249m)

7B 모델 = 보통 아파트 1층 (3m)

Phi-2 (2.7B) = 성인 키 (1.7m)

실제 하드웨어 요구사항:

GPT-4급: 데이터센터 (A100 GPU 수백 개)

70B 모델: 서버급 (A100 80GB 2개)

7B 모델: 일반 데스크탑 (RTX 4060 Ti 16GB)

2.7B 모델: 게이밍 노트북 (RTX 3060 6GB)

GPT-4가 1,760B라고 추정된다.

7B의 251배다. VRAM으로 치면 3TB 이상 필요하다.

Claude Opus는 수백B, GPT-3.5는 175B.

이런 거대 모델들을 돌리려면 데이터센터에 A100 GPU 수백 개가 필요하다.

반면 7B는?

내 데스크탑 RTX 4060 Ti 16GB면 충분하다.

Phi-2 2.7B는 게이밍 노트북에서도 돌아간다.

건물로 비유하면 GPT-4가 엠파이어 스테이트 빌딩이라면, 7B 모델은 1층짜리 단독주택정도다.

근데 NVIDIA 논문이 뭐라고 했지?

"Phi-2 (2.7B)가 30B 모델과 동등한 성능."

크기가 1/10인데 성능은 비슷하다는 거다.

왜? AI 에이전트가 하는 일 대부분이 무나 배추 써는 수준이니까.

엑스칼리버든 부엌칼이든 비슷하게 잘린다는 말이다.

진짜 쓸만한 SLM 목록

초경량급 (VRAM 2-4GB) - 라즈베리파이도 가능

SmolLM2 (125M~1.7B): Huggingface 작품. 1.7B가 14B 모델 수준 성능

NVIDIA Hymba-1.5B: 같은 크기 대비 3.5배 빠른 토큰 처리

DeepSeek-R1-Distill-1.5B: 추론 특화, Claude-3.5 Sonnet 능가하는 경우도

중량급 (VRAM 4-8GB) - 게이밍 노트북

Phi-2 (2.7B): Microsoft 작품, 30B 모델과 동등한 코드 생성, 15배 빠름

NVIDIA Nemotron-H (2B/4.8B): 하이브리드 아키텍처, 30B급 성능

Toolformer (6.7B): API 사용 특화, GPT-3 (175B) 능가

헤비급 (VRAM 8-16GB) - 일반 데스크탑

Qwen 2.5 7B: 중국산 만능, 균형 잡힌 성능

Phi-3 small (7B): 70B 모델급 언어 이해력

DeepSeek-R1-Distill-7B: GPT-4o 능가하는 추론력

DeepMind RETRO-7.5B: 외부 DB 연결, GPT-3 성능을 25분의 1 크기로

Salesforce xLAM-2-8B: 도구 호출 특화, GPT-4o보다 정확

사용 목적별 추천

코드 생성 위주:

1순위: Phi-2 (2.7B) - 가볍고 빠름

2순위: Phi-3 (7B) - 더 복잡한 코드

도구 호출/API 연동:

1순위: xLAM-2-8B - 최고 정확도

2순위: Toolformer (6.7B) - 검증된 성능

추론/분석:

1순위: DeepSeek-R1-Distill-7B - 추론 최적화

2순위: RETRO-7.5B - 외부 지식 활용

범용 에이전트:

1순위: Qwen 2.5 7B - 균형잡힌 성능

2순위: Nemotron-H - 모듈식 접근

초저사양:

SmolLM2 1.7B - 놀라운 효율성

논문이 강조한 핵심은 이거다: "특화된 작은 모델 여러 개 > 거대한 범용 모델 하나"

네 작업이 뭔지 정확히 파악하고, 거기 맞는 모델을 골라서 파인튜닝하면 된다. 모든 걸 하나로 해결하려고 하지 마라.

에이전트는 애초에 단순 작업만 한다

논문에 이런 문장이 있다.

"AI 에이전트는 본질적으로 heavily instructed and externally choreographed gateway다."

번역하면? "그냥 정해진 대로만 움직이는 문지기"라는 거다.

도구 호출, 포맷 변환, 데이터 추출. 이게 에이전트가 하는 일의 99%다.

70B 모델로 JSON 파싱하는 건 대포로 참새 잡는 거다. 아니, 핵폭탄으로 모기 잡는 수준이다.

논문은 제안한다.

차라리 특화된 2B 모델 5개를 쓰라고.

하나는 대화용, 하나는 코드 생성용, 하나는 데이터 추출용.

이렇게 모듈화하는 게 하나의 거대한 모델보다 효율적이라는 거다.

실제로 NVIDIA Nemotron-H는 2B/4.8B/9B 하이브리드로 30B LLM과 동등한 성능을 낸다.

FLOP은 10분의 1만 쓰면서.

논문은 이걸 "heterogeneous systems"라고 부른다.

복잡한 추론이 필요하면 큰 모델을, 단순 작업엔 작은 모델을 쓰는 거다. 적재적소라는 말이다. 한 가지 모델로 모든 걸 하려 하지 말고, 작업별로 다른 모델을 쓰라는 거다. 이메일 분류는 2B, 코드 생성은 7B, 창의적 글쓰기는 Claude API. 이렇게 섞어 쓰는 게 진짜 스마트한 방법이다.

파인튜닝의 마법

논문에서 가장 눈이 번쩍 뜨인 부분이 여기다.

SLM 파인튜닝은 GPU 몇 시간이면 끝난다.

LLM은? 몇 주 걸린다. 필요한 데이터도 겨우 10k~100k 예시면 충분하다고 한다.

파인튜닝이 뭐냐고?

쉽게 말하면 "맞춤 교육"이다. 일반 7B 모델은 만능 신입사원이다.

뭐든 어느 정도는 한다. 시 쓰기, 코딩, 번역, 대화.

근데 네가 원하는 특정 업무는 70% 정도만 맞춘다.

파인튜닝은 이 신입을 네 회사 전문가로 만드는 과정이다.

예를 들어 네가 매일 고객 이메일을 특정 JSON 형식으로 변환하고,

에러 로그를 3줄로 요약하고, 코드에서 보안 취약점만 체크한다고 치자.

일반 모델한테 시키면 매번 길게 설명해야 하고, 가끔 엉뚱한 포맷으로 답한다.

파인튜닝한 모델?

"이메일 변환해줘"만 해도 정확히 네가 원하는 포맷으로 뱉는다.

정확도는 70%에서 95% 이상으로 뛴다.

프롬프트는 한 줄로 줄어든다.

속도는 당연히 빨라진다.

논문이 제시하는 방법이 천재적이다.

"네 에이전트가 실제로 하는 일을 기록해서 그걸로 학습시켜라."

생각해보니 당연하다.

내 Make.com 시나리오가 하는 일이 뭔가?

JSON 받아서, 특정 필드 추출하고, 포맷 바꾸고, 다시 보내는 거다.

이게 전부다.

이걸 위해 175B 모델을 쓴다고?

김치찌개 끓이는데 미슐랭 3스타 셰프 부르는 격이다.

LoRA라는 것도 있다.

전체 14GB 모델을 다시 학습시키는 게 아니라,

100MB 정도의 "어댑터"만 학습시키는 거다.

전체 교과서 다시 쓰는 게 아니라 중요한 부분에만 포스트잇 붙이는 방식이다.

내 4060 Ti로도 충분하다.

비용? LLM 파인튜닝이 수천만원이라면, SLM + LoRA는 전기세 500원이다.

내가 로컬로 전환하고 깨달은 것

API 지연시간이 사라졌다. 데이터 프라이버시도 완벽해졌다. 비용은 월 29달러에서 0달러로 줄었다.

가장 큰 변화는 마인드셋이었다. 더 이상 토큰 아끼려고 프롬프트 줄이지 않는다. 실험도 마음껏 한다. 내 작업에 맞게 파인튜닝도 할 수 있다.

그리고 깨달았다.

Make.com에서 노드 끌어다 놓고 시나리오 짜는 것보다, 그냥 Claude Code한테 "이거 해줘"라고 하는 게 100배 편하다는 걸. 복잡한 워크플로우? Python 스크립트 하나면 끝이다.

물론 한계도 있다. 복잡한 추론이나 창의적 글쓰기, 긴 문서 분석은 여전히 큰 모델이 낫다. 그런건 그냥 창열고 지피티나 클러드에게 따로 시키면 된다. AI agent에는 slm, 본 작업에는 llm.

그래서 어떻게 시작하나?

VRAM 4-8GB면 Phi-2나 SmolLM2를 쓰면 된다. 8-16GB면 Qwen 2.5 7B나 Phi-3가 좋다.

16GB 이상이면 뭐든 가능한데, 솔직히 7B로도 충분하다.

설치는 Ollama나 LM Studio 깔면 끝이다.

파인튜닝은 일단 써보고 부족한 부분만 학습시키면 된다.

네가 실제로 쓰는 프롬프트와 결과만 모아두면 된다.

결론: 적재적소

자동화를 생각하고 있다면?

n8n이나 Make.com 쓰면서 API 값 내고 있다면? 다시 생각해보자.

모든 작업에 Claude API를 쓰는 건 과소비다. 하지만 모든 걸 로컬로 하는 것도 답은 아니다. 복잡한 추론과 창의적 작업엔 여전히 큰 모델이 낫다. 하지만 반복적이고 정형화된 작업? 로컬 SLM으로 충분하다. 그리고 그게 우리 작업의 대부분이다.

Claude Sonnet이 싸다 싸다 하지만, 로컬 SLM보다는 비싸다. 로컬은 공짜다. 전기세는 게임하는 것보다 적게 든다.

대파 사러 갈 땐 장바구니면 충분하다.

너도 할 수 있다.

어떻게 하냐고?

자 Claude code 다운부터 받아볼까?

https://contents.premium.naver.com/lazygenius/thelazygenius/contents/250825002907564ka

클러드 코드에 대한 많은 것들

https://contents.premium.naver.com/lazygenius/thelazygenius/contents?categoryId=198deaae167000uwa

?src=%22https%3A%2F%2Fscs-phinf.pstatic.net%2FMjAyNTA1MjZfMjU2%2FMDAxNzQ4MjY1NDE2MDky.1Cb4GTA2xbHUiscQEYYHWJB2_N7IQrh0P5XsqiwTlTUg.Yosw0cjpdYGvBOVRrWNB4FOI68sjrdlaZ_gUFkuhyMIg.PNG%2Fimage%257Cpremium%257Cchannel%257Clazygenius%257C2025%257C05%257C26%257C1748265416052.png%3Ftype%3Dnfs200_200%22&type=ff120

keyword

the게으름

의지력을 갈아넣는 대신, 구조를 다시 짭니다.AI는 일하게 하고, 나는 판단만 하는 사람입니다.게으름을 합리화하지 않습니다. 구조화합니다.

팔로워 36