챗GPT API 비용 0원으로 만드는 법(ft.올라마)

올라마(Ollama)로 10분 만에 내 PC 로컬 LLM 설치하기

Dec 31. 2025

"ChatGPT API로 챗봇을 만들었는데, 한 달 만에 청구서가 50만원?"

토큰 단가가 저렴해 보여도 호출이 쌓이면 이야기가 달라집니다. 챗봇, 문서 요약기, 코드 생성기처럼 한 번의 질의에서 수천 개의 토큰이 소비되는 서비스를 반복적으로 호출하면 큰 비용 부담이 발생할 수 있습니다.

그런데 만약 같은 기능을 하는 AI 에이전트를 API 비용 0원으로 운영할 수 있다면 어떨까요? 이 글에서는 상용 LLM과 로컬 LLM의 차이점을 비용 관점에서 비교하고, 실제로 내 PC에 무료 AI를 설치하는 방법까지 안내합니다. RTX 3060 이상 그래픽카드만 있으면, 월 $20 없이도 GPT급 AI를 돌릴 수 있습니다.

1. 상용 LLM의 비용 구조

현재 가장 유명한 LLM 서비스는 OpenAI의 챗GPT(ChatGPT), 구글의 제미나이(Gemini), 앤트로픽(Anthropic)의 클로드(Claude)입니다. 이들은 LLM과 대화할 수 있는 웹사이트뿐 아니라 코딩, 검색 등 다양한 부가 기능도 함께 제공합니다.

상용 LLM의 장점

상용 LLM은 대부분 고성능의 최신 GPU 인프라에서 운영되기 때문에 일반적으로 빠른 응답 속도와 높은 정확도, 그리고 대규모 연산 처리 능력을 안정적으로 제공합니다. 사용자들이 별도의 사전준비 작업 없이 LLM 기능을 활용할 수 있도록 해주며, 이미지, 음성 등 멀티모달 입력이나 인터넷 검색, 파일 분석 등 부가 기능을 통합해서 제공합니다.

비용 문제: 토큰 기반 과금

하지만 이러한 접근 방식에는 비용 문제가 뒤따릅니다. 상용 LLM 서비스들은 무료 요금제를 일시적으로 제공하기도 하지만 대부분 월 혹은 연 단위 구독 요금제를 기본으로 합니다. 그럼에도 사용량이나 성능의 제한이 있는 경우가 많습니다.

특히 개발자가 상용 LLM의 API를 연동해서 지속적으로 작동하는 서비스를 제공할 경우 사용량에 따라 요금도 기하급수적으로 증가하는 문제가 발생합니다. 입력 토큰과 출력 토큰에 각각 다른 단가가 적용되며, 호출 횟수가 늘어날수록 비용은 눈덩이처럼 불어납니다.

보안 및 네트워크 제약

항상 인터넷 연결이 필요하다는 점도 또 하나의 주된 제약 요인입니다. 상용 LLM은 외부 네트워크를 통해 제공되기 때문에 금융, 헬스케어, 국방 등과 같이 보안이 중요한 산업이나 인터넷 연결이 차단된 내부망 환경에서는 사용할 수 없을 때가 많습니다. 또한 민감한 데이터나 개인 정보가 외부 서비스에 전송되는 과정에서 발생할 수 있는 데이터 프라이버시 문제는 상용 LLM 사용을 꺼리게 하는 주요 요인 중 하나입니다.

2. 로컬 LLM이란?

로컬 LLM(Local LLM) 방식은 내 컴퓨터에 오픈소스 LLM을 직접 설치해서 이용하는 방법입니다. 최근 라마(Llama), 딥시크(DeepSeek), 제마(Gemma), Qwen 같은 고성능 LLM을 쉽게 다운로드할 수 있게 되면서 점점 더 현실적인 대안이 되고 있습니다.

대표적인 오픈소스 LLM 모델

라마(LLaMA): 메타(Meta)에서 만든 오픈소스 LLM의 대표 주자. 7B, 13B, 70B 등 다양한 크기로 제공

딥시크(DeepSeek): 중국에서 개발된 고성능 LLM으로 한국어 처리에서도 우수한 성능

제마(Gemma): 구글에서 공개한 경량화된 오픈소스 모델

Qwen: 알리바바에서 개발한 다국어 지원 모델로 한국어 문맥에 맞는 자연스러운 답변 제공

로컬 LLM의 핵심 장점

로컬 LLM의 최대 장점은 상용 LLM과 달리 사용량에 따라 증가하는 비용 부담이 없다는 점입니다. 물론 로컬 LLM 구동을 위한 하드웨어 초기 투자 비용이 발생하지만 이후로 발생하는 비용은 상용 LLM 방식에 비해 미미합니다.

또한 데이터가 외부로 유출되지 않으므로 보안성이 높다는 점도 장점입니다. 따라서 외부 네트워크를 사용하기 힘든 환경이나 외부 서버로의 정보 공유가 제한적인 서비스에 알맞습니다. 민감 데이터나 개인 정보가 유출되지 않아 프라이버시 이슈도 없습니다.

3. 비용 비교 시뮬레이션

실제로 비용 차이가 얼마나 나는지 시뮬레이션해 보겠습니다.

시나리오: 월 100만 토큰 사용

중소규모 챗봇 서비스나 내부 문서 요약 시스템을 운영한다고 가정했을 때, 월 100만 토큰 정도의 사용량은 흔히 발생합니다.

[핵심 포인트] 반복적인 API 호출 비용이 발생하지 않는다는 것이 로컬 LLM의 가장 큰 장점입니다. 일단 시스템을 갖추고 나면 사용량에 따른 과금 없이 모델을 자유롭게 실행할 수 있어 장기적으로 경제적인 선택이 될 수 있습니다.

4. 언제 상용 LLM, 언제 로컬 LLM?

상용 LLM과 로컬 LLM 중 어떤 것을 선택해야 할지 판단하기 위한 명확한 기준을 제시합니다.

상용 LLM을 선택해야 하는 경우

최고 수준의 성능과 정확도가 필요한 경우

빠른 프로토타이핑과 개발 속도가 중요한 경우

멀티모달(이미지, 음성 등) 기능이 필요한 경우

하드웨어 투자 여력이 없거나 운영 부담을 최소화하고 싶은 경우

로컬 LLM을 선택해야 하는 경우

반복 호출이 많아 API 비용이 부담되는 경우

데이터 보안과 프라이버시가 중요한 경우

인터넷 연결이 제한된 내부망 환경에서 사용해야 하는 경우

모델 커스터마이징(파인튜닝)이 필요한 경우

장기적인 비용 절감을 목표로 하는 경우

5. 로컬 LLM 시작하기: 올라마(Ollama)

로컬 LLM을 사용하려면 복잡한 설정이 필요할 것 같다고요? 올라마(Ollama)를 사용하면 명령어 몇 개로 바로 실행할 수 있습니다.

올라마란?

올라마(Ollama)는 오픈소스 LLM(대규모 언어 모델)을 로컬 환경에서 빠르게 실행할 수 있는 강력한 도구입니다. 쉽게 말해, 내 컴퓨터에서 ChatGPT 같은 AI를 돌릴 수 있게 해주는 프로그램이죠.

Docker를 써본 적 있으신가요? 올라마는 "로컬 LLM의 Docker"라고 생각하면 됩니다. 명령어 한 줄로 원하는 LLM을 내려받고 실행할 수 있어서 초보자부터 전문가까지 폭넓게 활용할 수 있습니다. 올라마는 활발한 커뮤니티를 기반으로 최신 모델과 새로운 기능이 빠르게 추가되고 있어 로컬 LLM 도구 중 가장 인기 있는 도구 중 하나로 자리매김했습니다.

[핵심 팁]
ollama pull → ollama run 두 줄이면 내 PC에서 AI가 돌아갑니다.

올라마의 핵심 특징

설치와 사용의 단순함: 공식 홈페이지에서 운영체제별로 사용할 수 있는 설치 파일을 제공하며, 간단한 설치 작업 후 바로 사용 가능

자동 최적화: 시스템의 하드웨어 사양을 자동으로 감지해 메모리 분할, GPU 오프로딩 등을 사용자 컴퓨터에 맞게 최적화

HTTP API 서버 기능: 자체적으로 HTTP API 서버를 열 수 있어 개인용 LLM 실행기뿐 아니라 소규모 AI 서버로도 활용 가능

6. 1분 설치 (윈도우/맥)

권장 사양 확인하기

올라마의 최소 사양은 다음과 같습니다. 대부분의 컴퓨터에서 실습을 진행할 수 있습니다.

[윈도우 컴퓨터]

운영체제: 윈도우 10 이상

CPU: Intel i5 / Ryzen 5 이상의 쿼드코어

RAM: 최소 8GB 이상, 16GB 이상 권장

스토리지: SSD(여유 공간 100GB 이상)

[Mac 컴퓨터]

운영체제: macOS 13 이상

RAM: 최소 8GB 이상, 16GB 이상 권장

스토리지: SSD(여유 공간 100GB 이상)

설치 방법

설치 방법은 매우 간단합니다. 아래 순서대로 따라해 보세요.

올라마 공식 홈페이지(https://ollama.com/)에 접속해 다운로드 버튼을 클릭합니다.

자신의 운영체제에 맞는 설치 파일을 다운로드합니다.

설치 파일을 실행한 후 안내에 따라 올라마를 설치합니다.

설치가 완료되면 윈도우에서는 명령 프롬프트를, macOS에서는 터미널 프로그램을 실행합니다.

설치 확인하기

설치가 정상적으로 완료됐는지 확인해봅시다. 터미널(명령 프롬프트)에서 다음 명령어를 입력합니다.

ollama --version

버전 정보가 출력되면 설치가 완료된 것입니다. 예를 들어 "ollama version is 0.7.0"과 같이 출력됩니다.

7. 첫 모델 다운로드: Qwen3 8B

올라마는 LLM을 실행 및 관리하는 프로그램일 뿐, LLM 자체를 포함하고 있지는 않습니다. 따라서 LLM 모델 파일은 별도로 내려받아야 합니다.

왜 Qwen3 8B인가요?

이 글에서는 Qwen3 8B 모델을 추천합니다. 그 이유는 다음과 같습니다.

한국어 지원: Qwen 시리즈는 다국어 성능이 뛰어나며, 한국어 대응력도 좋습니다.

적절한 크기: 8B(80억 파라미터)는 일반 노트북에서도 돌릴 수 있는 크기입니다.

균형 잡힌 성능: 코드와 일반 자연어 처리 모두에서 강력한 성능을 보입니다.

알리바바가 공개한 Qwen 시리즈는 특히 중국어 기반의 LLM 중 가장 우수한 모델로 꼽히지만, 최근 영어와 다국어 성능도 개선되어 다국어 기반 서비스를 제작할 때도 유용합니다.

모델 다운로드하기

터미널에서 다음 명령어를 입력합니다.

ollama pull qwen3:8b

다운로드가 진행되며, 완료까지 네트워크 환경에 따라 몇 분이 소요될 수 있습니다. 모델 크기는 약 5.2GB입니다.

[Tip]
모델 이름만 지정하는 경우(예: ollama pull llama3.2) 해당 모델의 여러 버전 중 기본 파라미터 구성(보통 가장 가벼운 모델)을 다운로드합니다. 특정 버전을 원하면 ollama pull qwen3:8b처럼 세부 버전명을 포함해서 명령을 실행하세요.

8. 첫 대화 나눠보기

이제 드디어 AI와 대화할 차례입니다! 다음 명령어를 입력해 대화를 시작합니다.

ollama run qwen3:8b

사용자의 입력을 기다리는 ">>>" 프롬프트가 표시되면 LLM에게 말을 걸어보세요.

실제 대화 예시

한국어로 인사해 봅시다.

>>> 안녕하세요? 안녕하세요! � 어떤 도움이 필요하신가요? 언제든지 물어보세요!

Qwen3 모델은 먼저 <think> 태그 안에서 생각하는 과정을 보여준 다음, 친절한 답변을 제공합니다.

[팁]
ollama run 명령을 사용하면 모델을 다운로드하고 실행하는 과정을 한 번에 수행할 수도 있습니다. 즉, 모델이 없으면 자동으로 다운로드한 후 실행됩니다.

다운로드한 모델 확인하기

설치된 LLM 모델 목록을 확인하고 싶을 때는 다음 명령어를 사용합니다.

ollama list

현재 컴퓨터에 설치된 모든 LLM 모델의 이름과 용량, 마지막 사용 시각 등의 정보가 표시됩니다.

9. 더 예쁜 UI로 쓰고 싶다면?

터미널에서 AI와 대화하는 것도 좋지만, ChatGPT처럼 익숙하고 직관적인 형태의 GUI 프로그램을 사용하면 훨씬 더 효율적입니다.

Open WebUI 소개

Open WebUI는 웹 브라우저를 통해 접근할 수 있는 대화형 인터페이스를 제공합니다. 마치 ChatGPT 같은 상용 채팅 서비스를 사용하는 듯한 경험을 선사합니다. 주요 기능은 다음과 같습니다.

다중 모델 전환

대화 기록 저장

사용자 인터페이스 커스터마이징

파일 업로드 및 이미지 처리

빠른 설치 (uv 사용)

uv가 설치되어 있다면, 다음 명령어 하나로 Open WebUI를 설치하고 실행할 수 있습니다.

[윈도우]

env:DATA_DIR="C:\open-webui\data"; uvx --python 3.11 open-webui@latest serve

[macOS]

DATA_DIR=~/.open-webui uvx --python 3.11 open-webui@latest serve

설치가 완료되면 브라우저에서 http://localhost:8080/ 으로 접속하여 사용할 수 있습니다.

[더 알아보기]
Open WebUI의 상세한 설치 방법과 활용법은《올라마와 오픈소스 LLM을 활용한 AI 에이전트 개발 입문》책 2.4절에서 자세히 다룹니다.

마무리

"상용 LLM은 '편의성'을 사고, 로컬 LLM은 '자유도'를 얻는다.
반복 호출이 많고 데이터 보안이 중요하다면, 로컬 LLM이 정답이다."

축하합니다! 이제 내 PC에서 AI 챗봇을 돌릴 수 있게 되었습니다. 많은 독자들이 '왜 상용 LLM 대신 오픈소스 LLM을 써야 할까?'라는 의문을 가질 수 있습니다. 목적에 따라 정답은 다르지만 오픈소스 모델에는 자율성과 유연성이라는 무시할 수 없는 강점이 있습니다.

[오늘 배운 핵심 명령어]

ollama --version : 설치 확인

ollama pull qwen3:8b : 모델 다운로드

ollama run qwen3:8b : AI와 대화 시작

ollama list : 설치된 모델 목록 확인

https://wikibook.co.kr/ollama/

올라마와 오픈소스 LLM을 활용한 AI 에이전트 개발 입문: 로컬 LLM을 활용한 보안과 비용 걱정 없는

급작스럽게 다가온 AI 시대를 헤쳐나가기 위한 실용적인 가이드! 이 책은 AI 전공자가 아닌 일반 개발자들이 AI 프로그래밍에 입문할 수 있도록 세심하게 구성했습니다. 단순히 랭체인과 에이전

https://wikibook.co.kr/ollama/

이 글은《올라마와 오픈소스 LLM을 활용한 AI 에이전트 개발 입문》도서를 참고하여 제작되었습니다.

올라마를 이용해 보안과 비용 문제에서 자유로운 오픈소스 LLM의 활용법이 궁금한 분들께 추천드립니다.

keyword

작가의 이전글UX 디자이너를 위한 AI 답변 검증 5단계[신간 안내] 클린 아키텍처 핵심 가이드작가의 다음글