brunch

라이킷 18 댓글 공유 작가의 글을 SNS에 공유해보세요

You can make anything
by writing

C.S.Lewis

소규모 프라이빗 LLM 구현

by 송 재희 Jan 29. 2025

최근 워싱턴 주에서 소매점을 운영하는 한 회사와 상담을 진행했다. 그들은 내부적으로 AI 서비스를 도입하고 싶어 했지만, 예산이 제한적이고 직원 수도 적은 상황이었다. 회사 내에는 인공지능 엔지니어는 물론 개발자조차 없는 상태였다. 이 프로젝트는 기술적 전문성이 다소 부족한 한 명의 비즈니스 분석가에게 맡겨져야 하는 상황이었다.


그들의 상황에서 가장 저렴하고 쉬운 방법은 일반적으로 OpenAI, Claude, Google Gemini와 같은 기존 LLM 서비스를 사용하는 것이다. 하지만 그들은 데이터 프라이버시를 우려해 외부 서비스로 데이터를 전송하는 것을 원하지 않았기 때문에, 이 옵션은 적합하지 않았다.


대안으로, 데이터 프라이버시를 유지하고 AI 서비스에 대한 더 큰 통제권을 갖기 위해 프라이빗 LLM을 구현하는 방법이 있었다. 나는 그들에게 고려할 두 가지 상세한 옵션을 제시했다. 프라이빗 LLM을 구현하는 방법은 다양하며, 매우 작은 양자화된 LLM 모델을 Ollama나 Open Web UI와 같은 도구를 이용해 간단하게 구현할 수도 있다. 그러나 회사가 필요한 AI 서비스를 구현하기 위해서는 더 많은 시간, 돈, 노력 등을 투자해야 하는 경우가 많다.


두 가지 옵션은 다음과 같다:

1. 로컬 배포: 8B 또는 13B 파라미터 LLM을 추론 전용으로 로컬에 배포

2. 프라이빗 클라우드 배포: SLLM을 추론 전용으로 프라이빗 클라우드에 배포


옵션 1: 추론 전용 로컬 배포

8~13B 파라미터 규모의 LLM(Large Language Model)을 로컬 환경에 배포하는 것은 외부 클라우드 서비스에 대한 의존성을 줄이고, 데이터 프라이버시와 보안을 강화할 수 있는 중요한 전략이다. 특히, 민감한 데이터를 다루는 기업이나 조직의 경우, 데이터가 외부로 유출되지 않고 내부에서 처리된다는 점은 큰 장점으로 작용한다. 또한, 모델 양자화(Quantization)와 최적화 기술을 활용하면, 고가의 AI 전용 서버가 아닌 일반적인 하드웨어에서도 효율적으로 모델 추론을 실행할 수 있다. 이는 초기 투자 비용을 크게 절감할 수 있게 해주며, 특히 소규모 조직이나 스타트업에게 유리한 조건을 제공한다.


가격 측면에서도, 로컬 배포는 초기 비용이 몇 천 달러부터 시작할 수 있어 비교적 저렴한 비용으로 테스트를 진행한 후, 필요에 따라 하드웨어나 인프라를 점진적으로 업그레이드할 수 있는 유연성을 제공한다. 이는 초기 투자 리스크를 줄이면서도, 점진적으로 AI 역량을 확장할 수 있는 장점이 있다.


하지만, 로컬 배포에는 몇 가지 중요한 도전 과제도 존재한다. 먼저, 하드웨어와 네트워크 인프라를 직접 구축하고 관리해야 하며, 보안 설정과 소프트웨어 업데이트 등 운영상의 부담이 크다. 특히, AI 모델의 성능을 최적화하고 안정적으로 운영하기 위해서는 전문적인 지식과 경험이 필요하다. 이는 조직 내에 AI 인프라를 관리할 수 있는 전문 인력이 부족할 경우, 추가적인 비용과 시간이 소요될 수 있다는 점을 의미한다.


또한, 로컬 환경에서의 모델 업데이트와 확장은 클라우드 환경에 비해 상대적으로 제한적일 수 있다. 클라우드 서비스는 자동으로 최신 모델로 업데이트되거나, 필요에 따라 리소스를 유연하게 확장할 수 있는 반면, 로컬 배포에서는 이러한 작업을 수동으로 처리해야 하기 때문이다. 이는 운영의 복잡성을 증가시키고, 장기적으로 유지보수 비용을 높일 수 있다.


결론적으로, 로컬에 LLM을 배포하는 것은 데이터 프라이버시와 비용 측면에서 큰 장점이 있지만, 이를 위해서는 하드웨어, 네트워크, 보안, 소프트웨어 관리 등 AI 인프라 전반에 대한 전문적인 운영 능력이 필요하다. 조직의 규모와 목적에 따라 클라우드 서비스와 로컬 배포를 적절히 조합하는 하이브리드 전략을 고려하는 것도 하나의 해결책이 될 수 있다.


GPU 옵션

브런치 글 이미지 1

추가 설명  

LLM 추론 용량: GPU의 VRAM 크기가 클수록 더 큰 모델을 로드할 수 있다. 예를 들어, RTX 3060은 약 6B 파라미터 모델을 처리할 수 있지만, RTX 3090은 40B 파라미터 모델까지 처리할 수 있다.

모델 양자화(Quantization) 기술을 사용하면 VRAM 사용량을 줄여 더 큰 모델을 실행할 수 있다.

동시 추론 가능 사용자 수: 이는 모델 크기, 입력 텍스트 길이, 출력 텍스트 길이, 하드웨어 성능 등에 따라 달라진다.

RTX 3060과 같은 중간 사양 GPU는 12명의 사용자가 동시에 텍스트 생성을 요청하는 경우에 적합하다. RTX 3090과 같은 고사양 GPU는 510명의 사용자가 동시에 사용할 수 있다.

가격 대비 성능: RTX 3060은 예산에 맞는 선택으로, 소규모 LLM 추론에 적합하다. RTX 3090은 고성능을 요구하는 대규모 LLM 추론에 적합하지만, 가격이 높다.

  

SLLM 모델

브런치 글 이미지 2

이들은 일반 모델의 몇 가지 예시일 뿐이다. 특정 사용 사례에 맞는 오픈소스 LLM을 선택할 때는 모델 크기, 컨텍스트 길이, 학습 데이터, 라이선스 조건, 관련 벤치마크에서의 성능 등을 고려하는 것이 중요하다.


DeepSeek R1은 2023년에 설립된 중국 AI 스타트업 DeepSeek이 개발한 최신 AI 언어 모델이다. 이 모델은 OpenAI의 o1 모델과 유사한 성능을 제공하면서도 훨씬 적은 비용으로 개발 및 운영이 가능하다는 점에서 주목받고 있다.

주요 특징:  

효율적인 학습:
DeepSeek R1은 약 2,000개의 Nvidia H800 칩을 사용하여 약 560만 달러의 비용으로 학습되었다. 이는 유사한 성능의 다른 모델들에 비해 20~40배 저렴한 운영 비용을 자랑한다.

고급 추론 능력:
이 모델은 수학, 코딩, 논리적 추론 작업에서 뛰어난 성능을 보이며, "체인 오브 소트(chain-of-thought)" 방식을 통해 추론 과정을 시각적으로 보여줄 수 있다.

오픈소스 접근:
DeepSeek R1은 모델 가중치를 공개하여 누구나 접근하고 커스터마이징할 수 있도록 하였으며, 이는 OpenAI의 모델과는 대조적인 접근 방식이다.


특별한 점 및 주목할 이유:

DeepSeek R1의 가장 큰 특징은 고성능을 유지하면서도 개발 및 운영 비용을 크게 절감했다는 점이다. 이러한 효율성은 AI 모델 개발에 있어 새로운 가능성을 제시하며, 특히 제한된 자원을 가진 연구기관이나 기업들에게 큰 이점을 제공한다. 또한, 모델의 투명성과 접근성을 강조하여 AI 기술의 민주화를 촉진하고 있다.


그러나, DeepSeek R1은 중국의 정치적 민감한 주제에 대해서는 언급을 피하는 경향이 있어, 이러한 부분에 대한 이해와 고려가 필요하다.


종합하면, DeepSeek R1은 효율적인 자원 활용과 고급 추론 능력을 통해 AI 모델 개발의 새로운 방향을 제시하며, AI 기술의 발전과 접근성 향상에 기여하고 있다.


MiniCPM-o-2.6은 OpenBMB에서 개발한 다중 모달 AI 모델로, 텍스트와 이미지 데이터를 동시에 처리할 수 있는 능력을 갖추고 있다. 이 모델은 26억 개의 매개변수로 구성되어 있으며, 다양한 작업에서 효율적인 성능을 보인다.

주요 특징:  

    다중 모달 처리 능력: MiniCPM-o-2.6은 텍스트와 이미지를 동시에 처리할 수 있어, 이미지 캡셔닝, 시각적 질문 응답 등 다양한 작업에 적용될 수 있다.  

    효율적인 토큰화: 이 모델은 이미지 입력을 75% 적은 수의 토큰으로 변환하여, 동일한 크기의 이미지를 처리할 때 다른 모델보다 더 효율적이다.  

    오픈소스 접근: 모델의 코드와 가중치가 공개되어 있어, 연구자와 개발자들이 자유롭게 활용하고 커스터마이징할 수 있다.  

MiniCPM-o-2.6은 다중 모달 AI 모델의 발전에 기여하며, 다양한 응용 분야에서 활용될 수 있는 잠재력을 지니고 있다.


장점

- 데이터 프라이버시: 데이터를 완전히 통제할 수 있으며, 데이터가 외부로 유출되지 않는다.

- 일회성 투자: 초기 설정 후 장기적으로 비용이 낮다.

- 인터넷 의존성 없음: 시스템이 오프라인에서도 작동할 수 있다.


단점

- 확장성 제한: 하드웨어가 동시 사용을 제한한다.

- 초기 비용:서비스 구축에 대한 Infrastructure 구성에 대한 초기 투자가 필요하다.

- 유지보수 책임: 하드웨어, 소프트웨어, 보안등 인프라에 대한  유지보수를 내부에서 해야 한다.


옵션 2: 추론 전용 프라이빗 클라우드 배포

개요

LLM 추론 서비스를 프라이빗 클라우드 인스턴스에 배포하면 하드웨어 투자가 필요 없고 확장 가능한 리소스 할당이 가능하다. 하지만 데이터 프라이버시를 신중히 관리해 규정 준수를 보장해야 한다.


클라우드 서비스 제공자

AI 인프라를 직접 구축해야 하며, 이는 GPU가 지원되는 컴퓨터 인스턴스를 준비하고 필요한 소프트웨어를 설치하는 작업을 포함한다. 클라우드 엔지니어나  클라우드 인프라 구축 경험이 있는 사람이 있다면 이 옵션이 유리할 수 있다.

- Amazon Web Services (AWS)

- Microsoft Azure

- Google Cloud Platform (GCP)

- DigitalOcean


인프라 설정

GPU 지원 가상 머신

   - AWS EC2 인스턴스:

     - g4dn.xlarge: NVIDIA T4 GPU (16GB VRAM)

     - g5.xlarge: NVIDIA A10G GPU (24GB VRAM)

   - Azure VM:

     - Standard_NC6: NVIDIA K80 GPU (12GB VRAM)

     - Standard_NC6s_v3: NVIDIA V100 GPU (16GB VRAM)

   - GCP 인스턴스:

     - n1-standard-8 with T4 GPU

모델 배포

- 컨테이너화

   - Docker: 애플리케이션을 일관성 있게 패키징

- API 프레임워크

   - FastAPI 또는 Flask: RESTful API 구축


클라우드에 AI 인프라 구성 및 배포 장점  

    완전한 통제권          모델과 인프라를 완전히 제어할 수 있어, 원하는 대로 커스터마이징이 가능하다.      특정 도메인에 최적화된 모델 학습과 튜닝이 가능하다.      

    데이터 보안          모든 데이터가 내부에서 처리되므로 민감한 데이터를 외부로 전송할 필요가 없다.      보안 규정 준수에 유리하다.      

    장기적인 비용 절감          초기 투자 비용은 크지만, 대규모 또는 지속적인 사용이 필요한 경우 운영 비용이 추론 엔드포인트보다 낮아질 수 있다.      

    모델 선택과 유연성          최신 모델을 직접 적용하거나, 오픈소스 모델을 기반으로 커스터마이징할 수 있다.      모델 양자화나 하드웨어 최적화를 통해 성능을 극대화할 수 있다.      

클라우드에 AI 인프라 구성 및 배포 단점  

    초기 비용 및 기술적 허들          클라우드 인프라를 구성하고 관리할 인력이 필요하며, 초기 투자 비용이 크다.      설정, 배포, 최적화 작업에 시간이 많이 소요된다.      

    유지보수          하드웨어 장애, 소프트웨어 업데이트, 보안 관리 등을 직접 처리해야 한다.      지속적인 모니터링과 관리가 필요하다.      

    확장성의 한계          초기 설정한 인프라가 과부하에 직면하면 추가적인 확장이 필요하며, 이는 시간과 비용이 든다.      

    학습 및 운영 부담          모델 학습, 튜닝, 추론 최적화를 직접 수행해야 하며, 이는 고급 기술이 요구된다.      


추론 엔드포인트

추론 엔드포인트는 사전 학습된 AI 모델을 클라우드에서 API 형태로 제공하는 서비스다. 사용자는 이 엔드포인트를 통해 텍스트, 이미지 등 데이터를 모델에 전달하고, 모델이 제공하는 예측 결과를 받아올 수 있다. 이를 통해 복잡한 AI 모델을 직접 학습하거나 인프라를 구축하지 않고도 쉽게 AI 서비스를 이용할 수 있다.

Hugging Face: 다양한 사전 학습된 모델을 API로 제공하며, 텍스트 생성, 번역 등 여러 작업을 지원한다.  

    Together AI: 200개 이상의 오픈소스 LLM을 저지연 환경에서 실행할 수 있도록 지원하며, 자동 최적화를 통해 비용 효율성을 높인다.  

    Fireworks AI: 텍스트, 이미지, 오디오 처리를 위한 최적화된 추론 엔진을 제공하며, 빠른 속도, 확장성, 데이터 프라이버시 준수를 강조한다.  

    Replicate: 오픈소스 모델을 클라우드에서 실행할 수 있도록 API를 제공하며, 쉽게 통합하고 확장할 수 있다.  

    OpenRouter: 다양한 LLM을 통합 API를 통해 사용할 수 있도록 지원하며, 무료 사용 옵션도 제공해 실험 및 개발에 적합하다.  

    DeepInfra: 확장 가능하고 효율적인 LLM 추론 솔루션을 제공하며, 성능 최적화와 비용 절감에 중점을 둔다.  

    Anyscale: 고속, 보안, 안정성을 갖춘 엔터프라이즈급 LLM 추론 서비스를 제공하며, 최신 하드웨어 가속 기술을 활용해 최적의 성능을 보장한다.  


LLM 추론 서비스를 선택할 때는 모델 가용성, 성능, 확장성, 가격, 데이터 프라이버시 준수 여부 등을 고려해 프로젝트에 적합한 서비스를 찾는 것이 중요하다.


LLM 추론 엔드포인트 사용 장점  

    빠른 시작          엔드포인트를 통해 즉시 AI 모델을 사용할 수 있어, 초기 설정 시간이 크게 줄어든다.      별도의 서버 관리 없이 API 호출만으로 서비스를 개발할 수 있다.      

    유지보수 부담 감소          서버 관리, 하드웨어 업그레이드, 소프트웨어 업데이트 등의 작업이 필요 없다.      모델 최적화나 버전 업데이트를 제공업체가 처리한다.      

    비용 효율성          초기 투자 없이 사용한 만큼만 비용을 지불(pay-as-you-go)한다.      소규모 프로젝트나 테스트 단계에서 적합하다.      

    확장성          사용량에 따라 자동으로 리소스를 조정할 수 있어, 갑작스러운 트래픽 증가에도 대응하기 쉽다.      

LLM 추론 엔드포인트 사용 단점  

    종속성          특정 서비스 제공업체에 의존하게 되어, 제공업체의 정책 변경이나 서비스 중단에 영향을 받을 수 있다.      

    데이터 프라이버시          데이터를 외부 서버로 전송해야 하기 때문에, 민감한 데이터를 처리할 경우 보안 문제가 발생할 수 있다.      

    비용 증가 가능성          대규모 트래픽이나 지속적인 사용이 필요한 경우, 비용이 급격히 증가할 수 있다.      

    제한된 커스터마이징          제공되는 모델과 설정만 사용할 수 있으며, 특정 요구사항에 맞춰 모델을 변경하거나 커스터마이징하기 어렵다.      



결론

가장 비용 효율적인 방법으로 시작하는 것을 추천한다. AI 서비스를 저렴하게 구현할 수 있지만, 제대로 실행하지 않으면 결과가 만족스럽지 않을 수 있다. 사용자가 이를 피하거나 잘못된 결과를 내놓아 비즈니스 신뢰도를 잃을 수도 있다. 프라이빗 LLM을 구현하기로 결정했다면 충분한 예산을 할당하고 전문가와 상담하는 것이 중요하다. 올바르게 실행하면 AI 서비스가 유용하고 신뢰할 수 있게 될 것이다.

매거진의 이전글 Enterprise LLM 사용자 인터페이스

브런치 로그인

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari