2025년 현재, AI 애플리케이션이나 에이전트를 개발하려면 어떤 AI 모델(LLM)을 선택해야 할지 고민이 많으실 텐데요. 이 글에서는 다양한 AI 모델의 종류, 오픈소스 vs 상용 비교, 선택 시 고려할 요소 등을 알아보고자 합니다.
일단 개념부터 차근차근 알아봅시다.
▼ Base Model(기본 모델):
방대한 텍스트 데이터를 학습한 모델의 원형으로, 일반 지식을 많이 가지고 있습니다. 다만 범용적으로 만들어진 모델이다 보니, 본인 또는 업무적으로 쓰기 위해서는 추가 지도가 필요합니다.
(예를 들어 GPT-3, LLaMA 3 (pretrained) 등이 여기에 해당합니다.)
▼ Fine-tuned Model(미세 조정 모델):
기본 모델을 특정 분야나 작업에 적합하도록 추가 학습한 모델입니다. 예를 들어 법률 문서나 의료 데이터로 추가 학습하면 해당 분야 질문에 더 정확히 대답할 수 있게 됩니다. 기본 모델을 로드하여 관련 데이터셋으로 훈련시키면 됩니다.
▼ Instruction-tuned Model(지시어 튜닝 모델):
기본 모델 또는 파인튜닝된 모델에 사람의 지시(prompt)에 따라 응답하도록 추가로 학습시킨 것입니다.
즉, “이 문서를 요약해 주세요” 같은 명령을 더 잘 이해하고 수행할 수 있도록 훈련합니다. 이로써 복잡한 명령이나 요약, 다단계 요청 등에도 일관된 답변을 내게 됩니다.
▼ Multimodal Model(다중모달 모델):
텍스트 외에도 이미지(혹은 오디오, 비디오)를 입력으로 처리할 수 있는 모델입니다.
예를 들어 OpenAI GPT-4 Vision, 구글 Gemini 등은 이미지와 텍스트를 함께 이해할 수 있습니다.
다중모달 모델은 이미지 인코더와 언어모델을 결합한 구조로, 이미지→[비전 인코더]→특징 벡터→[언어 모델]→텍스트 순으로 정보를 처리합니다.
(예: 사진을 보고 설명을 생성하거나, 이미지를 참조해 코드를 작성하는 애플리케이션)
AI 모델은 오픈소스(소스 공개/자체 호스팅)와 상용(클라우드 API)으로 나뉩니다.
각 유형의 장단점을 아래 표에 정리했습니다
OpenAI 같은 상용 API는 평균 응답속도가 1~3초로 빠른 반면, 오픈소스 모델은 GPU 여부 등에 따라 응답속도가 달라집니다. 또한 OpenAI는 입력/출력 토큰 사용량 기준으로 요금이 부과되므로, 작은 메시지 하나당 약 $0.002~0.06 정도의 비용이 발생할 수 있습니다. 반면 오픈소스 모델은 초기 GPU 인스턴스 비용이 들지만, 요청량이 많아지면 장기적으로 유리합니다.
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠