brunch

오픈소스 추론형 모델의 새로운 가능성 : GPT-OSS

대규모 데이터 센터 없이

by 알바트로스

2025년의 AI 발전 트렌드의 커다란 축은 '가성비 좋은 추론형(reasoning) LLM''에이전틱 AI(Agentic AI)'로 요약할 수 있을 것 같습니다. 인간의 개입을 최소화하고 쿼리 분석부터 필요한 태스크 실행까지 알아서 해주는, 개념도 상에만 존재하던 에이전틱 AI가 실제로 구현되기 시작하면서, 이에 맞추어 AI 에이전트의 핵심 두뇌 역할을 하는 성능 좋은 SoTA 모델들이 쏟아져 나오고 있는 것입니다.


1*fu9Lu8D8DLnVFPAWg7N0jQ.png 출처 : https://cobusgreyling.medium.com/


2025년대 초 출시된 가성비 추론형 모델 DeepSeek-R1에 이어 8월에는 오픈소스 GPT-OSS 모델이 출시되었고, 얼마 되지 않아 11월에는 오픈 AI가 최신모델 GPT-5.1을 출시한 것에 이어 구글에서도 역대급 성능을 자랑하는 Gemini-3을 발표했습니다. 이번 12월에는 엔트로픽에서 코딩에서 더욱 뛰어난 성능을 보여주는 Claude-4.5-opus를 발표하며 이처럼 메이저 LLM 회사들이 꾸준히 신모델을 발표하면서 초거대언어모델(LLM) 성능 상향 평준화가 이루어지고 있습니다.


여기서 주목해야 할 점은 이러한 가성비 좋은 LLM이 자사 API뿐만 아니라 오픈소스(Open Source)의 형태로도 공개되고 있는 점이라고 생각합니다. 특히 지난 8월 오픈 AI가 대중에 공개한 추론형 오픈소스 모델 GPT-OSS 시리즈는 여전히 GPT-OSS는 개발자들 사이에서 조용히 존재감을 과시하고 있습니다.



1. 오픈소스 추론형 LLM의 잠재력과 GPT-OSS


2025년 DeepSeek와 GPT-OSS 모델이 쏘아 올린 작은 공은 온프레미스 환경에서 H100 GPU 한두 장 만으로도 구동되는 추론형 LLM가 충분히 사용자가 요청한 태스크를 분석하고, 필요한 하위 에이전트와 도구를 호출(function calling) 할 수 있는 잠재력을 가지고 있음을 보여주었습니다. 지금 당장은 아니지만, 기존 메타의 LLama로 대표되는 sLM 모델만으로는 불가능했던 코딩, 수학, 과학 분야의 적용이 점차 개인용 디바이스에서 낮은 비용만으로도 가능해지고 있는 것입니다.


특히 GPT-OSS는 온프레미스 환경에서 GPT-4o 혹은 그 이상의 성능을 발휘할 수 있는 최초의 검증된 모델이라는 점에서 개발자들의 주목을 받고 있습니다. 더군다나, 오픈 AI가 2019년 GPT-2를 오픈 소스로 공개한 지 무려 6년 만의 오픈 소스 공개라는 점에서 큰 의의를 가지고 있습니다. GPT-2 이후로 철저히 모델 비공개 원칙을 고수해 왔던 오픈 AI가 드디어 자사 모델의 웨이트를 공개한 것입니다.


이 배경에는 궁극의 가성비를 추구하는 중국의 추론형 오픈소스 모델 딥시크(DeepSeek)와 같은 신규 경쟁자들의 압력이 작용했을 것으로 추측되고 있습니다. 더 이상 기존의 폐쇄적인 운영 정책만으로는 값싸고 가벼우면서도 성능 좋은 모델을 활용하고자 하는 사용자들의 요구사항을 충족시키기 어려워졌기 때문입니다.


하지만 6년 만의 오픈소스 GPT 모델이라는 점 외에도 GPT-OSS에는 장점이 참 많습니다. 이제 내 컴퓨터에서 GPU 한 장만으로도 GPT-4o 수준의 답변을 받아볼 수 있을 뿐만 아니라, 추론이 필요한 AI 에이전트 업무에도 적용이 가능합니다. 이번 시간에는 오픈소스 AI 모델들에게 새로운 방향성을 제시하고 있는 GPT-OSS에 대해 리뷰해 보는 시간을 가져보도록 하겠습니다.



2. GPT-OSS의 혁신 포인트


GPT-OSS가 공개되자마자 AI 업계가 즉각적으로 반응한 이유는 단순히 ‘오픈소스 LLM의 귀환’ 때문만이 아닙니다. 이번 GPT-OSS는 그동안의 어떤 오픈소스 모델과도 차원이 다른 성능, 구조적 혁신, 실용성을 동시에 갖춘 모델이기 때문입니다.


첫째, 성능 면에서 사실상 준 프런티어 모델급이라는 점이 가장 큰 주목 요인입니다. GPT-OSS-120B는 수학·과학·전문지식 영역에서 o3-mini를 넘어 o4-mini에 근접하는 성능을 보여주며, 20B 모델조차 SWE-Bench Verified, Codeforces, AIME 등에서 기존 70~100B급 오픈소스 모델 수준을 가볍게 뛰어넘고 있습니다. 특히 GPT-OSS는 대규모 CoT(Chain of Thought)를 길게 전개할 수 있어 복잡한 추론 문제에서도 높은 정확도를 보여주는 것이 특징입니다. 이는 단순히 “오픈소스라서 좋다”를 넘어 실제 엔터프라이즈 환경에서도 활용 가능한 고성능 추론형 모델이라는 점을 의미합니다.

image_(2).png 출처 : Open AI (GPT-OSS Model Card)

둘째, GPT-OSS 공개가 갖는 상징적 의미 역시 큽니다. 오픈 AI는 GPT-2 이후 6년간 모델 웨이트를 일절 공개하지 않으며 폐쇄형 전략을 유지해 왔습니다. 그러나 이번에는 Apache 2.0 라이선스 기반의 완전 공개라는 파격적 결정을 내렸습니다. 이는 딥시크(DeepSeek), Qwen 등 고성능 오픈소스 모델들의 부상으로 인해 오픈 AI 또한 더 이상 오픈소스 생태계를 무시할 수 없는 상황에 놓였음을 보여줍니다. 즉 GPT-OSS는 단순한 모델 릴리스가 아니라 AI 생태계 패러다임 전환의 신호탄입니다.


image_(3).png 출처 : wikipedia


셋째, GPT-OSS는 단순히 “성능 좋은 모델”을 넘어 AI 에이전트 개발 표준을 염두에 둔 아키텍처와 툴 사용 능력을 갖추고 있습니다. 모델 카드에 따르면 GPT-OSS는 Harmony Chat Format을 채택해 시스템/개발자/유저 메시지 계층을 명확히 구분하고, 추론 모드(low/medium/high)를 조절하며, 자체적으로 웹 브라우징과 Python 실행 등 강력한 Tool-Use 기능을 지원합니다. 이는 실제 엔터프라이즈 적용에서 중요한 에이전트 워크플로우를 자연스럽게 구현할 수 있도록 설계된 것입니다.


image_(4).png 출처 : From GPT-2 to gpt-oss: Analyzing the Architectural Advances


마지막으로, 뛰어난 가성비와 접근성입니다. GPT-OSS-120B는 Mixture-of-Experts와 MXFP4(4.25bit) 양자화를 적용해 80GB GPU 단일 장비에서 실행 가능하고, 20B 모델은 16GB급 환경에서도 돌릴 수 있습니다. 즉, 예전처럼 막대한 GPU 인프라 없이도 누구나 프런티어 수준의 추론력을 자신의 머신에서 실행할 수 있는 시대가 열린 것입니다.



3. GPT-OSS를 통해 미리 보는 AI 에이전트의 미래


GPT-OSS가 던지는 가장 큰 메시지는 더 이상 ‘강력한 에이전트’를 만들기 위해 초거대 폐쇄형 모델에만 의존할 필요가 없다는 점입니다. 지금 당장은 거대한 모델 사이즈와 방대한 양의 데이터로 학습된 Gemini-3이나 GPT-5.1과 같은 모델이 성능이 더 좋을 수밖에 없지만, 가까운 미래(2~3년 후)에는 로컬 환경에서도 충분한 추론 능력을 갖춘 오픈소스 모델을 이용해, 개인이나 기업이 필요로 하는 에이전트를 스스로 구축할 수 있는 시대가 열리게 될 것입니다. 이는 단순히 “좋은 오픈소스 모델이 하나 더 생겼다”는 수준을 넘어, 앞으로의 에이전트 생태계가 어떤 방식으로 발전할지 미리 보여주는 강력한 신호라고 할 수 있습니다.


우선 개인용 AI 에이전트의 대중화가 본격적으로 진행될 전망입니다. 처비용 추론형 LLM은 비교적 가벼운 온프레미스 환경에서도 고성능 추론을 수행할 수 있기 때문에, 개인이 자신의 데이터·습관·업무 문서를 바탕으로 진정한 ‘개인 맞춤형 에이전트’를 만드는 것이 가능해졌습니다. 지금까지는 개인정보 유출 문제 때문에 대부분의 개인 맞춤형 에이전트가 클라우드 기반 API 모델에 의존할 수밖에 없었지만, GPT-OSS는 이러한 제약을 사실상 제거하기 위한 첫걸음을 내딛었습니다. 나만의 업무 비서, 나만의 코딩 에이전트, 나만의 연구 보조 에이전트가 개인 PC 한 대 위에서 안전하게 돌아가는 시대가 생각보다 빨리 다가오고 있는 것입니다.


Personal-AI-Agents-1024x538-1024x585.jpg 출처 : tulelip

기업 환경에서도 변화는 더욱 크고 빠르게 나타날 것입니다. 에이전틱 AI가 요구하는 복잡한 계획 수립, 여러 도구의 통합 제어, 멀티스텝 추론 등은 그동안 고가의 프런티어 모델을 필요로 했습니다. 그러나 GPT-OSS는 이러한 기능을 온프레미스 환경에서도 충분히 수행할 수 있을 만큼의 추론력을 제공합니다. 이는 기업이 데이터 보안 문제를 신경 쓰지 않으면서도, 클라우드 API 비용을 크게 절감하고, 각 조직의 업무 프로세스에 최적화된 에이전트를 직접 내재화할 수 있는 길을 열어줍니다. 결국 많은 기업들이 “API 중심의 외부 AI 의존”에서 벗어나 “자체 운영 가능한 사내 에이전트 플랫폼”을 구축하는 방향으로 자연스럽게 이동하게 될 것입니다.


또 한 가지 주목할 점은 GPT-OSS가 에이전트 개발의 표준화를 촉진한다는 사실입니다. Harmony Chat Format 같은 메시지 구조, 추론 모드 제어, 도구 호출 기능 등은 모두 에이전트가 실제 업무 환경에서 작동하기 위해 필요한 기능들인데, GPT-OSS는 이러한 요소들을 모델 차원에서 기본적으로 탑재하고 있습니다. 이는 개발자들이 별도의 복잡한 구조를 직접 설계하지 않아도 에이전트 워크플로우를 자연스럽게 구현할 수 있게 만들어 줍니다. 동시에 AI 에이전트 생태계 전반이 더 빠르게 성숙하고, 더 빠르게 표준화되는 기반이 되기도 합니다.


1*fZbQeI6hkLCEOna_BXmOaA.png 출처 : medium


결국 GPT-OSS 보여주는 저비용 추론형 LLM의 미래는 매우 분명합니다. 추론력, 접근성, 비용, 확장성 측면에서 기존의 한계를 해소함으로써, AI 에이전트가 특정 기업이나 일부 고성능 인프라 보유자만의 기술이 아니라 모두가 만들고 모두가 사용할 수 있는 기술로 확장되고 있다는 것입니다. 개인은 자신만의 라이프스타일과 업무 방식에 최적화된 개인 에이전트를 가질 수 있고, 기업은 자신들의 데이터를 내부에서 안전하게 활용하는 사내 에이전트를 운영할 수 있는 시대가 본격적으로 열리고 있습니다.


keyword
이전 04화빅테크 대량해고 사태로 보는 에이전틱 AI 혁명