AI 얘기를 들으면 대부분 사람들은 “더 크고 강력한 모델이 곧 더 똑똑하다”라고 생각합니다. 실제로 뉴스에서도 “100억 파라미터 모델” 같은 숫자가 강조되곤 하죠.
하지만 서비스 현장에서 꼭 그런 건 아닙니다. 작은 모델도 충분히 쓸모 있고, 때로는 더 실용적일 수 있습니다.
예를 들어 스마트폰을 생각해봅시다. 세계에서 가장 강력한 슈퍼컴퓨터는 분명 훨씬 빠르지만, 우리가 일상에서 사용하는 건 주머니 속 작은 스마트폰이죠. 왜냐하면 필요한 순간에, 적은 비용으로, 효율적으로 일을 처리하기에 충분하기 때문입니다. AI도 비슷합니다. 거대한 모델은 연구와 범용성에서 강점을 갖지만, 실제 비즈니스나 서비스에서는 작은 모델이 더 적합한 경우가 많습니다.
이 글은 바로 그 지점을 탐구합니다. “작아도 충분히 똑똑한 모델”이 어떻게 가능하며, 왜 우리가 지금 다시 작은 모델을 주목해야 하는지를 말이죠.
AI 모델을 발전시킬 때 흔히 했던 방식은 이랬습니다. “큰 모델이 이미 똑똑하니, 여기에 특정 분야의 지식을 조금 더 학습시키면 더 잘할 것이다.” 예를 들어, 일반 대화를 잘하는 거대한 모델에 “콜센터 대화 데이터”를 얹어 학습시키는 식이죠.
하지만 여기엔 의외의 함정이 있었습니다.
새로운 지식을 넣는 과정에서 모델이 원래 알고 있던 일반 지식을 잊어버리는 경우가 생긴 겁니다. 이를 포게팅(Forgetting) 현상이라고 부릅니다.
결과적으로 모델은 특정 분야 대화는 잘하지만, 다른 상식적인 질문에는 엉뚱한 답을 내놓는 편향된 ‘바보 모델’이 되어버렸습니다.
비유하자면 이런 겁니다. 원래는 여러 분야를 두루 아는 박학다식한 사람이 있었는데, 단기간에 “콜센터 스크립트”만 반복적으로 주입받다 보니, 일상 대화에서는 “사람처럼” 대답하지 못하고 콜센터 매뉴얼처럼만 말하는 사람이 되어버린 셈입니다.
이 방식은 당장은 특정 작업에는 성능을 내더라도, 장기적으로는 모델의 균형 잡힌 지능을 해치게 되는 문제가 있었습니다.
그렇다면 이 문제를 어떻게 풀었을까요? 연구자들은 곧 깨달았습니다. 문제는 “작은 지식만 넣은 것”이 아니라, “균형 잡힌 데이터 환경을 제공하지 못한 것”이라는 사실이었죠.
그래서 나온 방법이 바로 데이터 믹스 전략입니다.
특정 도메인 데이터(예: 콜센터 대화)만 주입하는 대신,
커먼크롤(Common Crawl) 같은 대규모 범용 텍스트 데이터를 함께 섞어서 학습시키는 것입니다.
이렇게 하면 모델은 새로운 전문 지식을 배우면서도, 원래 가지고 있던 일반 상식과 언어 감각을 덜 잃어버리게 됩니다.
비유하자면 이렇습니다.
어떤 의사가 최신 의학 논문만 매일 읽는다면 사회 상식이나 일반 대화에는 서툴러질 수 있습니다.
반대로 의학 논문과 함께 신문, 잡지, 소설도 꾸준히 읽는다면, 전문성과 상식이 균형 있게 유지되겠죠.
AI 모델도 마찬가지입니다. 특화된 지식과 범용 지식을 함께 훈련하는 것이 모델을 “한쪽으로 치우치지 않은 지능”으로 만드는 핵심 전략이었습니다.
AI 연구에서 흥미로운 반전 사례가 등장했습니다. 바로 TinyStories라는 프로젝트입니다.
이 실험은 거대한 모델이 아니라 아주 작은 모델(수천만~수억 파라미터급)을 사용했습니다. 그런데도 좋은 결과를 냈습니다. 비결은 간단합니다. 고품질 데이터셋을 썼기 때문이죠. 아이들을 위한 짧은 동화 데이터를 정제해 모델을 학습시키자, 작은 모델임에도 불구하고 놀라운 추론 능력과 문장 생성 품질을 보여주었습니다.
이게 왜 중요한 걸까요?
지금까지는 “모델이 크면 무조건 더 똑똑하다”는 믿음이 지배적이었습니다. 하지만 TinyStories는 모델 크기가 성능을 보장하는 게 아니라, 데이터 품질과 설계 방식이 더 중요할 수 있다는 사실을 보여준 겁니다.
예를 들어 콜센터 응답 봇을 만든다고 해봅시다. 예전에는 큰 모델을 비싼 비용으로 학습시켜야 한다고 생각했지만, TinyStories 방식대로라면 훨씬 작은 모델에 잘 정제된 대화 데이터만 넣어도 충분히 똑똑한 챗봇을 만들 수 있습니다. 게다가 비용은 훨씬 줄어듭니다.
즉, “작아도 잘할 수 있다”는 반전의 메시지를 보여준 사례가 바로 TinyStories입니다.
AI 연구실과 달리 현장에서 필요한 건 “효율”입니다. 모든 기업이 GPT-4 같은 초대형 모델을 돌릴 수는 없죠. 비용도 크고, 속도도 느리고, 데이터 보안 문제도 생깁니다. 반면 작은 모델은 이 한계를 정면으로 파고듭니다.
예를 들어 콜센터 챗봇을 생각해봅시다. 고객 질문은 일정 패턴 안에서 반복되는 경우가 많습니다. 이때 초거대 모델을 쓰는 건 “대포로 파리를 잡는 것”과 비슷합니다. 비용은 많이 들고, 꼭 필요한 것도 아닙니다. 반대로 작은 모델을 잘 훈련시키면, 훨씬 저렴한 비용으로 빠르고 정확한 답변을 제공할 수 있습니다.
또 다른 사례는 교육 보조입니다. 학습자가 자주 묻는 질문, 교재 요약, 피드백 제공 같은 일은 작은 모델만으로도 충분히 가능합니다. 중요한 건 모델 크기가 아니라, 데이터셋을 얼마나 잘 설계했는가입니다.
기업 내부에서 쓰는 지식 관리 도구도 마찬가지입니다. 방대한 범용 지식을 아는 대신, 특정 회사 문서와 규정을 정확히 알고 답변할 수 있으면 충분합니다. 이런 영역에서는 작은 모델이 훨씬 효율적이고 안전합니다.
결국 서비스 현장에서 작은 모델은 “빠르고, 가볍고, 값싸고, 특화된 성능”이라는 네 가지 무기를 갖고 있습니다. 큰 모델이 모든 걸 다 할 수 있다고 해도, 실제 문제 해결에는 작은 모델이 훨씬 실용적인 순간들이 많습니다.
작은 모델의 가능성은 단순한 주장에 머물지 않습니다. 이미 연구와 산업 현장에서 여러 근거가 쌓이고 있습니다.
첫째, Scaling Laws(스케일링 법칙)입니다. OpenAI, DeepMind, Anthropic 등이 제시한 연구에 따르면, 모델 크기·데이터 크기·컴퓨팅 자원은 서로 균형이 맞아야 효율이 극대화됩니다. 데이터에 비해 모델이 너무 크면 성능 향상이 정체되고, 반대로 모델이 너무 작으면 복잡한 추론을 담지 못합니다. 결론은 “무조건 크게 키우는 것보다, 목적에 맞는 최적 규모를 찾는 것이 중요하다”입니다.
둘째, 도메인 특화 프리트레이닝(Domain-adaptive Pretraining)입니다. 기존에는 작은 데이터를 큰 모델에 덮어씌우다 포게팅(Forgetting) 문제가 생겼습니다. 이를 막기 위해 범용 데이터와 도메인 데이터를 섞어 학습시키는 방식이 제안되었고, 실제로 모델 품질이 크게 개선되었습니다. 이는 작은 모델도 잘 설계된 데이터 커리큘럼이 있으면 충분히 추론력을 발휘할 수 있음을 뒷받침합니다.
셋째, 산업계 움직임입니다. 비용과 속도 문제로 많은 기업들이 초대형 모델을 그대로 쓰는 대신, 오픈소스 기반의 소형 모델(LLaMA 계열, Mistral, Gemma 등)을 도입하거나, 자체 데이터를 얹어 맞춤형 모델을 만드는 쪽으로 옮겨가고 있습니다. 이 흐름은 단순한 선택이 아니라, 현실적인 비용·성능 균형의 결과입니다.
즉, 연구는 “작아도 효율적으로 학습하면 충분하다”는 증거를 제시하고, 산업은 실제로 그 길을 택하고 있습니다. 작은 모델이 단순히 가능성 차원을 넘어, 이미 합리적 대안으로 자리 잡아가고 있는 셈입니다.
거대한 모델은 마치 초고층 빌딩처럼 보입니다. 멀리서 우러러보게는 하지만, 누구나 그 안에서 살거나 마음대로 다룰 수는 없습니다. 막대한 자본과 인프라를 가진 소수 기업만이 독점적으로 운영할 수 있죠.
반대로 작은 모델은 주머니 속의 도구에 가깝습니다. 스마트폰처럼 개인과 스타트업이 직접 다루고, 원하는 환경에 맞게 조정할 수 있습니다. “내 곁에 있는 AI”라는 친밀감을 줄 수 있는 이유도 바로 여기에 있습니다.
이건 단순히 기술 크기의 차이가 아니라 기술에 대한 접근성의 문제입니다.
초거대 모델은 누구나 쓰고 싶지만, 결국 “서비스를 빌려 쓰는” 구조입니다.
작은 모델은 직접 운영할 수 있고, 데이터 보안이나 비용 통제 같은 주도권도 가질 수 있습니다.
AI의 여정을 짧게 되짚어보면, 흐름 속에서 하나의 스토리가 보입니다.
처음에는 거대한 모델에 작은 지식을 덧씌우는 방식이 중심이었습니다. 콜센터 데이터나 의료 데이터처럼 특정 도메인 지식을 넣으면 모델이 더 잘할 거라 기대했죠. 하지만 결과는 달랐습니다. 새로운 지식을 넣는 동안 모델이 기존의 일반 상식을 잃어버리는 포게팅(Forgetting) 문제가 나타났습니다. 특정 분야에는 뛰어나지만, 다른 영역에서는 서툴러지는 ‘한쪽 눈만 뜬 모델’이 생겨난 것이죠.
이를 해결하기 위해 연구자들은 데이터 믹스 전략을 고안했습니다. 특정 도메인 데이터만 넣는 대신, 커먼크롤 같은 범용 데이터와 함께 학습시키는 방법입니다. 덕분에 모델은 새 지식을 배우면서도, 기존의 일반 지식 기반을 유지할 수 있게 되었죠. 이는 마치 의사가 의학 논문만 보는 게 아니라, 신문과 소설도 함께 읽으며 사회적 감각을 유지하는 것과 같습니다.
그리고 나서 등장한 것이 TinyStories였습니다. 이 프로젝트는 방향을 완전히 바꿨습니다. “큰 모델을 덮어씌우는 게 아니라, 작은 모델을 아예 새로 프리트레이닝하자.” 연구자들은 잘 정제된 동화 데이터를 사용해 작은 모델을 훈련시켰고, 놀랍게도 작은 모델임에도 놀라운 추론 능력과 문장 생성 품질을 보여주었습니다.
이 스토리는 분명한 메시지를 줍니다.
크기만 키운다고 답이 아니다.
중요한 건 데이터 품질과 학습 전략이다.
작은 모델도 충분히 똑똑해질 수 있다.
즉, 포게팅 문제를 극복하려는 시도와 TinyStories의 실험은 같은 이야기를 말해줍니다. “균형 있는 데이터와 올바른 접근법이 있다면, 작은 모델도 서비스에 충분히 쓸 수 있다.”
AI의 발전을 보면 늘 “더 크고 강력한 모델”에 초점이 맞춰져 왔습니다. 하지만 서비스 관점에서 중요한 건 크기가 아니라 균형입니다. 모델 크기와 데이터 크기, 그리고 학습 방식이 맞아떨어질 때 비로소 효율적인 성능이 나옵니다.
과거에는 작은 지식을 큰 모델에 덧씌우다 보니 포게팅 문제가 생겼습니다. 하지만 커먼크롤 같은 범용 데이터를 섞는 전략으로 균형을 찾았고, TinyStories는 한 걸음 더 나아가 잘 정제된 데이터만 있다면 작은 모델도 충분히 추론을 잘할 수 있다는 사실을 보여주었습니다.
이제 중요한 질문은 “모델을 얼마나 크게 만들 것인가”가 아니라,
어떤 데이터를 쓰고,
어떤 학습 전략을 적용하며,
어떤 규모에서 최적의 균형을 찾을 것인가입니다.
거대한 모델은 여전히 필요합니다. 하지만 모든 문제를 초거대 모델로 해결할 수는 없습니다. 실제 현장에서는 작고 효율적인 모델이 비용과 속도, 보안, 맞춤화에서 훨씬 합리적일 수 있습니다.
따라서 앞으로의 AI 시대는 단순한 크기 경쟁이 아니라, 데이터와 전략의 균형을 찾는 경쟁이 될 것입니다. 그리고 그 길 위에서 작은 모델은 충분히 똑똑하고, 충분히 실용적인 답이 될 수 있습니다.