기업 현장의 대부분 업무에서 가장 크고 똑똑한 AI 모델이 아니라, 오히려 작고 단순한 모델들이 승기를 잡고 있다.
현대 AI의 핵심에는 역설이 존재한다. 실제로 기업들이 업무를 처리하고 인력을 줄이는 데 활용하는 정교한 모델들은 정작 언론의 주목을 받는 모델들이 아니다.
점점 더 강력해지는 frontier model과 reasoning model들은 인지 능력 기록을 갈아치우며 계속 헤드라인을 장식한다. 이들은 법률 및 의료 면허 시험을 통과하고, 수학 올림피아드에서 우승한다. OpenAI의 Sam Altman, Anthropic의 Dario Amodei, Google 소유의 DeepMind의 Demis Hassabis, 그리고 xAI의 Elon Musk까지 주요 AI 연구소 리더들은 AI가 인간만큼 똑똑해지는 'AGI(Artificial General Intelligence)'의 미래를 이야기한다.
이런 AI 메가브레인들이 우리의 일자리를 모두 빼앗아갈 것이라는 전망이 지배적이다. 하지만 실제로 AI에 매일 의존하는 기업의 CEO들과 대화해보면 전혀 다른 이야기를 듣게 된다. 압도적 다수의 업무에서 가장 크고 똑똑한 AI 모델이 아니라, 가장 단순한 모델이 승리하고 있다. 실제로 비즈니스 프로세스와 인력을 변화시키고 있는 이 무명의 AI 영웅들은 가장 작고, 빠르고, 저렴하다.
Allen Institute for AI의 비영리 연구기관에서 오픈소스 large language model을 개발하는 연구 과학자 Kyle Lo는 "현실적으로 오늘날 우리가 필요로 하는 많은 연산 작업에 large language model이 필요하지 않다"고 말한다.
AI 기반 기업들은 소프트웨어와 서비스를 마치 AI 조립 라인처럼 구축하여 성공을 거두고 있다. 정보가 한쪽 끝으로 들어가면, 데이터, 행동 또는 제품이 다른 쪽 끝으로 나온다. 그 사이에서 더 작고, 단순하고, 전문화되고, 빠르고, 운영 비용이 저렴한 많은 AI들이 모든 작업을 수행한다.
소위 AI agent로 대규모로 실질적인 작업을 처리해야 하는 기업들은 "small language model"이 이를 구동하기에 충분하다는 것을 발견하고 있다. 게다가 기업들은 이러한 small language model을 사용할 수밖에 없다는 것을 깨닫고 있다. 더 저렴하고, 경우에 따라서는 당면한 작업에 더 적합하기 때문이다.
이것이 agentic AI의 미래가 워크플로우 하나씩 구축되고 있는 방식이다.
AI 기반 시스템이 더욱 유능해지는 것처럼 보이는 이유가 기반 AI 모델이 더 똑똑해지기 때문인 것처럼 보일 수 있다. 가장 큰 AI 모델들은 확실히 발전하고 있다.
하지만 많은 경우, 기업 생산성 향상의 진실은 AI가 경쟁력, 일자리 등에 미치는 영향이 인간 엔지니어들이 더 작고 단순한 AI들을 함께 엮는 기술이 향상된 결과라는 것이다.
Seattle 기반 스타트업 Aurelian은 generative AI를 사용하여 911 센터에 걸려오는 비응급 전화에 대한 응답을 자동화한다. New York City 기반의 Hark Audio는 AI를 사용하여 전 세계 약 50만 개의 활성 팟캐스트에서 기억에 남을 만한 순간을 식별하고, 클립으로 자르고, 수집한다. San Francisco의 Gong은 AI를 사용하여 고객의 영업 담당자들이 녹음한 모든 통화를 스캔하고 소화하여 더 많은 판매를 돕는다. 그리고 Airbnb는 중국 Alibaba의 오픈소스 모델을 포함한 AI를 사용하여 고객 서비스 문제의 상당 부분을 인간 직원보다 빠르게 자동으로 해결한다.
Meta조차도 이런 방식으로 작은 AI 모델을 사용한다. 가장 최근 실적 발표에서 CFO Susan Li는 광고 게재와 관련하여 회사가 가장 큰 AI 모델을 사용하지 않는다고 말했다. "크기와 복잡성 때문에 비용 측면에서 너무 비효율적"이기 때문이다. 대신 Meta는 큰 모델을 사용하여 광고 타겟팅에 관한 필요한 지식을 더 작고 가벼우며 전문화된 모델로 전달하고, 이 모델들을 실제 운영에 사용한다.
이 모든 기업들의 공통점은 작고, 단순하고, 빠른 AI들을 데이지 체인으로 연결한 내부 지식 공장을 구축했다는 것이다.
공장에서는 부품들이 컨베이어 벨트를 따라 이동하고, 작업자들이 그 과정에서 부품을 조정한다. AI 지식 공장이라고 부를 수 있는 곳에서는 데이터 덩어리가 기존 소프트웨어의 파이프라인을 통과하고 단순한 AI 하나에서 다음 AI로 전달되며, 각각이 데이터를 변경하고, 분류하고, 변환한다.
이 비유에서 컨베이어 벨트는 기존 소프트웨어로 만들어진다. 많은 기업들이 수년, 심지어 수십 년에 걸쳐 구축해온 데이터의 검증된 기존 경로들이다. 그리고 컨베이어 벨트를 따라 있는 작업자들은 small language model로 구동되는 AI 도구들이다.
Nvidia와 Georgia Institute of Technology의 연구자 그룹이 최근 논문에서 쓴 것처럼, AI agent(우리의 조립 라인 작업자들과 같은)의 부상은 "language model이 적은 수의 전문화된 작업을 반복적으로 그리고 변화가 거의 없이 수행하는 대규모 애플리케이션을 열고 있다."
그들은 small language model이 이러한 작업에 "충분히 강력하고, 본질적으로 더 적합하며, 필연적으로 더 경제적"이라고 썼다.
고객들의 판매를 돕는 Gong은 설명적인 예다. 공동 창립자 Eilon Reshef는 Google과 Cisco를 포함한 고객들이 conversational AI에 "왜 거래를 잃고 있는가?"와 같은 질문을 할 수 있다고 말한다.
답변하기 위해 Gong은 더 비싸고 고급인 AI 도구와 더 작고 저렴한 도구를 혼합하여 사용한다. 시스템은 더 어려운 작업을 더 고급 모델에 할당한다. 다양한 전문성을 가진 작업자들에게 작업을 위임하는 관리자처럼 생각하면 된다.
Gong의 소프트웨어는 일반적으로 사용자의 질문(이 경우 "왜 내 판매가 감소하는가?")을 Anthropic이나 OpenAI와 같은 "스마트" AI 모델 중 하나로 보내는 것으로 시작한다.
초기 prompt에는 질문에 답하기 위한 광범위한 계획을 세우라는 요청이 포함된다. 이러한 스마트 모델은 비싸고 질문에 대해 "생각"하는 데 시간이 더 오래 걸리기 때문에 Gong은 가능한 한 적게 사용한다.
frontier reasoning model, 즉 large language model 중 가장 큰 모델이 상위 수준 계획을 내놓으면, Gong의 소프트웨어 파이프라인이 작동하기 시작한다. 먼저 고객과의 수만 건의 녹음된 영업 통화를 살펴본다. 그런 다음 Gong은 smaller language model을 사용하여 검색으로 찾아낸 대화들을 요약한다. 다음으로 또 다른 language model이 그 요약본들을 스캔할 수 있다.
이 프로세스가 끝나면 모든 데이터가 스마트하고, 느리고, 비싼 frontier AI 중 하나로 다시 전달되고, 이것이 보고서로 변환한다. 이 보고서는 일반적으로 똑똑한 인간이 수백 시간의 작업을 필요로 하는 방식으로 회사가 진행하는 모든 영업 통화에서 무엇이 효과적이고 무엇이 그렇지 않은지를 설명한다.
Reshef는 "대화가 관련이 있는지 알아내는 데 가장 저렴한 LLM을 사용하고, 그 안에서 올바른 정보를 찾는 데 합리적으로 저렴한 LLM을 사용하고, 그런 다음 실행 문서를 작성하는 데 더 비싼 frontier model을 사용할 수 있다"고 말한다.
가장 크고 정교한 모델과 가장 작고 저렴한 모델 간의 비용 차이는 엄청나다. 업계 표준 가중 평균을 사용하면, OpenAI의 가장 작고 빠른 모델인 GPT-5 Nano는 백만 token당 약 10센트가 드는 반면, 본격적이고 더 정교한 GPT-5는 백만 token당 약 3.44달러가 든다. Token은 AI가 처리하는 텍스트의 기본 단위다.
게다가 큰 모델은 답변을 추론하는 데 사용하는 내부 독백에서 token을 소모하기 때문에 작업을 완료하는 데 수천 배 더 많은 token을 사용할 수 있다.
AI 모델과 관련하여 "가장 작고 덜 스마트하다"는 것이 가장 덜 유능하다는 의미는 아니라는 점에 주목하는 것이 중요하다. 실제로 small model은 훈련 프로세스의 일부로 또는 점점 더 정교한 prompt를 통해 당면한 작업에 특화된 방식으로 작동하도록 조정될 수 있다.
여러분의 생각을 공유하세요: "지식 조립 라인" 접근 방식이 어떻게 AI를 비즈니스에 더 실용적으로 만드나요? 아래에서 대화에 참여하세요.
Hark Audio의 CEO Don MacKinnon은 "거대한 LLM 모델은 믿을 수 없을 만큼 똑똑하지만, 우리의 고유한 독점 데이터를 활용하거나 편집자들의 피드백을 통합할 수 있는 효율적인 방법을 제공하지 않는다"고 말한다. Hark 팀은 수년 동안 인간이 선택하고 편집한 팟캐스트 클립 수만 개의 라이브러리를 만드는 데 시간을 보냈으며, 회사 엔지니어들은 이를 사용하여 이제 전체 프로세스를 자동화할 수 있는 맞춤형 AI를 fine-tune했다.
small model 사용에 대해 내가 대화를 나눈 모든 기업에서 시스템 구조화 방식에 놀라울 정도로 일관성이 있다.
이는 실제로 일관되게 작동하는 AI agent를 구축하는 방법이 그리 많지 않으며, 그것들 거의 모두가 small language model을 포함한다는 것을 시사한다.
<본문은 WSJ 기사를 바탕으로 작성되었습니다>