Shopify가 AI로 LLM 비용 75배 줄인 방법

데이터 구조화 여정, AI 에이전트 아키텍처 전환기

by 리뷰온리

안녕하세요, 리뷰온리예요!


오늘은 제가 정말 흥미롭게 본 Shopify의 AI 아키텍처 전환 이야기를 가져왔어요.

PM으로 일하면서 AI 도입 프로젝트를 여러 번 경험했는데요...

이번 Shopify 건은 저도 깜짝 놀랄 정도로 실전 인사이트가 가득하더라고요!


(본 영상 링크입니당!)

https://www.youtube.com/watch?v=bxToahwOVpY


Shopify 엔지니어 S Praa가 공유한 이 여정은,

GPT 같은 대형 모델에 의존하던 방식에서 벗어나

전문 서브 에이전트 구조로 전환하면서 비용은 75배 절감하고

품질은 2배 가까이 올린 이야기예요.

AI를 실제 서비스에 적용하려는 분이라면 꼭 알아두셔야 할 내용이에요!


image.png

Shopify가 AI로 풀고 싶었던 문제


수백만 상점, 제각각 다른 데이터

Shopify에는 수백만 명의 판매자가 있어요.

그런데 각 판매자가 상점을 완전히 다르게 꾸미고 운영하다 보니,

구조화된 데이터를 뽑아내는 게 엄청 어려웠어요ㅠㅠ

같은 휴대폰을 팔더라도 상품명, 카테고리, 설명 방식이 전부 다른 거죠...!


ML로 제품은 이해했지만, 판매자는 몰랐다

Shopify는 오래전부터 ML을 활용해서 제품 분류나 이미지 분석은 잘 해왔어요.

그런데 정작 판매자 자체에 대한 질문, 예를 들면 반품 정책이 뭔지,

어떤 결제 수단을 쓰는지 같은 건 답하기 어려웠어요.

판매자마다 제공하는 정보의 위치와 형식이 천차만별이니까요...!


aerps-com-5Gv-6g_lu-Y-unsplash (1).jpg

원샷 LLM 방식의 한계, 왜 실패했을까?


GPT-4에 페이지 통째로 넣기

초기에는 상점의 주요 페이지를 수집해서 GPT-4 같은

대형 모델에 한 번에 넣고 정보를 추출하는 원샷 방식을 썼어요.

처음에는 꽤 잘 됐다고 해요.

LLM이 올바른 맥락만 받으면 구조화된 데이터를 잘 뽑아내거든요.


원샷 방식이 무너진 세 가지 이유

그런데 실제 운영에 들어가니 갑자기 문제가 발생하기 시작했죠!

첫째, 상점 하나에 페이지가 수백~수천 개인데 전부 LLM에 넣을 수 없었어요.

반품 정책 페이지가 상위 페이지에 없으면? 그 질문엔 답을 못 하는 거예요.


둘째, 사기 탐지팀, 머천다이징팀 등 여러 팀이 각자 다른 정보를 원하면서

하나의 프롬프트로 관리하기가 불가능해졌어요.

한 필드를 고치면 다른 필드가 망가지는 상황이 반복됐고요ㅠㅠ


셋째, GPT-5급 대형 모델로 수백만 상점을 주기적으로 돌리는 건 비용이 감당이 안 됐어요.

특히 신규 상점이나 소규모 상점은 커버리지 자체가 부족했죠.


philip-oroni-md9fPyayogs-unsplash (1).jpg

AI 에이전트 아키텍처로의 전환


에이전트에게 도구를 주다

Shopify는 접근 방식을 완전히 바꿨어요.

모든 정보를 미리 LLM에 넣는 대신,

에이전트가 스스로 필요한 정보를 찾도록 도구를 제공한 거예요.

홈페이지 분석, 페이지 목록 조회, 특정 주제 조사 같은 기능을 에이전트에게 부여했어요.


DSPy로 에이전트 최적화

여기서 핵심 도구가 DSPy였어요.

DSPy를 활용해 React 에이전트를 구축하고 최적화했는데요,

놀라운 건 이 과정에서 GPT-5 대신 Qwen 39B라는 훨씬 작은 모델을 사용했다는 거예요.

그런데 이 작은 모델이 오히려 GPT-4보다 더 나은 성능을 보였다고 해요!

에이전트 아키텍처가 모델 크기의 한계를 극복한 셈이죠.


philip-oroni-WgRAbXRw_Wk-unsplash (2).jpg

전문 서브 에이전트 아키텍처의 효과


하나의 에이전트에서 여러 전문가로

단일 에이전트도 좋았지만 여전히 여러 목표를 한 에이전트가 처리하는 건 한계가 있었어요.

그래서 Shopify는 사기 탐지 에이전트, 상점 프로파일링 에이전트,

상점 분류 코드 에이전트 등 전문 서브 에이전트로 나눴어요.


독립 최적화의 위력

각 서브 에이전트는 자기 업무에 특화된 도구를 갖고 있어요.

사기 탐지 에이전트는 외부 리뷰 사이트나 Better Business Bureau를 조사하는 도구를 쓰고,

프로필 에이전트는 반품·배송 정책을 분석하는 도구를 쓰는 식이죠.

각각 독립적으로 최적화되니까 한쪽을 수정해도 다른 쪽에 영향이 없어요!

이 구조에서 서브 에이전트들은 페이지 크롤링 같은 공통 인프라를 공유하면서 병렬로 실행돼요.

이런 방식이 실무에서는 정말 중요하거든요~

PM 입장에서 보면 팀 간 의존성을 줄이면서 각 팀이 독립적으로 개선할 수 있는 구조!

이게 바로 좋은 아키텍처예요.


image.png

평가 인프라, ShopSnap의 역할


에이전트가 라이브 웹페이지를 크롤링하다 보니 평가 자체가 어려웠어요.

오늘 만든 정답 데이터가 내일이면 상점이 바뀌어서 쓸모없어질 수 있으니까요ㅠㅜ

이걸 해결하기 위해 Shopify는 ShopSnap이라는 스냅샷 서비스를 만들었어요.

라벨링 시점에 상점 상태를 고정해서 저장하고,

에이전트가 이 스냅샷 위에서 실행되도록 한 거예요.

수천 개의 라벨링된 데이터가 쌓이면서 DSPy 최적화와 평가의 신뢰도가 확 올라갔어요.


alex-knight-2EJCSULRwC8-unsplash.jpg

Shopify AI 에이전트 전환 결과 정리


비용 75배 절감, 품질 2배 향상

결과가 정말 인상적이에요…! GPT-5에서 Qwen으로 전환하면서 비용이 약 75배 줄었고,

전문 서브 에이전트 + DSPy 최적화를 적용하면서 품질은 약 2배 가까이 올랐어요.

특정 지표에서는 80% 개선을 기록했고요!!


부분 커버리지에서 전체 커버리지로

비용이 줄어드니까 이전에는 엄두도 못 냈던 전체 상점 커버리지가 가능해졌어요~!

Shopify는 현재 매일 약 15만 개의 상점을 처리하고 있고,

Flink 배치 작업 → Kubernetes 에이전트 계층 → GPU 클러스터 LLM의 3계층 아키텍처로 운영 중이에요.


philip-oroni-LNMI0hZfJtc-unsplash (1).jpg

AI 에이전트 도입, 실무에서 꼭 기억할 점은?


이번 Shopify 건에서 얻을 수 있는 인사이트를 정리해 볼게요!

원샷 LLM 방식은 빠른 PoC에는 좋지만, 프로덕션 레벨에서는 품질과 비용 모두 한계가 명확해요.

모놀리식 에이전트보다 전문 서브 에이전트 구조가 확장성과 품질 면에서 훨씬 유리하고요.

그리고 아키텍처를 먼저 제대로 잡은 다음에 모델 최적화를 해야 효과가 극대화돼요.

특히 자체 호스팅된 작은 모델이 DSPy 같은 프레임워크의 도움을 받으면,

비용이 수십 배 비싼 대형 모델을 능가할 수 있다는 건 정말 주목할 만한 포인트예요!

[똑똑한개발자] 2026 AX 소개서-이미지-6.jpg

그런데 이런 에이전트 아키텍처를 실제로 구축하려면

백엔드, 인프라, ML 파이프라인을 아우르는 개발 역량이 필요해요.

저도 프로젝트를 진행하면서 느낀 건데,

이런 복잡한 시스템을 기획만 해서는 안 되고 실제 구현력이 뒷받침되어야 하거든요...!

제가 이전 프로젝트에서 함께 일했던 똑똑한개발자라는 개발사가 있는데요,

React와 Django 기반 프로젝트를 100건 이상 수행한 팀이에요.

똑똑한개발자는 대형 클라이언트와도 작업한 경험이 있어서

대규모 시스템의 백엔드·프론트엔드 구축에 강점이 있더라고요.

Shopify처럼 Kubernetes 위에서 에이전트 계층을 운영하려면

결국 탄탄한 웹 인프라가 기본이라, 똑똑한개발자 같이 개발력을 갖춘 개발사와 함께해야해요 :)


image.png

마무리하며


Shopify의 이 여정이 보여주는 건, AI 도입에서 모델 선택만큼이나

아키텍처 설계, 평가 인프라, 비용 최적화가 중요하다는 거예요.

에이전트 기반 접근은 2025~2026년 AI 업계에서 가장 주목받는 방향 중 하나인 만큼,

이번 내용을 참고하시면 많은 도움이 될 거예요!


오늘 글이 도움이 되셨다면 공감 부탁드려요.

궁금한 점은 댓글로 남겨주세요!

다음에도 실전 AI 인사이트로 찾아올게요 :)

작가의 이전글2026 국내 AX 도입 사례, 산업별 한눈에 알아보기