아마존 카탈로그 AI에서 배우는 개인 지식 정리법

생성형 AI의 세 가지 근본 문제와 아마존의 해법

by the게으름

누구나 아는 문제, 아무도 못 푸는 숙제

생성형 AI가 가진 세 가지 근본적인 문제는 이제 업계의 상식이 되었다.

첫째는 환각(Hallucination)이다. AI가 그럴듯하게 없는 정보를 만들어낸다.

두 번째는 누락(Omission)으로, 정작 중요한 정보는 빼먹는다.

셋째는 과잉 생성(Overgeneration)인데, 가능성을 너무 많이 만들어내서 어떤 게 실제로 효과적인지 판단하기 어렵다는 점이다.

이 문제들 때문에 많은 기업들이 생성형 AI 도입에 실패하고 있다.

딜로이트의 2024년 조사에 따르면, 6개 산업 2,770명의 비즈니스 리더 중 41%가 생성형 AI의 영향력을 측정하는 데 어려움을 겪고 있다고 답했다.


아마존이 찾은 다른 길

아마존은 수억 개의 상품 정보를 관리하는 거대한 온라인 카탈로그를 운영한다.

매일 수백만 개의 상품 정보가 추가되거나 수정되는 이 시스템에서, 잘못된 정보 하나가 고객 신뢰와 매출에 직접적인 타격을 준다. 소파 재질을 물었는데 시트가 아닌 프레임 재질을 알려준다면? 고객은 구매를 포기하거나 제품을 반품할 것이다.

2023년 아마존이 출시한 Catalog AI는 처음 몇 주 동안 생성한 결과물의 80%가 신뢰할 수 없었다. 전기 펌프가 15마력이라는 정보를 만들어냈는데, 실제로는 그런 데이터가 아예 없었다. 바디워시 제품명에서 "빛나는 피부"라는 중요한 문구를 임의로 삭제하기도 했다.

대부분의 기업이라면 여기서 두 가지 중 하나를 선택했을 것이다. 사람을 투입해 일일이 검토하거나, AI의 자유도를 극도로 제한하거나. 하지만 전자는 비용이 기하급수적으로 늘어나고, 후자는 AI의 창의성과 유용성을 떨어뜨린다.

아마존은 제3의 길을 선택했다. 환각을 완벽하게 막으려 하지 않고, 대신 빠르게 감지하고 학습하는 시스템을 구축한 것이다.


AI가 AI를 심문하다

아마존이 개발한 가장 흥미로운 방법은 AI끼리 대화하게 하는 것이었다.

첫 번째 LLM은 콘텐츠를 생성하는 데 특화되어 있고, 두 번째 LLM은 그 결과물을 검증하는 데 집중한다. 서로 다른 데이터셋으로 학습된 이 두 AI는 자동으로 대화를 나눈다.

생성 AI가 "이 펌프는 15마력입니다"라고 주장하면, 검증 AI가 "그 정보의 근거를 설명해 주세요"라고 되묻는다. 만약 생성 AI가 명확한 근거를 제시하지 못하면 해당 정보는 차단된다. 이는 마치 숙련된 편집자가 기자에게 "이 내용의 출처가 어디인가요?"라고 묻는 것과 같다.

이 방식이 효과적인 이유는 환각이 대부분 설명을 요구받으면 드러나기 때문이다. 근거 없이 만들어낸 정보는 논리적인 설명이 불가능하다. 아마존은 이렇게 여러 LLM을 연결해 서로 검증하게 함으로써, 단일 AI의 한계를 극복했다.


통계와 규칙의 이중 안전장치

AI 간 대화만으로는 부족했다. 아마존은 두 가지 추가 안전장치를 더했다.

먼저 단순하지만 효과적인 규칙들을 설정했다. 무게를 나타내는 숫자 뒤에는 반드시 단위가 와야 한다거나, "contemporary"를 단순히 "modern"으로 바꾸는 것처럼 의미 없는 변경은 자동으로 거부하는 식이다. 이는 공장의 품질 관리에서 기본 체크리스트를 운영하는 것과 같은 원리다.

다음으로 통계적 프로필을 활용했다. 현재 판매 중인 테이블들의 데이터를 분석해 일반적인 범위를 설정하고, AI가 생성한 새 테이블 정보가 이 범위를 벗어나면 경고를 발생시킨다. 제조업에서 사용하는 통계적 공정 관리(SPC) 기법을 AI 품질 관리에 적용한 것이다.


실전이 주는 교훈: A/B 테스트의 대규모 자동화

신뢰성 검사를 통과했다고 해서 끝이 아니다. 고객이 실제로 원하는 정보인지는 별개의 문제다. 아마존은 Catalog AI가 제안하는 모든 변경사항을 자동으로 A/B 테스트한다.

한 스킨케어 제품의 경우, 기존 설명은 각 성분이 어떻게 모공을 깨끗하게 하고 피부 결을 개선하며 붉은기를 줄이는지 상세하게 설명했다. AI는 이를 "더 부드럽고 촉촉한 피부, 주름 감소"라는 핵심 혜택만 간단히 나열하는 버전으로 바꿨다. 결과는? 짧은 버전이 매출을 크게 증가시켰다.

반대 사례도 있다. AI가 바디워시 제품명에서 "빛나는 피부"라는 문구를 삭제했을 때 매출이 감소했다. 이런 실험을 통해 아마존은 고객이 진짜 원하는 정보가 무엇인지 데이터로 확인한다.

현재 신뢰성 검사를 통과한 AI 콘텐츠 중 40%가 매출을 개선하거나 최소한 부정적 영향이 없는 것으로 나타났다. 나머지 60%는 매출에 부정적 영향을 미쳐 실제로 적용되지 않는다.


스스로 진화하는 시스템

아마존의 진짜 혁신은 이 모든 과정에서 나온 데이터로 AI가 스스로 개선된다는 점이다. 시스템은 어떤 종류의 설명이 고객 전환율을 높이는지, 어떤 정보가 꼭 필요한지를 지속적으로 학습한다.

예를 들어, 제품 제목 길이에 대한 실험을 보자. Catalog AI는 같은 제품에 대해 75자, 120자, 180자의 세 가지 버전을 생성하고 테스트한다. 수백만 건의 실험을 통해 어떤 카테고리에서는 간결한 제목이, 어떤 카테고리에서는 상세한 제목이 효과적임을 학습한다. 이렇게 축적된 지식은 다시 AI 학습에 활용된다.

트래픽이 적어 개별 테스트가 어려운 상품들은 유사 상품끼리 묶어서 '개념 테스트'를 진행한다. 이를 통해 오랫동안 당연시되던 가정들도 검증한다. 실제로 "흰 배경과 제품의 강한 대비가 좋다"는 전문가들의 오랜 믿음이 잘못되었음이 밝혀지기도 했다. AI가 제안한 일상적 환경 배경이 더 높은 매출을 기록한 것이다.


규모의 경제학

아마존 시스템의 진정한 강점은 규모에 있다. 연간 수천만 개의 가설을 생성하고 테스트할 수 있다는 것은, 8%의 성공률도 엄청난 가치로 전환됨을 의미한다. 수백만 개의 상품 목록에 작은 개선이 적용되면, 그것이 모여 수십억 달러의 추가 매출로 이어진다.

초기에는 AI 결과물의 80%가 실패했지만, 현재는 80%가 신뢰성 검사를 통과한다. 이는 단순히 기술이 개선된 것이 아니라, 시스템이 수백만 번의 실험을 통해 학습한 결과다. 실패한 실험도 무엇이 작동하지 않는지를 가르쳐주는 귀중한 데이터가 된다.


품질 시스템이 만드는 차이

수십 년 전, 하버드 비즈니스 스쿨의 데이비드 가빈 교수는 에어컨 제조업체 연구를 통해 품질 시스템의 중요성을 입증했다. 최고 품질 제조업체의 고장률이 최저 품질 업체보다 500-1,000배 낮았는데, 그 차이를 만든 것은 포괄적인 품질 관리 시스템이었다.

AI 시대에도 이 교훈은 유효하다. 차이는 품질 관리의 대상이 물리적 제품에서 디지털 콘텐츠로, 사람 검수원에서 AI 검증 시스템으로 바뀌었을 뿐이다. 아마존의 Catalog AI는 생성형 AI의 잠재력을 실현하면서도 그 위험을 관리할 수 있음을 보여준다.

완벽을 추구하는 대신 빠른 감지와 지속적 개선에 집중한 아마존의 접근법은, AI와 함께 일하는 새로운 방식을 제시한다. 중요한 것은 환각을 완전히 제거하는 것이 아니라, 환각을 효과적으로 관리하고 학습의 기회로 전환하는 시스템을 구축하는 것이다.


거대 기업의 해법, 개인의 도전

아마존의 Catalog AI가 보여준 성과는 인상적이지만, 대부분의 사람들은 이런 생각을 할 것이다. "수십억 달러 규모의 회사나 할 수 있는 일 아닌가?" 맞다. 하지만 흥미롭게도, 비슷한 원리를 개인 차원에서 적용하는 사람들이 늘고 있다.

특히 연구자나 분석가처럼 방대한 정보를 다루는 직업군에서 이런 시도가 활발하다. 기업이 상품 정보 관리에서 겪는 문제를, 개인은 지식 정보 관리에서 겪고 있기 때문이다. 아마존이 매일 수백만 개의 상품 정보를 처리하듯, 한 연구자는 매일 쏟아지는 수백 편의 논문과 씨름한다.


논문 홍수 시대의 생존법

arXiv에는 매일 수백 편의 새 논문이 올라온다. 머신러닝 분야만 해도 하루에 100편이 넘는다. 일주일이면 700편, 한 달이면 3,000편이다.

한 연구자가 이런 시스템을 구축했다고 치자. arXiv API를 통해 관심 주제의 논문을 자동으로 크롤링한다. "생성형 AI", "품질 관리", "환각 방지" 같은 키워드로 필터링해도 여전히 주당 수십 편이 쏟아진다. 물리적으로 읽을 수 없는 양이다.

그래서 로컬 LLM을 돌린다. Llama나 Mistral 같은 오픈소스 모델을 활용해 각 논문을 요약한다. 초록, 핵심 기여, 실험 결과, 한계점을 정리해 5페이지 논문을 반 페이지로 압축한다. 하지만 이것조차도 일주일이면 수십 페이지가 된다. 여전히 소화하기 어려운 양이다.


대기업 솔루션의 개인화

바로 이 지점에서 아마존의 Catalog AI 접근법이 개인에게도 의미를 갖는다. 핵심은 동일하다 - 완벽한 요약을 만들려 하지 말고, 빠르게 필터링하고 우선순위를 정하는 시스템을 구축하는 것.

첫 번째 LLM: 요약 생성기

`입력: arXiv 논문 전문 출력: 구조화된 요약

핵심 주장 (1-2문장)

방법론 (3-5문장)

주요 결과 (숫자 포함)

나의 연구와 관련성 점수 (1-10)`


두 번째 LLM: 품질 검증기

`입력: 첫 번째 LLM의 요약 검증 항목:

논문의 주장과 결과가 논리적으로 연결되는가?

제시된 숫자들이 일관성 있는가?

과장된 주장은 없는가?

실제로 새로운 기여인가, 아니면 기존 연구의 반복인가?`


첫 번째 LLM이 "이 논문은 환각을 99% 감소시켰다"고 요약하면, 두 번째 LLM이 "실험 설정이 제한적이지 않나요? 특정 도메인에서만 테스트했는데 일반화할 수 있나요?"라고 되묻는다. 아마존의 AI 검증 시스템과 동일한 원리가 개인의 연구 도구에도 적용되는 것이다.


개인화된 평가 시스템

아마존이 매출이라는 명확한 지표를 가지고 있듯, 개인 연구자도 자신만의 평가 기준이 필요하다.

관련성 점수 시스템:

현재 진행 중인 프로젝트와 직접 연관: 10점

방법론을 참고할 수 있음: 7-8점

배경 지식으로 유용함: 4-6점

흥미롭지만 당장 필요 없음: 1-3점


실용성 가중치:

코드가 공개되어 있음: +2점

데이터셋 접근 가능: +1점

재현 가능한 실험 설정: +1점

저자가 활발히 질문에 답변: +1점


이렇게 점수화된 논문들은 자동으로 우선순위가 정해진다. 주간 리포트에는 상위 5개 논문만 상세 요약이 포함되고, 나머지는 제목과 한 줄 요약만 남는다.


피드백 루프 구축하기

아마존의 시스템이 A/B 테스트 결과로 학습하듯, 개인 시스템도 피드백으로 개선된다.

매주 금요일, 실제로 읽은 논문을 기록한다:

LLM이 높은 점수를 준 논문이 정말 유용했는가?

낮은 점수를 받았지만 중요했던 논문은 없었는가?

요약에서 놓친 핵심 포인트는 무엇인가?


이 피드백을 다시 프롬프트에 반영한다. "지난주에 네가 3점 준 논문이 실제로는 내 연구의 핵심 참고문헌이 되었어. 실험 규모보다 아이디어의 참신함을 더 높게 평가해줘."


로컬 LLM의 한계와 해결책

로컬 모델은 GPT-4나 Claude보다 성능이 떨어진다. 특히 수학적 추론이나 복잡한 논리 전개에서 약하다. 하지만 아마존이 작은 모델이 때로는 큰 모델보다 낫다는 것을 발견했듯, 로컬 모델도 장점이 있다.


속도와 비용:

GPT-4 API: 논문 한 편당 $0.5-1.0

로컬 Llama 3: 전기료만 (거의 무료)

일주일 100편 처리시 차이: $50-100 vs $1


특화 학습:

자신의 연구 분야 논문으로 파인튜닝

개인의 관심사와 스타일 학습

민감한 연구 아이디어 보호


실전 운영 사례

한 ML 연구자의 일주일:

월요일 아침:

주말 동안 쌓인 87편의 논문 자동 처리

1차 필터링: 주제 관련성으로 31편 선별

2차 요약: 각 논문 0.5페이지로 압축

3차 평가: 상위 7편 선정


수요일 체크:

화요일까지 추가된 43편 처리

긴급도 높은 2편 발견 (주요 학회 accepted papers)

기존 7편에 추가해 9편으로 조정


금요일 리뷰:

실제로 정독한 논문: 4편

LLM이 놓친 중요 포인트 기록

다음 주 프롬프트 개선사항 정리


불완전함의 가치

로컬 LLM도 환각을 일으킨다. "이 논문이 SOTA를 달성했다"고 했는데 실제로는 특정 조건에서만 그랬거나, "새로운 방법론"이라고 했는데 사실은 기존 방법의 변형일 때가 있다.

하지만 완벽할 필요는 없다. 중요한 건:

정말 중요한 논문을 놓치지 않는 것

완전히 쓸모없는 논문에 시간 낭비하지 않는 것

전체적인 연구 트렌드를 파악하는 것


아마존이 60%의 AI 제안을 버리면서도 ROI를 달성하듯, 개인 연구자도 LLM 요약의 30-40%만 실제로 유용해도 충분하다. 없는 것보다는 훨씬 낫고, 모든 것을 읽으려다 번아웃되는 것보다는 확실히 지속가능하다.


정보 과부하 시대의 새로운 문해력

AI 이전부터 우리는 정보 홍수의 시대를 살아왔다. 인터넷이 시작이었고, 이제는 누구나 AI를 통해 글을 만들어내고, 그림을 그리고, 음악도 만들어낸다. 그 안에서 진주를 찾아야 한다면, 더 이상 인간의 힘만으로는 불가능한 지경에 이르렀다.

아마존의 Catalog AI가 제품 정보의 바다를 항해하는 방법을 보여줬듯, 우리도 각자의 정보 바다를 항해하는 방법을 찾아야 한다. 핵심은 AI를 완벽한 도구로 만들려 하지 않는 것이다. 대신 불완전함을 인정하고, 빠르게 필터링하고, 지속적으로 개선하는 시스템을 만드는 것이다.

아마존이 불완전한 AI와 협업하는 방법을 기업 차원에서 실현했다면, 이제 개인들도 같은 원리로 자신만의 지식 관리 시스템을 구축하고 있다. 완벽한 요약 하나보다 적당한 요약 백 개가 더 가치 있는 시대. 우리는 이미 그 시대를 살고 있다.

keyword