AI의 뇌에 '정답'을 심는 법: C-GEO와 RAG

가비지 인, 가비지 아웃(GIGO)을 넘어 'Source of Truth

by 류희범

생성형 AI는 거짓말을 하지 않는다, 다만 '모를' 뿐이다

우리는 흔히 AI의 환각(Hallucination) 현상을 비판합니다. 하지만 커머스 영역에서 AI가 엉뚱한 답을 내놓는 이유는 모델의 지능 문제라기보다, 참조할 데이터의 '맥락(Context)'이 부족하기 때문인 경우가 많습니다.

저는 현재 진행 중인 GEO 프로젝트를 통해, 단순한 텍스트 크롤링을 넘어 AI가 가장 신뢰할 수 있는 데이터 공급망을 구축하고 있습니다. 이를 저는 C-GEO(Categorical GEO) 기반의 RAG 최적화라 부릅니다.


1. RAG의 핵심은 '무엇을 찾아올 것인가'이다

RAG(Retrieval-Augmented Generation)는 AI가 답변을 하기 전, 외부의 신뢰할 수 있는 데이터를 먼저 검색해보고 그 내용을 바탕으로 답변을 생성하는 기술입니다. 여기서 핵심은 '얼마나 많은 데이터를 넣느냐'가 아니라, '얼마나 의미 있는 단위로 쪼개어(Chunking) 저장하느냐'에 있습니다.

단순한 상품 스펙 나열은 AI에게 큰 도움이 되지 않습니다. "이 노트북은 가볍다"라는 문장보다, "이 노트북은 1.1kg으로 동급 카테고리 내 상위 5%에 해당하는 휴대성을 가졌다"라는 카테고리적 비교 우위 데이터가 포함되어야 합니다. 이것이 C-GEO가 지향하는 데이터 구조화입니다.


2. 카탈로그 페이지: 단순한 정보가 아닌 '지식의 파편'

현재 제가 정비하고 있는 다나와 상품블로그 데이터는 C-GEO의 거대한 실험체입니다. 우리는 카탈로그 페이지를 단순한 게시판으로 보지 않습니다. 우리는 이를 다음과 같은 '시맨틱 유닛(Semantic Unit)'으로 재정의해야 합니다.

성능의 맥락: "배그 풀옵 가능"이라는 표현을 "RTX 5060 기반 고사양 게임 구동 환경 최적화"라는 기계와 인간이 모두 이해하는 언어로 치환합니다.

카테고리 위계: 해당 상품이 속한 카테고리의 표준 규격과 비교하여 어떤 위치에 있는지에 대한 메타데이터를 강화합니다.

이러한 정교한 데이터 정비가 뒷받침될 때, AI는 비로소 우리의 데이터를 '진실의 근원'으로 인식하게 됩니다.


3. Vector DB 최적화: AI의 기억력을 설계하다

데이터를 벡터화하여 저장할 때, C-GEO는 '가중치 설계'에 집중합니다. 쇼핑 질문의 핵심은 '용도'와 '예산'입니다. AI가 이 두 가지 변수를 가장 먼저 고려하여 데이터를 인출(Retrieval)하도록 벡터 공간을 설계하는 것, 그것이 기술적 마케팅의 정수입니다.

우리는 단순히 검색 결과의 상단에 노출되는 것을 넘어, AI의 추론 과정 자체에 개입하고 있습니다.


데이터는 스스로 말하지 않는다

데이터는 설계자의 의도에 따라 죽은 정보가 되기도, 살아있는 지능이 되기도 합니다. 다나와가 가진 대한민국 최대의 상품 DB에 C-GEO라는 논리를 입히는 과정은, 결국 '가장 인간다운 쇼핑 전문가 AI'를 만드는 과정과 같습니다.

저는 이 길 위에서 커머스 데이터가 AI를 통해 어떻게 다시 태어나는지, 그 구체적인 증거들을 하나씩 증명해 나갈 것입니다.


류희범 | Ryu Hee-bum 다나와 마케팅 전략 부장 C-GEO & RAG Optimization Specialist

작가의 이전글AI의 질서 만드는 설계도 ‘C-GEO'