사내 데이터 검색증강 – RAG에서 KG²RAG로

RAG는 무엇이고 KG²RAG는 무엇일까? 차이점 기반으로

by 에스에프써티포

AI 성과의 진짜 열쇠는 데이터


2025년 현재, 많은 기업이 생성형 AI를 도입하고 있습니다.
하지만 기대만큼의 성과를 내는 곳은 드뭅니다.


그 이유는 단순합니다.
모델의 성능이 아니라, 모델이 접근하는 데이터의 품질이 낮기 때문입니다.

기업 내부에는 이미 수많은 데이터가 쌓여 있습니다.

사내 문서, 이메일, ERP·CRM 데이터, 로그, 이미지, 음성 파일까지.
그러나 대부분은 부서별로 사일로화되어 있고, 정합성과 최신성이 떨어집니다.


결국 AI 프로젝트의 ROI는 “얼마나 좋은 데이터를 준비했는가”에 달려 있습니다.


최근에는 단순한 RAG(Retrieval-Augmented Generation)를 넘어,
지식그래프 기반 RAG(KG²RAG) 접근이 주목받고 있습니다.

이 글에서는 기업의 데이터 준비성을 점검하는 방법과 함께 KG²RAG의 개념과 실제 적용 방식을 살펴봅니다.


RAG의 원리와 한계


� RAG란 무엇인가?

RAG는 **검색(Retrieval)**과 **생성(Generation)**을 결합한 구조입니다.

검색 단계 – 질문과 관련된 문서를 벡터DB에서 찾아냄

생성 단계 – 검색된 문서를 기반으로 LLM이 자연어 답변 생성


예를 들어, 직원이 “우리 회사의 휴가 정책은?”이라고 묻는다면,
RAG는 HR 문서를 찾아 요약된 답변을 생성합니다.


✅ RAG의 장점

모델을 수정하지 않고 기업 데이터 활용 가능

최신 데이터가 즉시 반영됨

도메인 특화 정보 제공 용이


⚠️ 하지만 이런 한계도 있다

검색 데이터가 부정확하면 답변도 왜곡됨

벡터DB 쿼리 + LLM 호출 비용이 지속적으로 발생

데이터가 많아질수록 검색 품질이 떨어짐


KG²RAG: 관계를 이해하는 RAG


� KG²RAG란?

KG²RAG는 **지식그래프(Knowledge Graph)**를 RAG에 결합한 방식입니다.
단순히 문서를 검색하는 것이 아니라, 데이터 간의 관계를 구조적으로 이해합니다.

전통적 RAG → “A사와 B사의 계약서”를 검색

KG²RAG → “A사가 2023년에 B사와 맺은 계약 조건”을 탐색


� KG²RAG의 장점

정확성: 단순 키워드가 아닌 관계 기반 검색

설명 가능성: 답변의 근거를 그래프 경로로 추적 가능

비용 절감: 불필요한 문서 검색과 LLM 호출 감소


ChatGPT Image Sep 4, 2025, 09_49_07 AM-1756946958073.png

KG²RAG 구현의 3단계


1. 스키마화 / 테이블화 (엔티티–관계 추출)

문서를 단순 벡터로 저장하지 않고, **엔티티(Entity)**와 **관계(Relation)**를 추출해 구조화합니다.

엔티티: 회사명(A사, B사), 날짜(2023년), 계약 조건(납품 수량, 금액 등)

관계: “A사–B사 (2023년 계약, 조건=XX)”


이렇게 추출한 정보를 테이블(DB) 또는 그래프DB에 저장합니다.
질문이 들어오면, 문서 검색 전 구조화된 관계 데이터에서 후보를 먼저 좁힙니다.


2. 벡터 + 그래프 혼합 접근 (KG²RAG 구조)

1차: 벡터 검색 – 관련 문서 후보를 탐색

2차: 그래프 쿼리 – 조건(연도=2023, 회사=A사·B사)을 만족하는 관계 탐색

3차: LLM 조합 – 추출된 관계를 자연어로 조립


이 과정은 단순한 “문서 검색”이 아니라 “지식 탐색”에 가깝습니다.


3. 기존 벡터만 쓴다면?

기존 방식은 문서를 chunk 단위로 나누고 메타데이터를 달아 검색합니다.

예:
company1=A사, company2=B사, year=2023, type=계약조건

검색 시 벡터 유사도 + 메타데이터 필터링을 적용하죠.
하지만 이건 관계 추적이 아니라 단순 필터링 수준입니다.
복잡한 질문일수록 정확도가 떨어집니다.


즉,

벡터 검색: “계약서 문서 전체”를 찾는 수준

KG²RAG: “A사–B사 계약 조건”이라는 관계 단위로 접근


데이터 준비성을 위한 체크리스트


� 데이터 수집

ERP, CRM, HR 등 시스템 인벤토리 작성

문서·이미지·음성 등 비정형 데이터 확보

접근 권한 및 보안 규정 점검


� 데이터 정제

중복 제거, 형식 통일

문서에 메타데이터 부여

PDF → 텍스트, 이미지 → OCR 변환


� 그래프 설계

도메인 스키마 정의 (예: 고객–계약–상품–결제)

공통 키를 이용한 엔티티 연결

자동 갱신 프로세스 마련


⚙️ 운영 단계

검색 정확도, 응답 시간, 비용 모니터링

잘못된 응답 피드백 → 데이터·그래프 개선

보안 및 권한 관리 체계화


실행 프레임워크: DARE 모델

Discover: 사내 데이터 자산 식별

Align: 데이터 표준화 및 스키마 설계

Refine: 품질 검증, 중복 제거, 보안 필터링

Enable: 그래프 기반 검색 + RAG 운영


이 네 단계를 통해 데이터 품질, 구조, 운영의 선순환을 만듭니다.


결론

AI 도입의 성패는 결국 데이터 준비성에 달려 있습니다.
아무리 뛰어난 모델이라도, 부정확한 데이터를 기반으로 하면 신뢰할 수 없는 결과를 내놓습니다.


RAG는 좋은 출발점입니다. 하지만 한계가 명확합니다.

KG²RAG는 그 한계를 넘어서는 새로운 접근입니다.

그러나 이를 구현하기 위해서는
그래프 설계, 데이터 거버넌스, 품질 관리가 필수입니다.

따라서 지금 기업이 해야 할 일은 분명합니다.

사내 데이터 인벤토리 구축

데이터 표준화 및 스키마 설계

RAG 운영 경험 축적 후 KG²RAG로 확장


AI의 본질은 ‘모델’이 아니라 ‘지식 구조’에 있습니다.
그 구조를 잘 설계하는 기업이,
결국 AI의 진짜 가치를 실현할 것입니다.


더 많은 인사이트를 얻고 싶다면, 렛플을 확인해보세요

https://bit.ly/4nGsEFC



작가의 이전글레트로 + 하이테크 감성 서비스 트렌드