11주차: RAG - AI의 거짓말을 막는 오픈북 전략

PART 3. [이해] 엔지니어와 대등하게 대화하기

by 꿈동아빠 구재학


AI를 업무에 못 쓰는 이유


4주차에서 배운 할루시네이션(Hallucination, 환각)을 기억하는가? 우리가 AI에게 알지 못하는 내용을 질문하면 AI는 자신 있게 거짓 정보를 답변한다. 9주차에서 그 이유를 살펴봤다. AI는 확률로 다음 단어를 선택하며 문장을 만든다. 학습하지 않은 정보는 패턴으로 추측할 뿐이다.


예를 들어보자. 법무팀 변호사가 회사 취업규칙을 질문한다면? AI는 실제로는 없는 조항을 그럴듯하게 만들어낼 수 있다. 결국 직접 규정집을 뒤져야 한다면 AI를 쓸 이유가 없다.


문제의 핵심은 명확하다. 회사 내부 정보, 최신 업계 동향, 우리 팀만의 규정처럼 AI가 학습하지 않은 정보일수록 거짓말 위험이 크다는 것. 그래서 많은 회사가 "AI는 참고만, 중요한 결정에는 쓰지 말자"는 결론을 내렸다.


10주차의 Fine-tuning은 어떨까? 회사 데이터로 AI를 재학습시키면 해결되지 않을까? 비용이 수천만 원에서 수억 원, 시간은 수주에서 수개월이다. 정보가 바뀔 때마다 다시 학습해야 한다. 현실적이지 않다.


더 쉽고 빠른 방법은 없을까? 있다. 오늘 배울 RAG(검색 증강 생성)가 바로 그것이다.



시험 방식을 바꾸면 문제가 풀린다


암기 시험 vs 오픈북 시험


신입사원 교육을 맡았다고 생각해 보자. 당신이라면 어떻게 가르치겠는가?


방법 A) 3개월 동안 모든 업무 매뉴얼을 달달 외우게 한다. 완벽히 암기한 후에야 업무를 시작한다. 매뉴얼이 업데이트되면? 다시 3개월.

방법 B) 첫날부터 실무를 시작한다. 모르는 게 생기면 매뉴얼을 찾아보게 한다. 매뉴얼이 바뀌어도 새 파일만 건네주면 끝.


당연히 B다. 그런데 AI를 쓸 때는 왜 우리가 A 방식을 고집해 왔을까?

Fine-tuning은 A 방식이다. AI의 뇌 속에 정보를 집어넣는다. 한번 들어가면 빼내기 어렵고, 바꾸려면 처음부터 다시 해야 한다.


RAG는 B 방식이다. AI 옆에 자료를 놓아둔다. 필요할 때만 참고하고, 언제든 자료를 바꿀 수 있다.

RAG는 'Retrieval-Augmented Generation (검색 증강 생성)'의 약자다.

문과생 언어로 번역하면 "자료 찾기 & 답변 만들기"다.


구체적으로 뭐가 다를까?


비유하자면 Fine-tuning은 암기 시험이고 RAG는 오픈북 시험이다. 정보가 어디에 있느냐가 핵심이다.

Fine-tuning은 AI 뇌 속에 정보가 들어가지만, RAG는 AI 옆에 자료가 놓인다.

준비 시간도 천지차이다. Fine-tuning은 수일에서 수주가 걸리지만, RAG는 즉시 시작할 수 있다. 비용은 어떨까? Fine-tuning은 수천만 원에서 수억 원이 들지만, RAG는 일반인들도 거의 무료로 할 수 있다.

업데이트 방식도 다르다. Fine-tuning은 정보가 바뀌면 처음부터 다시 학습해야 한다. RAG는 자료만 교체하면 끝이다.

보안 측면도 생각해 볼 만하다. Fine-tuning은 당신의 데이터가 모델 속으로 들어간다. 한번 들어가면 분리하기 어렵다. RAG는 데이터가 당신 손에 있다. 필요할 때만 AI가 참고한다.


도서관에 비유하면 어떨까. 모든 책을 외운 사서와 책을 빨리 찾아주는 사서. 새 책이 들어올 때마다 전자는 다시 외워야 하지만, 후자는 서가에 꽂기만 하면 된다.



오픈북 시험은 이렇게 진행된다


논문 쓸 때를 떠올려보자.

"이 주제에 대한 선행연구는?"라고 교수님이 물으면 당신은 어떻게 답하는가?

당신은 머릿속에서 답을 지어내지 않는다. 모아둔 논문 파일을 뒤져서 관련 부분을 찾는다. 그걸 바탕으로 답한다. 출처도 밝힌다. 자료에 없으면 "관련 연구를 찾지 못했습니다"라고 정직하게 말한다.


RAG가 바로 이렇게 작동한다.


실제 작동 과정을 보자


법무팀이 취업규칙 PDF를 AI에 업로드하는 시나리오를 생각해 보자.

1단계: 직원이 질문한다 "육아휴직은 몇 개월까지 가능해?"

2단계: AI가 자료를 뒤진다 업로드된 문서에서 '육아휴직' 키워드를 검색한다. 해당 조항(54조)을 발견한다. "육아휴직 기간은 최대 12개월"

3단계: 자료와 질문을 결합한다 AI는 찾은 내용과 질문을 함께 고려한다. [자료] 54조: 최대 1년 [질문] 몇 개월까지?

4단계: 출처와 함께 답변한다 "취업규칙 54조에 따르면 육아휴직은 최대 12개월까지 가능합니다."


그런데 만약 "재택근무 규정은?"이라고 물으면? AI는 "제공하신 문서에서 재택근무 관련 내용을 찾을 수 없습니다"라고 답한다.


없는 걸 지어내지 않는다. 이게 할루시네이션을 막는 핵심이다.



이제 진짜 업무에 쓸 수 있다


"그래서 실무에서는 어떻게 쓴다는 건가?" 궁금할 것이다. 몇 가지 활용 시나리오를 생각해 보자.


법무팀에서는

변호사가 매번 두꺼운 규정집을 뒤적이는 시간이 아깝다면? 취업규칙, 인사규정, 각종 내규 PDF를 AI에 올릴 수 있다. 직원들이 "연차는 몇일인가요?" "육아휴직 신청 절차는?"이라고 물으면 AI가 정확한 조항을 찾아 답한다. 신입 직원도 규정을 즉시 확인할 수 있다.


영업팀의 경우

제품이 복잡해서 신입 영업사원이 고객 질문에 버벅거린다면? 제품 매뉴얼을 AI에 올리는 방법이 있다. "A 기능 오류 시 대응법은?"이라고 물으면 매뉴얼 기반으로 정확한 답변이 나온다. 신입도 베테랑처럼 응대할 수 있다.


고객서비스팀이라면

상담사마다 답변이 달라서 클레임이 발생한다면? FAQ와 상담 매뉴얼을 AI에 올려볼 수 있다. 환불 정책, 교환 절차, 배송 규정. AI가 정확한 정책을 일관되게 안내한다. 고객 경험이 일관되고, 신규 상담사 교육 시간도 줄어든다.


HR팀에서 활용한다면

직원들이 같은 질문을 반복한다면? "연차 계산은?" "경조사 휴가는?" 인사 매뉴얼을 AI에 올리는 것을 고려해 볼 수 있다. 직원들이 직접 물어보고 즉시 답을 받는다. HR 담당자는 정말 중요한 일에 집중할 수 있다.


공통점이 보이는가? 회사 내부 정보에 대해 AI를 드디어 신뢰할 수 있게 된다는 것. 할루시네이션 걱정 없이 업무에 투입할 수 있다는 것.



당장 시작할 수 있다, 무료로


"그래서 어떻게 시작하냐"가 궁금할 것이다. 코딩 없이 오늘 당장 쓸 수 있는 도구들이 있다.


NotebookLM - 가장 먼저 써볼 것


Google이 만든 도구다. notebooklm.google.com에 접속하면 되고, 무료로 사용할 수 있다.

PDF, 워드, 텍스트 파일을 최대 50개까지 올릴 수 있다. 각 파일은 50만 단어 또는 200MB까지. 한국어 지원이 훌륭하다. AI가 답변할 때 출처를 자동으로 표시해 준다. 심지어 내용을 팟캐스트로 만들어주기까지 한다.

보안도 괜찮다. 당신이 올린 데이터는 모델 학습에 쓰이지 않는다. 노트북을 공유하지 않는 한 비공개다.

무료 도구 중 한국어가 가장 잘 되고 비즈니스 용도로 쓰기 좋다. 일단 이것부터 시작하자.


ChatGPT 파일 업로드


이미 ChatGPT를 쓰고 있다면 더 쉽다. 대화창에 파일 첨부 버튼이 있다. 클릭해서 파일을 올리면 된다. 무료 플랜도 된다. 파일 개수에 제한이 있을 뿐이다.

PDF, Excel, 이미지 등 다양한 형식을 지원한다. 익숙한 인터페이스라 진입 장벽이 없다.


Claude Projects


프로젝트별로 여러 문서를 관리할 수 있다. 긴 대화를 하면서 문서를 계속 참조해야 한다면 유용하다. 무료 플랜은 제한적이다.


Perplexity

실시간 웹 검색과 RAG를 결합했다. 최신 뉴스와 내가 올린 문서를 동시에 참고할 수 있다. 자동으로 출처 링크를 달아준다.



오픈북이지만 규칙은 있다


RAG를 쓸 때 알아야 할 것들이 있다.


보안은 당신 책임이다

무료 클라우드 서비스에 회사 기밀을 올리면 안 된다. 테스트는 민감한 정보를 지운 샘플로 하자. 상식이다.


쓰레기를 넣으면 쓰레기가 나온다

당연한 얘기지만, 오래된 자료를 올리면 오래된 답변이 나온다. 틀린 자료를 올리면 틀린 답변이 나온다. "Garbage In, Garbage Out." 컴퓨터개론에서 배우는 원칙이 여기서도 통한다.


만능은 아니다

여러 문서를 종합해서 새로운 통찰을 내놓기를 기대한다면 실망할 수 있다. 자료에 없는 내용은 답변할 수 없다. RAG는 특정 문제를 푸는 도구다. 모든 문제를 푸는 마법봉이 아니다.

하지만 충분히 강력하다. Hallucination 문제를 Fine-tuning처럼 비싸고 느린 방법 없이 실무적으로 해결할 수 있으니 말이다.


Weekly Mission: 내 자료로 오픈북 테스트 만들어보기


말로만 들어왔던 RAG를 직접 만들어 볼까요?


1단계: 자료 고르기

업무에서 자주 보는 문서를 골라보세요. 제안서, 매뉴얼, 보고서, 규정, 논문. PDF나 워드 파일이면 됩니다.

민감한 정보는 지우고 테스트하세요.


2단계: NotebookLM에서 실험

notebooklm.google.com에 들어가세요. 파일을 올리세요. 질문 3개를 던져보세요.

간단한 정보 찾기 1개 ("○○의 정의는?")

요약 요청 1개 ("핵심을 3줄로 요약해 줘")

분석 요청 1개 ("A와 B의 차이는?")


3단계: 검증하기

AI가 제시한 출처를 클릭하세요. 원본 문서에서 확인하세요. 정말 그 내용이 있나요? 정확한가요?




이번 주는 RAG로 AI에게 참고자료를 쥐어줬다.

그런데 생각해 보니 아쉽지 않은가? AI가 '자료 찾아서 답변하기'만 한다면?


다음 주에는 이 똑똑한 AI를 세상과 연결하는 법을 배운다. AI가 쇼핑도 하고 메일도 보내고 예약도 한다면? 폐쇄된 AI의 뇌를 외부 세계와 연결하는 API 이야기다. 기대해도 좋다.




참고자료

한국지능정보사회진흥원(NIA) - AI 활용 가이드북

나무위키 - 검색증강생성(RAG)

카카오클라우드 - RAG(검색 증강 생성)란?

피카부랩스 - RAG란? LLM의 한계를 극복하는 RAG 완벽 가이드 (2025)

AWS - RAG란? (검색 증강 생성 AI 설명)

Databricks - RAG(Retrieval Augmented Generation)이란?

IBM - RAG(검색 증강 생성)란?

캐럿 AI - NotebookLM 사용법 완벽 가이드(2026)