AI가 사실에 도달하는 새로운 방식
얼마 전 재미있게 봤던 넷플릭스 시리즈의 제목 ‘폭삭 속았수다’를 챗지피티 프롬프트 창에 써 봤습니다.
“폭삭 속았수다”는 제주어로
**“완전히 속았네요/ 아주 크게 속았어요”**라는 뜻입니다.
표준어의 ‘완전히’, ‘몽땅’을 뜻하는 폭삭(=폭삭 퍼지다의 ‘폭삭’)에,
과거형‧존댓말 어미 -았수다가 붙은 형태입니다.
따라서 자연스럽게 풀면
“완전 속아버렸어요.”, “아주 제대로 당했네요.”정도로 이해하시면 됩니다.
적당히, 어감을 바탕으로 ‘완전히 속았네요’의 뜻이라는 답을 내놓았습니다. 일종의 환각(hallucination)입니다. 아직 챗지피티의 지식 안에 이 표현은 없는 듯합니다.
이번에는 챗지피티의 <웹 검색> 버튼을 눌러 놓고 다시 ‘폭삭 속았수다’라고 써 봅니다.
그랬더니 이번엔 ‘정말 수고 많았어요/ 고생 많으셨습니다’의 뜻이라고 제대로 알려 줍니다. <웹 검색> 버튼 덕분에 모르는 것을 추측해서 말하는 게 아니라, 어디선가 정보를 찾아보고 그것을 참고해서 답을 했습니다. 핵심은 외부에서 관련 자료를 찾고(Retrieval), 찾은 정보를 바탕으로 답변을 생성(Generation)했다는 것이죠.
<검색과 생성, RAG>
회사 내부 문서 등을 벡터 DB, 검색 인덱스로 만들어 두고(*FAQ 참조), LLM(Large Language Model, 챗지피티 같은 대형언어모델)이 질문을 받으면 인덱스에서 관련 문서를 검색하고 이를 바탕으로 답변을 생성하는 것, 이것이 검색 증강 생성, RAG(Retrieval-Augmented Generation)입니다.
일반적으로는 사전 인덱싱한 특정 지식을 활용하지만, 웹 검색을 통한 실시간 정보 수집도 RAG의 한 형태라 말할 수 있습니다. 사전 구축된 지식을 기반으로 하는 전통적 RAG를 프라이빗 RAG라 한다면, 챗지피티의 웹 검색처럼 검색 엔진을 능동적으로 호출하고 활용하는, 도구 활용형 증강 검색을 웹 RAG라 부를 수 있습니다.
<서재 vs 도서관>
프라이빗 RAG = 내 책장에서 찾는 AI
집 안에 있는 책들만 책장에 꽂아두고 “AI야, 이 책장 안에서 찾아줘.”라고 말하는 것과 같습니다. 책장은 한 번 정리해 놓으면 그대로인데, 새 책이 들어오려면 직접 넣어줘야 합니다. 비유하자면 내가 책장에 있는 모든 책, 모든 페이지를 직접 훑어서 중요한 부분에 ‘포스트잇’을 붙여가며 분류, 정리해 둔 상태로, 이후 AI는 이 포스트잇을 보고 빠르게 필요한 문장을 찾아내는 것이죠.
웹 RAG = 동네 도서관으로 가서 찾는 AI
AI가 직접 동네 도서관에 가서 ‘폭싹 속았수다’에 관한 책이나 자료를 실시간으로 검색해 오는 구조입니다. 도서관은 매일 새로운 자료가 들어오고, 폐기도 되겠지요. 그리고 도서관 내부에는 이미 아주 큰 검색대, 분류 체계가 마련되어 있습니다. AI는 사서에게 요청하고 사서가 도서관 시스템을 사용해 선별해 준 자료를 가져와 읽고 요약하는 셈입니다.
어디에서 찾는지(데이터 소스)와 어떻게 정리되어 있는지(인덱스 방식)는 다르지만 프라이빗 RAG, 웹 RAG 모두 생성에 검색을 더해, 환각을 방지하고 정확한 정보를 제공하려는 목적을 가지고 있다는 것만 이해하시면 충분할 듯합니다.
<Perplexity>
우리가 쉽게 활용할 수 있는 도구로 퍼플렉시티(https://www.perplexity.ai)가 있습니다. Perplexity는 기본적으로 검색 기반 생성(Search-First Generation)을 기능의 중심에 두고 있어, 최신 정보나 출처 확인이 중요한 상황에서 안정적인 답변을 제공하는 장점이 있습니다.
무료 버전을 사용하셔도 좋지만 한국에서 PRO 이용권을 1년 간 무료로 제공하는 이벤트가 많이 있으니, 진행 중인 프로모션을 확인해 보시고 꼭 사용해 보시면 좋겠습니다.
FAQ
Q1. 검색 증강 생성(RAG)이란?
LLM이 답변하기 전에 외부 자료를 검색해 근거를 확보하고, 그 정보를 바탕으로 답변을 생성하는 방식입니다. 환각을 줄이기 위한 ‘검색 + 생성’ 구조입니다.
Q2. 인덱싱이란?
질문과 관련된 자료를 AI가 빠르게 찾을 수 있도록 하는 사전 정리 작업으로, 문서, 데이터를 검색하기 좋은 형태로 구조화하는 과정입니다. 예를 들어 수백 개의 PDF와 회의록이 있을 때, 내용을 분석해 챕터, 키워드, 요점을 미리 정리해 두면 AI가 “이번 프로젝트 일정 알려줘” 같은 질문에 곧바로 해당 문서를 찾아낼 수 있습니다.
Q3. 벡터 DB란?
문서와 질문을 의미 기반 숫자 벡터로 저장, 비교하는 데이터베이스입니다. 키워드가 아니라 ‘말이 다르지만 뜻이 비슷한 것’을 찾아주는 구조라고 이해하시면 됩니다. 예를 들어, 누군가 “회사에서 요약보고서 만드는 법?”이라고 물으면, 단어가 정확히 일치하지 않더라도 ‘보고서 작성 가이드’, ‘요약 문서 템플릿’, ‘업무 보고 방법’ 같은 문서를 의미가 비슷하다고 판단해 자동으로 찾아주는 방식입니다.
언어정보학 박사 엄태경
한국미래교육경영원 대표
AI 디지털 융합 교육 전문가
"기술보다 사람을 이야기합니다."