실전 튜토리얼 Elasticsearch × RAG(2)

Mar 6. 2026 brunch_membership's

제1편 | Elasticsearch 기본 개념 및 RDB 비교

제2편 | nori 분석기로 한국어 인덱스 구축하기

제3편 | RAG를 위한 다양한 검색 쿼리 실습

제4편 | 임베딩 모델을 활용한 Hybrid Search

제5편 | LangChain으로 RAG 구현하기

검색 시스템을 구축할 때 가장 중요한 요소 중 하나는 언어의 특성을 이해한 인덱싱 전략이다. 특히 영어 중심으로 설계된 많은 검색 기술을 한국어 환경에 그대로 적용하면 기대한 검색 품질을 얻기 어렵다. 영어는 단어 경계가 공백으로 명확히 구분되는 반면, 한국어는 조사와 어미가 결합된 형태로 표현되는 교착어이기 때문이다. 예를 들어 “사무실”, “사무실에서”, “사무실의”, “사무실로”와 같은 표현은 의미적으로 같은 단어를 기반으로 하지만 표면적으로는 서로 다른 문자열로 나타난다. 이러한 특성 때문에 단순한 문자열 기반 검색이나 공백 기준 토큰 분리만으로는 정확한 검색 결과를 제공하기 어렵다.

Elasticsearch 역시 기본적으로는 영어 중심의 분석기를 기반으로 설계되어 있기 때문에, 한국어 데이터를 제대로 검색하기 위해서는 형태소 분석 기반의 언어 처리 과정이 필요하다. Elasticsearch에서는 이를 위해 nori 분석기를 제공한다. nori는 한국어 형태소 분석을 기반으로 문장을 단어 단위로 분해하고, 조사나 어미와 같은 불필요한 요소를 제거하여 검색에 적합한 토큰을 생성한다. 이를 통해 사용자가 입력한 검색어와 문서의 의미적 일치를 보다 정확하게 판단할 수 있으며, 검색 품질 역시 크게 향상된다.

최근에는 전통적인 검색 시스템뿐만 아니라 AI 기반 검색과 RAG(Retrieval-Augmented Generation) 아키텍처에서도 이러한 언어 분석 과정의 중요성이 더욱 커지고 있다. 대형 언어모델(LLM)을 활용한 지식 검색 시스템에서도 결국 가장 먼저 수행되는 단계는 적절한 문서를 찾는 검색 과정이며, 이 단계의 품질이 전체 시스템의 성능을 좌우한다. 특히 한국어 데이터를 대상으로 하는 AI 서비스에서는 단순한 키워드 매칭이 아니라 형태소 기반의 정확한 인덱싱과 검색 구조가 필수적인 요소로 자리 잡고 있다.

이러한 배경에서 제2편에서는 Elasticsearch에서 한국어 데이터를 효과적으로 처리하기 위한 nori 분석기의 구조와 활용 방법을 살펴본다. 먼저 한국어 형태소 분석이 검색 품질에 어떤 영향을 미치는지 이해하고, 이어서 nori 분석기를 설치하고 인덱스에 적용하는 방법을 단계적으로 설명한다. 또한 실제 예제를 통해 nori 분석기가 어떤 방식으로 문장을 토큰화하고, 그 결과가 검색 쿼리와 어떻게 연결되는지를 확인할 것이다. 이를 통해 독자들은 한국어 검색 시스템을 구축할 때 반드시 고려해야 할 언어 분석 전략과 인덱스 설계 방법을 실무 관점에서 이해할 수 있을 것이다.