뜻을 가진 가장 작은 말의 단위를 형태소(形態素)라고 한다. 한자로 풀면 글자의 모양(形 형)과 모습(態 태)을 만드는 바탕(素 소)을 뜻한다. 素(소)는 누에고치에서 뽑은 최초의 하얀 실에서 유래한 글자로 물건의 시초, 바탕을 의미한다. 따라서 형태소는 어떤 형태를 갖기 위한 최소의 기본 요소로 단어를 나누어 더 이상 작게 쪼갤 수 없는 상태가 되는 게 바로 형태소다. (수학에서 1과 자신만으로 나누어 떨어지는 1보다 큰 양의 정수, 소수 역시 이 바탕 素를쓴다)
형태소 분석은 자연어 처리에서 매우 중요한 기술 중 하나로 텍스트 데이터를 분석하여 단어의 의미와 문장 구조를 이해하는 데 사용된다. 형태소 분석을 통해 문장에서 단어의 품사, 의미, 문법적인 구조 등을 파악할 수 있고, 이러한 정보는 자연어 처리에서 다양한 분석 작업을 수행하는 데 필수적이다.
검색에서의 형태소 분석은 수집하는 문서에서 의미 있고 색인할 만한 정보를 제외하고는 다 잘라내고 버리는 작업이다. 좀 더 구체적으로 각 형태소의 문법적인 품사 정보를 규칙에 따라 부여해 색인 시 실질적인 의미를 가진 실질 형태소를 취하고 문법적인 보조 역할을 하는 접사, 조사 같은 의존 형태소는 버린다. 예를 들어 ‘하늘이 정말 푸르다’의 경우 ‘하늘’, ‘정말’,‘푸르’가 실질 형태소로 색인 대상이 된다.
검색 엔진은 형태소 분석을 통해 사용자가 입력한 검색어를 분석하고, 이를 기반으로 적절한 검색 결과를 제공한다. 예를 들어, "가로수길 맛집"을 검색어를 입력했다고 해보자. 검색 엔진은 이 검색어를 형태소 분석을 통해 "가로수길"과 "추천"이라는 단어로 잘라낸다. 이후, 검색 엔진은 이 단어를 기반으로 색인 된 문서에서 "가로수길"과 "추천"이라는 단어가 함께 있는 문서를 찾아 검색 결과로 제공한다. 이렇게 검색엔진은 형태소 분석을 통해 검색어의 의미를 더욱 정확하게 파악하고 검색어가 포함된 문서를 더욱 정확하게 찾아낼 수 있다.
하지만 형태소 분석이 항상 정확한 결과를 보장하는 것은 아니다. 형태소 분석기가 제대로 작동하지 않거나, 단어의 의미가 형태소 분석으로 충분히 파악되지 않을 경우 검색 결과의 정확도가 떨어질 수 있다. 이 부분을 보완하고 정확한 검색결과를 제공하려면 질 구축 된 형태소 사전을 사용하는 게 좋다. 형태소 사전은 형태소 분석을 할 때 취할 것과 버릴 것의 기준이 된다. 형태소 사전은 단어를 형태소로 분해한 정보와 각 형태소의 품사, 의미 등을 수록하는 있어 문장의 구조를 이해하고, 다양한 분석 작업을 수행할 수 있게 해준다.
기본적으로 문법과 어휘에 대한 형태소 사전이 있어 기본적인 형태소 분석 처리를 하고, 검색 엔진이 색인하고자 하는 대상의 특성에 따라 전문 용어 사전이나 사용자 정의 사전을 구축해서 같이 사용하면 품질이 더 좋아질 수 있다. 또 각 형태소는 모호성과 어휘 자체의 중의성이 있기 때문에 이를 감안한 형태소 분석이 이루어져야 한다.