다른 분들처럼 저도 ChatGPT를 써 보면서 놀라기도 하고, 대화형 검색이 보편화되는 시점이 생각보다 가까이 왔다는 생각을 했습니다. (최근 기사를 살펴보면 다른 검색 회사들도 비슷한 생각을 하는 것 같습니다.) 이번 글에서는 검색 결과 분석 및 평가를 중심으로 ChatGPT에 대한 대용 방안을 고민해 보려고 합니다.
본격적인 논의를 시작하기 전에 저의 사용 경험을 간단히 공유하면 다음과 같습니다. (현재 사용자가 폭주해서 종종 접속이 안되는 경우가 있지만 한번 시도해보시길 권합니다.)
1. 복잡한 질의에 대한 이해력
일반적인 검색 엔진은 질의 복잡성에 높아질수록 결과의 품질이 떨어지는 경우가 많습니다. 하지만 ChatGPT는 많은 경우 문장 형태의 질의에 포함된 다양한 constraint를 고려한 답변을 생성하여 보여줍니다.
2. 응답의 풍부함과 일관성(coherence)
대부분의 주제에 대해 Multiple Paragraph 수준의 응답이 나오고, 답변을 사람이 작성한 것과 구분하기 힘들 정도의[1] 일관성을 보여줍니다. 거의 바로 실행할 수 있는 코드나 SQL을 작성할 정도이니, 답변의 완결성은 상당한 수준입니다.
3. 대화가 이어질수록 답변이 충실해짐
이전 대화의 컨텍스트를 기억하고 이를 다음 응답에 반영합니다. 예를 들어 ‘요새미티 캠핑’에 대한 이야기를 하다가 ‘곰이 인간을 습격할 가능성’에 대해 물어보면 ‘요새미티에 서식하는 곰’에 대한 답변을 줍니다.
4. 답변의 진실성에 대해서는 약점을 보임
여기까지는 장점인데요, 아직 ChatGPT는 종종 전혀 사실과 다른 응답을 주며, 여기에 대한 안전 장치가 (응답의 신뢰도 및 출처에 대한 정보) 부재하기 때문에 장난을 넘어선 진지한 정보 탐색 용으로는 부적합해 보입니다. 단, 이미 관련 분야 연구가 활발히 진행되고 있습니다.
5. 최신 정보에 대해서 약점을 보임
이부분도 LLM 기반의 검색 서비스의 약점으로 알려져 있는데요, 역시 모델 업데이트의 주기를 조정하고 최신 정보 및 문서에 대한 대응을 추가하는 것은 크게 어렵지 않아 보입니다.
제 사용 경험을 요약하면 상술한 약점이 보완되었다고 가정할 때, 이미 특정 영역에서 (관련 문서가 풍부하게 존재하는 How To와 같은 영역) 기존 검색보다 더 나은 경험을 제공할 수 있다고 생각합니다. 아직 실제 서비스로는부족한 수준이지만, ChatGPT가 검색 회사의 제품도 아니고, 검색만을 위해 만든 제품도 아니라는 점을 기억합시다.
특히 (2)를 고려하면 매번 검색 Task를 다시 시작해야 하는 기존 검색엔진 대비, 대화 내 혹은 사용자의 기존 히스토리에서 추출한 Context를 향후 응답에 적극 활용할 수 있는 대화형 검색이 장기적으로 사용자에게 훨씬 큰 편익을 가져다 줄 것이라 예상합니다.
단 기존 검색을 대체하기 보다는 i) 요약이 가능한 답을 직접 찾아 보여주고 ii) 그렇지 않은 경우는 검색 결과를 보여주고 사용자의 선택을 유도하는 형태의 hybrid가 보편화될 것으로 보입니다. 물론 이를 위해서는 답변의 사실성이나 신뢰도를 판단하는 기술 개발이 선결되어야 합니다.
검색의 수익 모델 관점에서도 기존 검색 광고의 상대적으로 낮은 CTR과 노출 과다에 따른 사용자의 피로와 같은 부작용을 고려했을때, 사용자와 장기적인 관계 형성을 통해 니즈 파악 및 신뢰 형성이 이루어진 대화형 검색 서비스의 수익률이 더 높을 수 있다고 추측해 봅니다. (단 이를 위해서는 기존 검색 광고의 틀을 완전이 깨는 혁신이 필요합니다.)
이제 본격적으로 ChatGPT와 같은 LLM을 바탕으로 만들어질 대화형 검색의 평가를 생각해 봅니다. 우선 기존 검색엔진 대비 대화형 검색에서의 사용자 인터렉션은 다음과 같은 차이를 보입니다.
기존 검색 vs 대화형 검색의 사용자 인터렉션
여기서 핵심은 ‘검색’과 ‘대화’의 차이입니다. 검색은 인간과 기계의 인터렉션을, 대화는 인간과 인간의 (혹은 이에 상응하는 지적 존재) 인터렉션이라는 차이가 있습니다. 따라서 사용자 입장에서 검색 혹은 대화에 임하는 태도나 결과에 대한 기대치는 완전히 다를 것입니다. 이런 차이들은 검색 품질 평가 관점에서 다음과 같은 시사점을 갖습니다.
우선 기존 검색 엔진 사용자들은 (상대적으로) 짧게 입력한 키워드에 대해 관련성이 없는 결과가 나오는 것에 익숙합니다. 하지만 대화형 검색의 사용자들은 질의를 쓰는데 더 많은 노력을 기울이며 과거의 대화 컨텍스트 역시 답변에 반영될 것을 기대할 것입니다. 따라서 대화형 검색의 사용자들은 기존 검색 엔진 대비 훨씬 더 높은 기대치를 가질 것으로 예측됩니다.
또한 기존 검색엔진에서는 결과의 관련성을 파악하고 원하는 정보를 찾는 책임이 사용자에게 부여된다면, 대화형 검색에서는 이 역할이 검색엔진에게 부여됩니다. 이는 사용자 입장에서 큰 혜택이지만, 검색 결과의 신뢰도와 타당성에 대한 요구사항은 더 높아질 것입니다. 기존 검색 결과에 잘못된 문서가 포함되는 것이 단순 품질 이슈라면, 여기서 추출된 잘못된 사실이 올바른 것처럼 사용자에게 전달되는 것은 훨씬 책임이 큰 일입니다.
따라서 대화형 검색 서비스에 있어서는 출시 전 오프라인 평가가 기존 검색엔진 대비 훨씬 중요해 보입니다. 이를 위해 검색 질의어와 SRP의 쌍을 기준으로 품질을 평가하는 기존 오프라인 평가는 Multi-turn Dialog를 평가할 수 있는 방향으로 개편되어야 합니다. 결과의 평가 척도 역시 문서의 관련성이라는 틀에서 벗어나 개별 답변의 타당성과 신뢰성 등의 품질을 평가할 수 있는 방향으로 바뀌어야 할 것으로 보입니다.
반면 일단 서비스에 적용된 후의 온라인 평가에 관해서는 대화형 검색이 훨씬 더 많은 가능성을 제공할 것입니다. 클릭과 같은 사용자 행동에서 만족도를 추측해야 하는 기존 검색 엔진에 비해 대화형 검색에서는 사용자의 만족도를 대화 내에서 자연스럽게 물어볼 수 있기 때문입니다. 또한 사용자 역시 이런 피드백을 통해 더 나은 결과를 제공받을 수 있다는 기대가 있기에 적극적으로 응답할 것으로 보입니다. (아래 아마존 논문에서 발췌한 사례)
아래 표는 여러 최근 논문을 토대로 평가에 대한 기본적인 프레임워크를 요약한 것입니다. 평가 단위로는 개별 발화(utterance), 대화 전체, 사용자 단위의 만족도나 Retention과 같은 단위를 생각해볼 수 있습니다. 평가 방법론은 기존 검색 평가와 비슷하게 오프라인 (pre-launch) / 온라인 (post-launch)으로 나누어 생각해볼 수 있습니다. 평가 기준은 앞서 논의한 검색과 대화의 본질적인 차이 때문에 많이 달라지는 부분입니다.
이제 오프라인/온라인 평가로 나누어 관련 연구를 간단히 살펴봅시다. 우선 대화형 검색 결과에 대한 오프라인 평가는 아직 확립된 표준 데이터셋이나 방법론이 없는 상태입니다. 따라서 대부분의 대화형 LLM 논문에 실린 평가 결과는 각 연구에서 중시하는 품질 기준을 정의하고 이 기준에 근거한 레이블을 크라우드소싱을 통하여 수집하여 이루어지고 있습니다. 최근에 이런 평가에 대한 표준을 확립하고자 하는 노력도[3] 시작된 상황입니다.
또한 현재 대화형 서비스의 온라인 평가 관련해서는 거의 자료가 없는 상황입니다. 웹 검색 엔진과 마찬가지로 온라인 평가를 통해 얻을 수 있는 대화형 검색의 품질 시그널 역시 다양할 것으로 예상되면, 따라서 최근에 개발된 종합 품질 지표와 비슷한 프레임워크를 적용해볼 수 있을 것으로 예상됩니다. 아마존 알렉사 팀에서 발표된 논문에 따르면 사용자의 직접 피드백을 바탕으로 예측 모델을 만들고, 이를 통합하여 만족도 평가가 이루어지는 것으로 보입니다.
검색 기술은 PC 기반의 웹검색에 이어 뉴스 등 버티컬 검색 및 모바일 검색등 몇차례 격변을 겪은 바가 있습니다. 대화형 검색도 이미 음성 스피커 등의 형태로 제공되고 있는 기술이라 전혀 새로운 것은 아닙니다. 하지만 LLM으로 대표되는 최근의 기술 향상은 검색의 주도적인 형태가 조만간 크게 변화할 것이라는 예측을 가능하게 합니다.
단, 다른 인공지능 기술과 마찬가지로 실제로 많은 소비자들이 일상 생활에서 믿고 쓰는 수준에 도달하기까지는 많은 노력이 필요할 것으로 보입니다. 모델을 만드는 인공지능 기술 만큼이나 그 결과를 평가하고 분석하는 데이터 사이언스 기술도 중요한 이유입니다.
대화형 검색을 포함한 검색의 미래를 만드는데 함께할 여러분을 네이버 서치 DnA팀에서 모시고 있습니다!
[1] https://www.washingtonpost.com/technology/2022/06/17/google-ai-lamda-turing-test/
[2] The Characteristics of Voice Search: Comparing Spoken with Typed-in Mobile Web Search Queries https://dl.acm.org/doi/10.1145/3182163
[3] https://crfm.stanford.edu/helm/latest/