Cross Language Information Retrieval
요즘 각종 AI 들과 대화를 하다 보면 여러 도구에서는 아래와 같이 영어로 자연스럽게 다녀(?) 온다. Gemini 는 아마도 구글에 물어보겠고, Claude는 어디다 물어볼까 궁금하기도 하지만, 쿼리를 저렇게 친절하게 풀어서 적는다면 굳이 구글이 아니어도 되겠다 싶다. 질문이 WBC 2026 미국 탈락 시나리오... 여기 나와 있는 사이트들은 longtail 이랑은 아직 거리가 있어 보인다.
영어로 다녀 오는 이 방법은 꽤 오래 전부터 사용되던 CLIR(Cross Language Information Retrieval) 이라 불러 왔던 기법이고, 오늘의 주제는 구글 검색에서 이 내용을 직접적으로 구현하려 했던 당시의 기록, 기억들. '기억' 부류의 글이지만, 요즘 드는 생각도 한 스푼.
한국 검색 초기에 동료들과 함께 CLIR 과제를 꽤 진지하게 했었다. 당시 한글로 된 양질의 문서들이 꽤 부족했었기에, 상대적으로 풍부하고 좋은 영어 문서들을 검색 결과에 보여 줄 수 있지 않을까 했었고, 이를 유니버설 검색의 일부로 놓으면 유의미한 버티컬로 잡을 수 있어 진행하였는데, 이를 구현하기 위해서는 매 쿼리마다 다음의 일들이 순차적으로 진행되어야 했다.
1. 한글 쿼리를 영어로 번역
2. 영어로 구글에 검색
3. 유니버셜 검색에서 다른 검색 결과들과 비교. 더 나으면 표시
4. 상위 결과 3개 정도의 web result UI 들 ( title & snippet ) 을 한글로 번역
전체 페이지를 바꾸는 건 고급 메뉴 어딘가에 억지로 찾으려면 찾을 수 있던 기능이었지만 번역된 결과를 원래 결과에 어디까지 놓을 수 있을 지 실험들이 필요했다. 이 실험이 과제로서 의미 있게 잘 되려면 1. coverage/impact 가 높아야 하고, 2. 검색 결과의 품질에 향상이 기대되어야 하며, 3. 추가되는 비용이 의미 있게 적어야(?) 하는데.. 셋 다 각각 당시에 최고급 난이도의 문제들이어서 생각만큼 잘 안 되었다. 이를 진행하며 썼던 여러 기술들은 다양하게 쓰임이 있게 쓰였지만 이 기능 자체는 실험에서 많은 결과들을 모으는 정도로 자연스레 접혔다.
유니버설 검색의 일부가 되면 공통적으로 고민하는 부분인데, 쿼리를 보고 이 로직을 구동시킬 지를 먼저 파악해야 한다. 이 CLIR의 경우 쿼리는 한글인데, 영어로 검색하면 더 좋았을 걸.. 에 해당하는 쿼리들을 잡아 냈어야 했었다. 모바일 이전 데스크탑 시절 한국 구글에는 영어 쿼리가 생각보다 많아서 절반 정도까지 들어왔었는데, 네이버가 잘 하기도 했었고, 구글은 학술 쪽에서 많이 쓰여서 실제 영어로 번역해서 비교할 정도의 쿼리가 일반 쿼리에서 찾기 힘들었다.
본사에서 판단하기에 한국인은 영어를 아주 잘 쓰는 나라 사람들이라는 판단을 할 정도였고, 어렵게 찾은 학술 관련된 쿼리의 경우는 굳이 한글로 묻는 경우보다는 영어로 직접 발견이 가능했다. 다만 이 경우는 사용자가 직접 영어로 타이핑이 가능한 경우가 많았고, 구글 학술 검색의 결과와 충돌이 나는 상황이기도 했다. 전문 학술 영역에서 약간의 쓰임이 있었던 걸 빼면 외국 배우 이름을 한글로 타이핑하거나 외국의 뉴스 정도가 해당이 있었는데, 쿼리만 보고 얼마나 자주 이 로직을 실행시켜야 하는가에 있어 서로를 만족할 만한 숫자를 만들기 어려웠다.
여러 계층에서 품질을 이야기할 수 있겠지만, 직관적으로도 쿼리 번역의 품질, 검색의 품질, 결과 번역의 품질 그게 원래 검색 결과의 품질보다 나아야지만 의미 있는 결과물이 된다. 각각 90% 라 하더라도 이미 여기서 세 번 곱해지면 70% 언저리이고, 그 사이사이에 더 많은 사연들이 있겠다. 지금도 번역 자체의 품질 수치는 100%까지 되지는 않고, 2016년에 GNMT 이후 60% 정도가 되었다고 하니 당시에는 기도하는 심정으로 실험들을 돌렸던 기억이다.
기껏 열심히 영어로 다녀(?) 와도, 의외로 한글 쿼리에 대한 결과가 이미 그럴 듯하면 비교할 데가 없어진다. 친절하게 미리 번역을 해서 분석한 블로그가 이미 있거나, 외신 보도를 미리 해 놓은 한국 뉴스 등이 이에 해당하는데, 사용자에게는 translated by google 정도의 의미에 해당하기에 애써 외국의 좋은 사이트가 오더라도 어색한 한글 번역 때문에 손해를 보는 일들이 생긴다. 영미권에서 좋아하던 결과가 사용자의 클릭을 기대하는 모습이라 난이도가 높다.
한국에서 주로 시도했던 실험적인 과제였기에 여러 면에서 자유도가 있었지만, 실제 글로벌로 고민할 때 가장 큰 건 user latency 였다. 일단 기본적으로 critical path에 한영 번역 하나에 영한 번역 여러 번이 추가되어야 하는데, 이 추가적인 비용도 모든 쿼리에 할 건지, 임의의 쿼리에만 할 건지도 고민해야 한다. 일단 더 느려지는 건 어쩔 수 없는데 어느 정도냐가 관건이었고, if 조건을 집어 넣는다면 그것도 추가적인 비용, 특히 이 쿼리와 상관 없는 사용자들 모두, 심각하게는 전세계 사용자들에게 비용을 나누는 상황이 된다.
무의식적으로 영어로의 번역을 고민했지만, 실제 필요한 경우는 그렇지가 않다. 특정 영역에서는 일본어가 나을 것이고, 모든 걸 영어와 비교해야 하느냐와 100개 언어로 눈 감고 다 비교를 던져야 하느냐 같은 게 이슈가 되면서 글로벌 공식 서비스까지 갈 수 없는 이유가 되었다. 일단 영어를 기준으로 다양한 언어들이 번역의 토대를 만들었지만, 언어 번역 모델과 컨텐츠의 양은 다르게 풀어야 하는 문제이다.
ChatGPT 이후 달라진 요즘, 이 부분에서 꽤 격세지감 같은 걸 느낀다. 시간이 얼마 걸리든지간에 사용자가 꽤 참을성 있게 기다리고들 있다. 간단한 쿼리 등에도 5-10초 정도는 인내심이 있어들 보인다. 영어로 번역, 탐색 이후 한글로 다시 번역 등은 꽤 자연스레 받아들이는데, 당시 ms 가 나오면 흠칫 하며 한땀한땀 줄이던 노력들이 한편으로는 부질없다는 생각도 들곤 한다. 시대에 비해 너무 일찍 시도했었던 게 아니었을까 싶기도 하고, 좋은 표현으로는 낭만이라고 해도 될까 싶다.
한국에서 소버린 이야기를 할 때 생각하면 이 CLIR 이야기가 떠오르며 꽤 진지하게 걱정이 된다. 2026년 현재 기준으로 이미 번역은 풀린 문제인 지금, 언어와 별개로 한국어로 된 컨텐츠들이 영어에서 번역된 것들과 비교해서 싸워 이겨 줘야들 할텐데 싶다. 나라의 공식 문서들이나 한글로 ‘창작된’ 내용들이 명맥이 남아 있어야 할텐데.. 업계의 부침을 지켜봐 온 노파심에서 말하자면, 나라 관계자나 한국 기업들이 이 사안을 조금 더 무겁게 받아들였으면 하는 바람이 있다