구글 검색의 노력들
구글 검색을 오랫동안 본업으로 담당했었다. 선배들이 닦아 놓은 자산들 위에 새로운 것들을, 그들이 미처 생각지 못한 것들을 해 내려 노력하던 시간은 나의 커리어 중 꽤 자랑할 만한 시기이다. 15년 전 이미 세상의 1위 솔루션이었지만 여전히 노력 중이었던 리더십과 기술 장인들, 여러 가지들을 배웠던 시간들을 뒤로 하고, 오늘 주제는 구글의 '원저자를 위한 노력', 그 중 authorship 과제이다.
극단적으로 간단하게 구글 검색을 설명해 보자 한다면, 쿼리에 대한 relevancy 에 대한 점수와 각 페이지들이 나타내는 popularity 에 대한 점수를 곱해서 order by 로 줄을 세우는 것이라 하겠다. 이 중 특히 popularity 를 사용자들의 도움 없이 얻으려는 pagerank 로부터 시작한 인용이라는 행동을 점수화 하는 것과 사용자들의 행동을 수치화 하여 이 popularity 를 주려는 노력으로 설명할 수 있겠다.
이 popularity 영역은 아이러니하게 구글 검색이 엔터프라이즈 시장에서 썩 잘 못하고 있는 이유이기도 하고, 반대로 public 세상에서 검색을 다른 엔진들이 구글만큼 못 해 온 이유이기도 하다. 챗GPT가 날고 긴다 하더라도, 아니면 어떤 특별한 모델이 잘 한다손 칠 때, 그래서 구글에 검색을 할 수 있는 agent 와 그렇지 못한 agent 가 있다면... 비교할 수 있을까 ?
현업에 있었을 때, spam fighting 으로 문제를 transform 할 수 있으면 구글이 아주 잘 할 수 있다 하였다. news contents 들이 있을 때도 그랬고, copy contents 들이 넘쳐날 때도 그걸 spam 으로 분류하는 방법으로 잘 할 수 있었다. 사진 등의 이미지를 copy 해서 쓰고 있는 contents 도 그랬고, 심지어는 구글 플레이에 우후죽순처럼 쏟아지는 저품질의 앱들이 있을 때에도, 이게 spam fighting 의 문제로 정의가 되면 꽤 많은 이전의 노력들을 얻을 수 있게 되었다. 자연스럽게 유튜브도 그럴테고, AI 가 만든 쇼츠들은 없애겠다고 하는게 한편으로는 당연한 거 아닌가 싶긴 하다.
지금도 넓은 의미의 스팸 혹은 garbage contents 들이 난무한다. 이전과 다른 점이 있다면 너무나 당당하게 AI 들이 그 역할들을 하고 있다. 한편으로 구글 검색이 망한다면 그건 AI-gen contents 들이 전 세상을 지배해서 모든 검색 행동들이 고장날 때라는 생각이다. 물론 구글은 최선을 다해서 그걸 막는 노력들을 하고 있고, 다른 시각으로는 agent 세상에서 다른 엔진들은 구글만큼 page quality 에 진심인가 묻고 싶긴 하다.
논문의 저자처럼 여러 모로 contents를 만드는 사람에 대한 가치를 꽤 오랫동안 쳐 주고 있었다. 자기 이름이 달려 있는 contents 들은 그게 주는 의미가 있었을 테고, 논문이 피인용되는 것과 같은 맥락이었으리라. 구글에 선수로 있던 시절에 내가 존경하던 leadership 중 하나인 Othar 가 주도한 과제 중 하나가 Authorship 이었다. 구글 plus 가 최소 지금의 linkedin 개인의 역할을 하면서 각각 HTML 의 header 에 저자를 google plus 의 형태로 놓자는 제안이었더랬다. GooglePlus 가 접히면서 같이 접혔던 과제였지만, 구글이 저작자를 꽤 많이 신경쓴다는 메시지는 충분히 전달되고 있었다.
구글 내에는 알게 모르게 원본을 발견해서 가중치를 주는 로직이 있어 왔다. 하지만 한편으로 내가 쓰고 있는 brunch , medium , linkedin post 등 다 내가 쓰지만, 다른 공간에 같은 내용인 경우, 이건 다 내가 쓰고 있는 내용들이고, AI gen 혹은 copy & paste 가 아닌데, 이걸 어떻게 알려 줘야 하나 등의 이슈가 있다. AI 가 흥하는 지금 세상은 더더욱 여러 포스트 등에서 남의 것을 가지고 자기의 스토리인양 펼치는 사람들도 많고, 정보 유통 유튜버들은 전공/전문가들보다 더 많은 것들을 알고 있는 것으로 포장되기도 하고, 이번 NeurlIPS 2025의 경우 AI generated 논문들이 지적당하며 ( https://gptzero.me/news/neurips/ ) 웃지 못할 상황들도 생긴다.
구글 플러스는 2019년에 접었지만, authorship 은 훨씬 전 2014년에 접혔다. 이후 vector space 가 적극 도입되면서 author vectors 가 사용된다. 2011년 정도부터 구글플러스와 같이 흥행하기를 기대하며 대표적인 검색 과제들 중 하나였지만, 아이러니하게 사용자들 입장에서 구글플러스를 굳이 만들지 않아도 되는 제품들이어서 그에 걸맞는 운명을 맞이하게 된다.
public 영역에서 여러 이슈들이 생길 때 '당신의 크롤러는 좋은 데이터들을 잘 가지고 오는가?' 라는 질문을 하게 된다. 업권의 비밀이겠지만, 한편으로는 자신들이 유리한 전장으로 이슈들을 이동시키는 것도 훌륭한 제주라는 생각이다.
몇몇 엔진에서 답변에 URL 이 포함될 때 사용자들은 생각 이상으로 마음 편하게 생각한다. 원시적이겠지만, 구글 검색에 보이는 web page 가 주는 안정감과 닿아 있으리라. RAG 를 쓰건 말건, MoE를 돌리건 말건, GPT 의 first response 가 용감하게 원전의 내용을 지닐 지, 다른 한편으로는 서로 다른 페이지들에서 같은 내용이 있을 때, 이걸 어떻게 index 하고 꺼내 쓸 것인지... 환각과 별개로, 우리는 사용자들에게 의미있는 가치를 주기 위해 어떤 노력을 하는가.. 묻고 싶은 순간들이 꽤 있다.
ps.
EEAT , search quality , 실험 등 하고 싶은 말도.. 궁금한 것들도 계속 생긴다.. ㅎㅎ