구글 서치 온 2020 리뷰
* 이 글은 KISA REPORT 2020년 10월호에 나온 글입니다.
구글이 검색 엔진을 처음 선 보이는 것은 1998년이다. 이후 많은 기술 진보가 있었고 지금은 키워드 외에도 이미지, 음성을 통한 검색을 할 수 있고, 더 많은 문서를 더 정확히 찾아낼 수 있다. 그럼에도 늘어나는 허위정보, 신뢰할 수 없는 정보, 루머의 확산으로 검색의 신뢰도는 더욱 중요한 문제가 되었으며, 검색은 단지 검색어에 대한 대답이 아닌 세상을 보는 창이 되었다.
지난 10월 15일 구글이 온라인으로 진행한 ‘구글 서치 온 (Search On) 2020’ 행사에서는 구글이 지금 그리고 앞으로 개선하고자 하는 검색의 방향을 볼 수 있는 의미 있는 행사였다.[1]
구글 검색 분야 헤드인 프라바카 라가반(Prabhakar Raghavan)이 발표한 이 행사에서 그는 앞으로 구글 검색이 지향하는 네 가지의 키워드를 제시했다. 특히 코비드-19 상황에서 구글 검색 기술이 어떻게 새로운 용도로 활용되는지를 여러 사례를 통해 설명했다.
세상 정보에 대한 이해
최고 품질을 갖는 정보
세계적 수준의 보안과 프라이버시
모든 사람을 위한 오픈 액세스
세상에 대한 정보에서 가장 기반을 이루는 것은 사람, 장소, 사물에 대한 지식 그래프이다. 세상에 대한 정보를 보다 광범위하게 제공하기 위해서 구글은 2007년부터 스트리트 뷰를 구현하기 위한 차를 운행하면서 세상에 대한 정보를 확보했으며 이제는 검색에서 이 정보를 모두 사용할 수 있는 것이다.
코비드-19 시대를 대응해 구글은 기존의 바쁨 수준 지표를 확장해 특정한 해변, 식품점, 약국 등의 장소가 얼마나 현재 사람들이 몰렸는지 보여주는 구글 지도에서 보여주며, 검색과 지도를 통해서 코비드-19 안전 정보도 제공하기로 했는데, 예를 들어 체온 측정을 하거나, 아크릴 수지로 만든 보호막 등을 제공하는지를 사업체 프로파일에 표시해주기로 했다.
구글이 검색에서 인공지능 기술을 도입해 좀 더 지능 검색이 이루어지게 한 것은 이미 BERT 기술을 통한 검색 기능 강화에서 보여줬다.[2]] BERT 기술을 통해 자연어 검색의 의미를 좀 더 명확히 분석해 사용자의 질의어에 좀 더 정확하게 매치되는 웹 문서를 보여주도록 한 것이다. 이미 2019년에 이 기술을 한국어, 힌디, 포르투갈어 등 12개 이상의 언어에 적용해서 많은 개선을 보여주었다.
자연어 처리 기술을 통한 기능 개선으로는 이제 BERT는 모든 영어 검색어에 이 기술을 사용하며, 이를 통해 영어로 된 검색어를 10% 정도 더 잘 이해한다고 한다. 추가로 새로운 언어 모델을 도입해 좀 더 정확한 스펠링 제시어를 제공할 수 있는데, 이 모델은 6억8천만 개의 하이퍼파라미터를 사용하며, 3 밀리세컨드 이하로 처리한다.
2년 전에 발표한 인공지능 음성 비서 듀플렉스를 통해서 지금까지 백만 건 이상의 장소 예약을 했으며, 이번 코비드-19 상황에서는 8개의 국가에서 사업장이 여는 시간이나 픽업이나 배송이 가능한지 확인할 수 있게 했다.
7월에는 이미지 검색에서 지식 그래프를 통해 이미지와 관련된 간단 정보를 제공하도록 했다. 한 분석에 따르면 이미지 검색은 현재 구글 검색의 12.4%를 차지한다고 하는데, 이 중 일부는 관련이 없거나 조작된 것이라고 한다. 그래서 구글인 팩트 체크 레이블을 붙여서 잘못된 이미지를 확인하도록 했다.[3]
이미지를 선택하면 관련된 토픽 리스트를 보여주는데, 예를 들어 사진에 찍힌 강의 이름이나 그 강이 있는 도시를 알려주는 것이다. 이런 정보는 이미지가 있는 웹 페이지를 가기 전에 인공지능을 통해 시각적이거나 문서에 있는 신호를 평가해서 제공하는 것이다.
구글은 2019년에만 검색을 개선하기 위해 3600번 이상의 업데이트를 했다고 한다. 구글 검색은 이제 전체 웹 페이지가 아니라 웹 페이지 내의 단락 구문을 개별적으로 인덱싱을 하는데, 이를 통해 모든 언어에서 검색 질의를 약 7% 개선했다고 한다.
인공지능 기술은 검색어의 토픽과 하부 토픽을 구별할 수 있도록 도와주는데, 인공지능을 이용해 웹페이지의 뉘앙스를 파악하고, 관심이 있는 하부 토픽을 이해하도록 해서 좀 더 넓은 의미의 다양한 콘텐트를 제시한다. 예를 들어 ‘가정에서의 운동’이라는 검색을 하면 저렴한 장비, 프리미엄 제품, 작은 공간 아이디어 등을 보여주는 것이다.
구글이 이번에 인공지능을 이용해 검색의 수준을 높이고자 하는 영역에는 영상 데이터 분야이다. 비디오 내용의 의미를 보다 깊이 있게 분석해서 전체 비디오를 다 보지 않아도 검색어에 대응하는 부분을 특정해서 볼 수 있게 할 예정이다. 구글의 예상으로는 검색의 10%는 이 기능을 사용할 것으로 본다. [4] 이 기능은 앞으로 개발할 예정이다
공개 지식 저장 서비스인 데이터 커먼스(Data Commons) 프로젝트와 제휴해서 공공 데이터셋의 데이터를 결합해 웹과 모바일 검색에서 결과를 보여주도록 했다. 이를 통해 ‘시카고의 고용 현황’ 같은 정보를 바로 보여줄 수 있도록 했으며, 그래프를 바로 작성하도록 한다.
이커머스와 쇼핑을 위해서는 증강 현실(AR)로 제품을 보여주도록 하는 클라우드 스트리밍 기술을 구현했는데, 예를 들어 볼보나 포르쉐와 같은 자동차를 검색하는 스마트폰 사용자는 자동차의 핸들이나 다른 상세한 사항을 줌인하면서 볼 수 있도록 했다. 지도에서 라이브 뷰(Live View)는 걸어가면서 레스토랑 정보를 빠르게 볼 수 있도록 AR 기능을 사용할 수 있게 했다.
이 밖에도 이번과 최근에 구글이 발표한 검색 기능 개선이나 추가는 다음과 같다.
구글 렌즈에서는 이제 외국어를 번역해주는 것만 아니라 발음을 해 줄 수 있으며, 수학 문제를 풀도록 도와줄 수 있다. 또한 상품 검색에서 구매자들이 유사한 상품을 증강 현실 방식으로 살펴볼 수 있도록 했다.
허밍이나 휘파람 소리를 기반으로 노래를 찾게 했는데, 아이폰에서는 영어에서만 가능하고 안드로이드에서는 20개 언어를 지원한다. 10-15초 동안의 허밍이나 휘파람을 통해 노래 검색이 가능하다. 이 역시 머신 러닝 기술을 이용한 것이다. 이를 위해 각 노래에 대해 사람이 노래한 것, 휘파람이나 허밍, 스튜디오 녹음 등의 소스 데이터를 학습시켰다.
9월에는 자연 재해에 대한 속보를 더욱 빠르게 감지하고 검색할 수 있도록 인공지능 기술을 활용했는데 이를 통해 몇 년 전에는 40분 걸리던 것이 이제는 몇 번 안에 시스템에서 확인한다
뉴스와 팩트 체크에서도 인공지능 언어 모델을 통해 기능을 계속 개선하고 있다.
구글의 이번 발표는 이제 검색의 중심에 인공지능이 있음을 선언하는 것이며, 검색의 가장 큰 숙제인 검색어의 의도를 얼마나 정확히 파악해 언어뿐만 아니라 세상에 대한 이해를 제공하겠다는 의지이다. 이를 위해서는 언어와 토픽에 대한 이해가 더욱 강화되어야 하며, 고급의 콘텐트가 어느 것인지 알아야 한다. 여기에는 딥러닝 기술로만 해결하는 것이 아닌 광범위한 지식 그래프가 중요한 역할을 한다는 점을 잊지 말아야 한다. 특히 앞으로 웹사이트를 만드는 사람들에게는 고급의 콘텐트가 더 검색에 유리하다는 점을 인식해야 하며, 관련성이 높은 내부 문구가 중요 해진다는 것을 의미한다.
참고 문헌
[1] https://searchon.withgoogle.com/
[2] Google, “Understanding searches better than ever before,” Oct 25, 2019
[3] VentureBeat, “Google’s Ai looks beneath the surface for information about people, places, and things in images,” Jul 8, 2020
[4] VentuerBeat, “Google details how it’s using AI and machine learning to improve search,” Oct 15, 2020