학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 문장은 삭제했습니다. 이번에는 앤드리슨 호로위츠 사이트에 올라온 글입니다.
1996년 당시, 와이어드(Wired)는 인터넷 초창기 시절 다양한 검색 서비스 제공업체들 간 경쟁을 다룬 기사를 보도했다. 당시(구글 이전, 페이지랭크 이전) 가장 큰 교훈은 모든 스타트업들이 인터넷 검색에 완전히 다른 방식으로 접근하고 있었다는 것이다.
야후는 카탈로그식 접근법을 채택했는데, 사이트를 사람이 직접 분류해야 했기에 매우 번거로운 작업이었다. 지금은 잊혀진 검색 백엔드 업체 잉크토미는 초보적인 크롤러를 사용했으며 자체 개발한 텍스트 관련성 알고리즘을 기반으로 결과를 색인화했다. 익사이트는 사용자 중심 검색 포털로, 웹의 역색인(inverted index of the web)을 활용해 유사한 프로필을 가진 사이트들을 언어적으로 판단해 클러스터링했다. 당시는 보다 단순한 시대였다..: 어떤 면에선 90년대 검색 기술 개발은 사서와 더 비슷했다.
그러나 이 모든 스타트업들은 2년 후인 1998년 설립된 구글에 의해 먼지 속에 묻혀버렸다. 구글 페이지랭크 알고리즘은 백링크 수를 통해 웹사이트 신뢰도를 판단했으며, 이는 인간이 인터넷을 탐색하는 최상의 방법이 되었고, 브랜드와 출판사, SEO 전문가들이 웹에서 자신을 홍보하는 핵심 수단이 되었다. 인공지능 시대가 도래하기 전까지, 인터넷 검색 문제는 대체로 해결된 것으로 여겨졌다.
이제 상황이 다시 변하고 있다. 많은 스타트업들이 벌이는 새로운 검색 전쟁을 우리는 최전선에서 목격하고 있다. 인간이 물리적으로 할 수 있는 것보다 더 광범위하게 웹을 크롤링할 준비가 된 에이전트들이 등장했고 그 영향력은 엄청나게 커지고 있다.
인간이 질문을 입력하는 대신 에이전트가 탐색과 검색 대부분을 수행하는 세상을 위해 우리는 검색 방식을 재고할 필요가 있고 현재 수십개 스타트업들이 이걸 놓고 경쟁 중이다.
25년 전 검색 시장에 뛰어든 각각의 경쟁자는 검색 제품(야후, 엑사이트, 알타비스타…)이었던 것과 달리, 이번에는 대부분 API 제공업체들 간 경쟁이다. 이들은 매우 빠르게 반복적으로 개발하며 급변하는 AI 검색 최신 기술을 통합한다.
웹 검색을 활용하는(딥 리서치, CRM, 기술 문서 등) 대부분 B2C 기업들은 자체 검색 스택을 구축하기보다 전문 업체들에 아웃소싱하고 있다. 반면 일부 대형 개발사들과 스타트업들은 소비자 대상 제품과 개발자 대상 API 서비스를 동시에 구축하고 있다.
지난 30년 이상 웹 검색은 인간을 위해 구축됐다. 이제는 에이전트를 위해 재설계되고 있다. 하지만 정보가 더 빠르게 노출되고, 많은 시간이 들어가는 연구가 가속화되며, 새로운 제품들이 개발됨에 따라 궁극적인 수혜자는 인간이 될 것이다.
AI를 위한 웹 색인화
현재 우리가 알고 있는 웹 검색은 주로 인간(또는 정확히는 마케터)에 최적화돼 있다. SEO 콘텐츠를 노출하고, 광고로 가득하며, 불필요한 정보가 많이 포함되어 있다. 이로 인해 개발자들은 불필요한 데이터를 대량으로 스크래핑하고 요약해야 하며, 여기에는 많은 비용과 시간이 소요된다. 현재 존재하는 웹 위에 AI 검색을 추가하려 한다면, 결국 수많은 쓰레기 정보를 표출하고 종합하게 될 것이다.: LLM의 잠재력을 훌륭하게 보여주기는 커녕 형편없는 결과를 얻게 될 것이다.
검색은 아예 처음부터 AI 네이티브로 구축될 수 있으며, 그래야 한다. AI 네이티브 검색 계층은 최신성과 길이에 대한 분명한 제어 기능을 갖추고, LLM 컨텍스트 윈도우에 직접 삽입될 수 있도록 가장 정보가 풍부한 텍스트 구간을 대상으로 해야 한다.
AI 네이티브 검색 계층은 콘텐츠 길이 및 실시간 신선도(real-time freshness) 같은 요소를 정밀하게 제어해 사용자에게 가장 유익한 텍스트 세그먼트를 제공하므로, 에이전트형 워크플로에 즉시 적용 가능하다. 우리는 AI 모델 공급업체, AI 검색 제품 개발팀, AI 검색 제품 기반 구축팀과 얘기를 나누면서 몇 가지 중요한 교훈을 얻었다.
종합적으로: 기존 웹 환경에서는 소수 검색 거대 기업(사실상 단일 기업)이 존재했지만, 이번에는 다수 검색 공급업체가 서로 다른 차원과 영역에서 번성하며 B2C 제품에 내장될 수 있다.
일부 선도적인 AI 기업들은 자체 검색 역량을 개발하기로 선택했지만, 대다수 조직은 외부 검색 제공업체에 의존할 것으로 예상된다. 웹 인덱스와 검색 인프라 유지 관리에 따르는 높은 비용과 기술적 복잡성으로 인해, 대규모로 운영되지 않는 한 아웃소싱이 더 매력적이다. 한 AI 모델 개발사가 우리에게 말했듯이, 결정은 소중한 엔지니어링 시간을 검색에 투자할 가치가 있는지, 아니면 다른 핵심 제품 개선에 투자할 가치가 있는지에 달려 있다. 해당 모델 팀의 경우 외부 제공업체를 선택하는 것이 더 합리적이었다.
이는 90년대 대비 오늘날 웹 엔지니어링 모범 사례가 얼마나 빠르게 반복적으로 확산되는지 고려하면 당연한 결론이다. AI 연구소에서 개발돼 제품화되는 많은 도구들은 GitHub와 X에서 개발자들 관심과 상상력을 사로잡은 오픈소스 저장소로 시작해 상류로 이동한다. 이를 통해 빠르게 확산되므로, AI 검색 분야 엔지니어링 결정이 수렴되는 현상은 논리적이다. 그 결과 현재 플레이어들은 25년 전 검색 업체들에 비해 엔지니어링 결정과 아키텍처 측면에서 훨씬 더 유사해졌다.: 그들은 훨씬 더 이른 시점에 효과적인 방식을 발견하고, 선택한 절충점을 최적화했기 때문이다.
결국 성능은 매우 중요하다. 구글처럼 전체 웹을 고품질로 재크롤링하고 재인덱싱하는 것은 결코 쉬운 일이 아니다. 이는 계산 비용이 많이 들고, 견고한 인프라를 필요로 하며, 방대한(페타바이트 단위) 데이터 정리를 수반한다. Exa와 같은 일부 기업들은 자체적으로 144개 H200 GPU를 구축하고 웹 데이터를 크롤링, 저장, 맞춤형 신경망 데이터베이스로 통합할 수 있는 방대한 URL 대기열을 수집하는 인프라 집약적 접근법을 채택했다. 한편 Parallel은 AI 에이전트에 최적화된 자체 대규모 인덱스를 유지하며 매일 수백만 페이지 데이터를 지속적으로 추가하고, AI 추론을 위해 설계된 신선하고 토큰 효율적인 발췌문을 제공하는 프로그래밍 가능한 검색 API를 제공한다.
Tavily나 Valyu 같은 다른 검색 기업들은 컴퓨팅 자원을 절약하는 주기적인 방식으로 웹 크롤링을 선택했지만, 특정 페이지를 재크롤링해야 할 시점을 알려주는 RL 모델을 활용한다. 예를 들어 블로그 게시물은 업데이트되지 않아 재크롤링이 필요하지 않겠지만, 역동적인 이커머스 사이트는 최신 가격 및 재고 정보를 반영하기 위해 매시간 업데이트가 필요할 수 있다. 이는 컴퓨팅 자원을 절약하기 위한 의도적인 절충안으로, 웹에서 가장 관련성이 높고 자주 방문되는 영역은 여전히 충분한 정확도로 노출되고 갱신될 것이라는 가정 하에 운영된다.
궁극적인 목표는 웹을 포괄적으로 색인화하면서도 비용, 정확성, 성능 간 균형을 맞추는 것이다. 우수한 색인은 인간(및 에이전트)이 현재 관련성이 있다고 판단하는 콘텐츠를 잘 포괄한다는 것을 의미한다.
AI 검색의 간략한 역사
2023년 그 먼 시절을 떠올려 보라. ChatGPT가 출시되었을 당시 인터넷 접근이 불가능했기 때문에, 응답이 낡은 정보에 기반하거나 불완전한 경우가 빈번했다. 재미는 제쳐두고, 이는 유용성 측면에서 큰 병목 현상이었다.: 특히 프로그래머들은 초기 LLM이 외부 문서에 접근할 수 없어 코딩이 거의 불가능하다는 것을 알게 됐다.
한 엔지니어 팀(이후 AI 검색팀 Tavily의 창립 멤버가 됨)은 오픈소스 프로젝트 GPT Researcher를 통해 이 문제를 최초로 해결했다. GitHub에서 2만개 이상 스타를 기록한 이 도구는 에이전트가 웹 소스를 탐색하고 검색된 정보를 추론 및 실행 루프에 통합할 수 있게 했다.
GPT 리서처는 검색, 요약, 합성을 결합한 '추론을 위한 검색(retrieval for reasoning)'이라는 새로운 패러다임을 정의하는 데 기여했다. 이는 오늘날 우리가 목격하는 딥리서치 및 추론 도구의 원형으로, 에이전트가 웹을 탐색하고 자료를 발굴하며 관련성과 정확성을 판단한 후 LLM을 활용해 유용한 요점을 선별하는 방식이었다.
이러한 기능은 불완전한 LLM 응답에 대한 첫 번째 방어선이 될 수 있다.: 2024년 ChatGPT 검색 기능 통합은 이 접근법을 입증했으며, 검색 인프라와 에이전트 기반 리서치 분야에 혁신 물결을 열어주었다.
AI 검색을 가능케 한 두 가지 주요 아키텍처 변화는 검색 증강 생성(RAG)과 TTC(test-time compute)다. RAG는 정적 훈련 가중치에만 의존하지 않고 최신, 도메인 특화 또는 독점 데이터를 질의하여 모델이 실시간으로 세계의 정보에 접근할 수 있게 한다. TTC는 모델이 추론 시 반복적 검색, 검증 또는 계획 루프를 활용해 답변을 개선함으로써 더 많은 추론 능력을 할당할 수 있게 한다. 이 두 기술은 정적 모델을 동적 추론자(dynamic reasoner)로 전환한다: 올바른 정보를 찾고 그에 대해 더 깊이 사고할 수 있는 시스템이다. 이를 통해 검색은 정적인 블루링크 유틸리티에서 상호작용형 지능 형태로 진화할 수 있었다.
이는 흥미로운 전환점이었다. 사용자들은 AI 기반 검색이 강력해지고 있음을 깨닫기 시작했지만, 정확한 추상화 계층은 여전히 불확실했다. 이상적인 최종 제품은 ChatGPT 위에 구축될 것인가, 아니면 완전히 새로운 검색 인프라 레이어가 등장할 것인가? 더 근본적인 검색 인프라가 필요하다는 점이 점점 더 분명해졌으며, 시장도 그 방향으로 움직이기 시작했다.
올해 초, 마이크로소프트는 퍼블릭 빙 검색 API를 중단하고 개발자들을 LLM 워크플로우 내에 빙 검색을 통합한 유료 '에이전트 빌더'로 유도했다. 마이크로소프트는 사용자들이 자사 스택 기반으로 구축하는 것을 우선시하며 에의도적으로 인덱스 기반 검색 서비스를 단계적으로 폐지한다. 이 상징적 행보는 분명했다: 마이크로소프트는 “에이전트 빌더를 빙 API의 우월한 후속 서비스로 인식해야 한다”고 선언한 셈이다.
현재 경쟁 구도: 플랫폼 대 제품
1996년 와이어드(Wired) 검색 관련 기사가 오늘날 AI 검색 분야의 신생 기업들을 다루며 재출간된다면, 접근 방식은 달라질 것이다. 현재 대부분 AI 검색 제품은 유사한 형태 API 플랫폼 서비스로 수렴되고 있다. 단일 통합을 통해 사용자 대상 제품은 API나 SDK를 활용하여 순위 지정 검색 결과 반환, 크롤링, 특정 웹 페이지 정보 추출, 심층 연구 수행 등 다양한 검색 기능에 접근할 수 있다.
깔끔하고 사용하기 쉬운 개발자 인터페이스를 통해, 이러한 검색 API는 에이전트 워크플로에 직접 연결되어 외부 데이터에 대한 접근을 제공하고 그 위에 직접 정보를 종합할 수 있게 한다.
그 결과 고객, 특히 개발자들은 오늘날 외부 검색이 통합된 자체 제품을 구축하고 있다: 웹에서 자동으로 정보를 보강하는 CRM, 실시간 문서에 접근할 수 있는 코딩 도구 등. 여기에는 미묘한 차이가 있다.: 일부 팀은 단일 공급자 올인원 엔드투엔드 솔루션을 선호하는 반면, 다른 팀은 자체 스택을 조립하는 방식을 선택한다. — 검색 솔루션 하나, 추론 솔루션 하나 등등. 사실, 이 차이는 더 깊이 파고들수록 더욱 미묘해진다.: 일부 API 공급자는 자체 인하우스 구축 대신 외부 인덱스를 실제로 사용하기도 한다.
소비자 지향적인 새로운 유형의 검색 제품도 등장하고 있다. ChatGPT는 2025년 2월에 딥러서치 기능을 공개했으며, Seda는 브랜칭 (branching) 및 결과 지정(result specification)과 같은 더 강력한 소비자 지향 리서치 기능을 구축 중이다. Exa는 Exa Websets를 출시하고 최종 사용자가 API 통합 없이도 Exa 검색 기능을 이용할 수 있게 했다.
이러한 개발자 중심 검색 제품들은 일반적으로 기존 AI 검색 인프라를 기반으로 구축되며, 사용 편의성과 유연성 사이에서 절충점을 찾는다. 예를 들어 Exa Websets를 사용하면 GTM 팀이 엔지니어링 팀 맞춤형 통합 없이도 즉시 리드 보강 작업을 시작할 수 있지만, 사용자 정의 로직을 추가하려는 경우 검색 워크플로를 맞춤 설정할 수는 없다.
고객사는 일반적으로 결과 품질, API 성능, 비용을 벤치마킹하여 공급업체를 평가한다. 그러나 표준화된 방법론은 존재하지 않으며, 테스트는 비공식 실험부터 정교하게 설계된 내부 ‘시험형’ 벤치마크까지 다양하다. 기업들은 특정 사용 사례에 대해 여러 공급업체를 병렬로 평가한 후 가장 우수한 성능을 보이는 업체를 선택하는 경우가 많다. 일부는 데이터 완전성이나 도메인 간 커버리지를 개선하기 위해 여러 공급업체를 동시에 활용하기도 한다. 예를 들어 속도 중심 공급업체와 복잡하거나 독점적인 쿼리 처리 공급업체를 결합하는 식이다.
현재 사용 사례
딥리서치
딥리서치는 검색 API에 가장 매력적인 사용 사례 중 하나로 부상했다. 이는 에이전트가 인터넷 전반에 걸쳐 폭과 깊이를 갖춘 다단계 개방형 연구를 수행할 수 있는 능력을 의미한다. 이러한 시스템은 인간이 수시간이 걸릴 작업을 몇 분 만에 실행하며, 종종 발견되지 않았을 정보를 찾아낸다.
OpenAI BrowseComp 벤치마크는 딥리서치가 제공하는 가치를 잘 보여준다. 단순한 사실 검색과 달리, 1,266개의 질문은 분산된 출처에 걸친 다단계 추론, 초기 검색 실패 시 창의적인 쿼리 재구성, 시간대 간 맥락 통합을 요구한다.
인간 전문가는 2시간 내 이 중 약 25%만 정확히 해결한다. 인위적으로 설계되었지만, 이 벤치마크는 규제 서류 시계열 추적, 파편화된 데이터로부터의 경쟁 정보 종합, 다층적 기업 소유권 매핑, 단 하나의 간과된 세부사항이 결과를 바꿀 수 있는 실사 수행 등 고위험 현실 업무 프로세스를 밀접하게 반영한다. Parallel은 고객이 이미 연구 보고서 작성 및 시장 조사 수행에 활용 중인 강력한 딥리서치 API를 제공한다. 우리의 새로운 관점은 딥리서치가 에이전트 검색의 주류이자 가장 수익화 가능한 형태가 될 것이라는 점이다. 고객들은 이미 고품질 연구 결과에 대한 지불 의사를 보이고 있으며, 에이전트가 단순 사실 검색에서 복잡한 종합으로 진화함에 따라 이러한 행동 변화가 가속화될 것으로 예상된다.
CRM 강화
AI 기반 검색 초기 주요 활용 사례는 CRM을 위한 리드(Lead, 가망고객) 강화 처리다. 리드 강화는 일반적으로 다양한 출처 개인 또는 기업 데이터를 통합하는 수동적이고 시간 소모적인 과정이다. AI 기반 검색은 관련 정보를 자동으로 찾아 수집할 뿐만 아니라 주기적으로 업데이트하여 최신성을 보장한다.
기술 문서/코드 검색
코딩 에이전트는 정확하고 고품질 코드를 생성하기 위해 실시간으로 업데이트되는 코드 예제와 문서에 접근할 수 있어야 한다. 프레임워크, API, 구문이 빠르게 진화함에 따라 정적 데이터셋은 금세 구식이 된다. 검색 API는 에이전트를 실시간 웹 소스에 직접 연결하여 항상 가장 최신이고 관련성 높은 기술 정보를 참조하도록 함으로써 이 간극을 메운다.
이러한 기능들이 어떻게 활용될지 우리는 이제 막 목격하기 시작했다. 검색이 AI 워크플로우의 기본 레이어로 자리 잡으면서 커뮤니티 포럼에서 직접 학습하는 에이전트부터 새로운 라이브러리와 프레임워크에 지속적으로 적응하는 시스템에 이르기까지 새롭고 매력적인 사용 사례가 등장하고 있다.
선제적 맞춤형 추천
실시간 웹 검색은 개인화된 실시간 추천을 제공하는 새로운 가능성을 열어준다. 지속적으로 업데이트되는 웹 데이터를 활용함으로써 애플리케이션과 에이전트는 각 사용자 상황과 선호도에 맞춰 관련 지역 행사, 유행하는 활동 또는 새롭게 부상하는 관심사를 선제적으로 제안할 수 있다.
결론
시장 전반에서, 우리가 인터뷰한 30개 이상 검색 API 고객사들은 주요 AI 검색 제공업체들 사이에서 제한적인 초기 제품 차별화를 경험하고 있다. 대부분의 업체들은 주로 속도, 가격, 통합 용이성으로 경쟁하며 순위 기반 검색, 웹 크롤링, 문서 추출, 딥리서치와 같은 유사한 기능을 제공한다. 그럼에도 불구하고, 이 환경은 빠르게 변화하고 있다. 일부 팀이 차별화 포인트를 제시하며 두각을 나타내기 시작했으며, 특히 딥리서치 분야에서 두드러집니다. “검색 API”와 “검색 API로서의 LLM” 사이 경계도 모호해지고 있다: 원시 검색 결과를 사용한 후 LLM을 필터로 적용하는 방식을 선택할 수도 있고, LLM이 이미 필터링된 결과를 제공하는 방식을 선호할 수도 있다.
앞서 언급했듯, 각 팀은 색인화 방식에 대해 서로 다른 아키텍처 접근법을 채택했다. 한 기업 고객이 지적했듯이, 공급업체들 '순위'는 끊임없이 변동 중이며, 다양한 플레이어들이 접근법에서 선택한 절충점이 시간이 지남에 따라 더 큰 차이로 발전함에 따라 이 분야는 우리가 가장 주목하는 흥미로운 영역 중 하나다. AI 등장 이전 수년간 검색 환경이 과도하게 복잡해지고 탐색이 어려워졌다는 점을 다시 한번 강조할 필요가 있다: 구글에서 관련성 높은 결과는 스폰서 링크 아래 묻혔고, 웹사이트 자체도 팝업과 광고로 가득 찼다. 따라서 에이전트에게 검색을 더 접근 가능하게 만드는 것은 인간에게도 더 접근 가능해지고 있다는 의미다.
30년이 걸렸지만, 인터넷 검색이 마침내 다시 진화하기 시작했다.