이 글은 제가 삼성 SDS 인사이트 리포트에 기고한 'AI 시대의 데이터 전쟁 - 빅테크의 ‘사다리 걷어차기’ 전략'를 이곳 브런치에서 일부 공유 발행하였습니다.
AI 기술이 급부상하면서, 데이터를 둘러싼 테크 기업들의 전쟁이 격화되고 있다. 특히 거대 기술 기업들, 이른바 빅테크들은 자신들이 축적한 방대한 데이터의 가치를 그 어느 때보다 높이 평가하며, 이 데이터에 대한 외부 접근을 적극적으로 제한하고 있다. 이는 마치 성공한 이들이 자신들이 올라온 ‘사다리’를 치워버리는 듯한 행보로 느껴진다. 과연 이러한 데이터 접근 제한이 기술 발전과 사용자 경험에 어떤 영향을 미칠지, 그리고 이는 옳은 방향인지 심층적으로 분석해 보고자 한다.
최근 가장 두드러진 사례 중 하나는 바로 아마존 쇼핑의 행보다. 아마존은 다른 기업들의 AI 쇼핑 도구가 자사 커머스 사이트에 접근하는 것을 막기 위한 조치를 취하고 있다. 이는 구글의 새로운 AI 에이전트뿐만 아니라 퍼플렉시티, 앤스로픽의 클로드, 오픈AI의 챗GPT 등으로부터 봇 접근을 모두 제한하는 것을 포함한다. [1] 아마존의 이러한 변화는 웹사이트 코드를 업데이트하여, 타 기업 AI 에이전트의 차단을 추가하는 방식으로 이루어졌다. 검색엔진이나 AI 에이전트가 사이트의 특정 페이지를 수집(indexing)하거나 접근(crawling)하지 않도록 요청하는 목적의 'robots.txt'라는 파일 내용을 업데이트했는데, 이 파일은 법적 구속력은 없지만, 크롤러(구글, Bing, OpenAI, Perplexity 등)는 이를 ‘업계 규범’으로 존중하고, 따라야 할 규칙으로 인정한다. 현재 아마존의 robots.txt 파일은 구글의 프로젝트 마리너(Project Mariner) 에이전트와 다른 구글 쇼핑 에이전트, 그리고 오픈AI, 퍼플렉시티, 클로드의 크롤러를 명시적으로 제한하고 있다. [2]
이러한 조치의 결과는 이미 나타나고 있다. 최근 퍼플렉시티의 챗봇이나 챗GPT에서 아마존 상품을 검색했을 때, 직접 아마존 리스팅 페이지로 연결되는 대신 메이시스(Macy's)나 월마트(Walmart) 같은 다른 소매업체의 제품 링크나 아마존 상품을 큐레이션한 블로그로만 연결이 된다.
이는 아마존이 자사 상품이 외부 AI 챗봇이나 검색 도구 결과에 노출되는 것 자체를 막고 있으며, 자동화된 결제 AI 에이전트에 의한 자동 구매도 차단하고 있음을 시사한다. 구글은 지난 5월부터 웹을 탐색하고 사용자를 대신하여 구매를 포함한 작업을 완료할 수 있는 프로젝트 마리너 에이전트를 출시하기 시작했으며, [3] 또한 상품을 모니터링하고 가격이 하락하면 자동으로 구매하는 쇼핑 도구도 발표했다. 이러한 구글의 움직임에 대한 가장 큰 커머스 아마존의 대응은 매우 단호하다.
아마존의 이러한 극단적인 정책 변화는 단순히 외부 AI 에이전트의 접근을 막는 것을 넘어, 온라인 브랜드들의 핵심 비즈니스 모델과 직결되는 문제로 해석할 수 있다. 만약 챗봇이나 제품 추천 검색, 개인 쇼핑 에이전트와 같은 AI 도구들이 인기를 얻게 되면, 소매업체들은 고객들이 직접 자사 사이트를 방문하여 브라우징하는 횟수가 크게 줄어드는 상황에 직면할 수 있다. 이는 온라인 브랜드에 심각한 타격을 줄 수 있다. 이들은 고객과의 직접적인 연결과 사이트 방문자로부터 수집하는 데이터를 매우 중요하게 여기기 때문이다.
아마존과 같은 마켓플레이스는 쇼핑객들이 자사 사이트를 브라우징할 때 보여주는 광고를 통해 수익을 창출하며, 판매자들에게는 검색 결과에 상품이 눈에 띄게 표시되도록 수수료를 부과하기도 한다. 아마존의 경우, 지난해 광고 사업에서만 560억 달러의 매출을 올렸으며, 이는 주로 검색 광고에서 발생했다. 따라서 아마존은 외부 AI 도구들이 자사 사이트에 접근하는 것을 막음으로써, 매출의 일부를 희생하더라도 고수익 광고 사업을 보호하려는 것이다.
AI에이전트의 이러한 데이터 접근은 소비자들이 쇼핑 경험에 AI를 통합하면서 제품을 발견하게 되는 퍼널(product discovery funnel)이 완전히 바뀌는 과정을 의미한다. 더 중요한 사실은 이런 변화를 통해 제품 발견 과정에서 수익을 창출하던 모든 비즈니스 모델이 변화할 것임을 의미한다. 아마존은 이러한 변화 속에서 자사 광고 사업을 보호하고, 궁극적으로는 쇼핑 과정에 대한 더 많은 통제권을 갖기 위해 자체 AI 도구를 강화하고, 다른 회사들의 에이전트와 상호 작용하는 방법을 모색하고 있다. 루퍼스(Rufus) 챗봇과 같은 자체 AI 쇼핑 도구를 강화하며, 이 챗봇에 광고를 테스트하기 시작한 것도 이러한 맥락이다.
또 다른 “내 데이터 사수하기” 전쟁을 하고 있는 빅테크의 예를 들어보자.
AI 기술은 사용 중인 소프트웨어/서비스를 바꾸는 비용과 노력을 현저히 낮추고 있으며, 이는 기업 고객을 서로 뺏고 뺏기는 새로운 경쟁이 되고 있다. 과거에는 기업들이 마이그레이션이라고 하는 방대한 데이터를 기존 앱에서 다른 앱으로 옮기는 어려움 때문에 특정 소프트웨어에 묶여 있는 경우가 많았지만, 이제 아마존, 마이크로소프트, SAP, 세일즈포스, 팔란티어와 같은 빅테크 기업들의 데이터는 AI가 한 애플리케이션에서 다른 애플리케이션으로 옮기거나 오래된 앱을 새로운 형식으로 재프로그래밍하는 코드를 작성해줌으로써 이 문제를 좀 더 쉽고 간단하게 해결하고 있다.
일례로, 국방부를 포함한 미국 연방 기관들은 최근 마이크로소프트와 오픈AI의 AI 모델을 시험하고 있는데, 이는 팔란티어나 록히드 마틴과 같은 계약업체가 운영하는 다양한 분석 애플리케이션에서 데이터를 추출하기 위한 목적이다. 사실 데이터를 추출한다고 모든 비즈니스 프로세스가 동작하는 것은 아니지만, 마이크로소프트의 파워 BI와 같은 경쟁 분석 앱으로 데이터를 옮기겠다고 위협함으로써, 기존 서비스 프로바이더들과 협상 대응력을 높이려는 의도이다.
마이크로소프트 또한 AI를 활용하여 경쟁사 고객을 빼앗아 오려는 자체 계획을 가지고 있다. 마이크로소프트는 과거 세일즈포스와 같은 경쟁사 앱에 의존했던 고객들이 이제 더 기본적인 데이터베이스로 데이터를 옮기고 마이크로소프트 도구를 사용하여 같은 작업을 자동화할 수 있도록 제공한다. 이러한 변화는 특히 독점 소프트웨어에 오랫동안 묶여 있던 기업들에게 유리한 선택권을 준다. AI를 사용하여 마이크로소프트나 세일즈포스 같은 회사로부터 오픈소스 대안이나 경쟁 앱으로 전환할 수 있는 돌파구를 찾을 수 있게 되었다. 톰슨 로이터(Thomson Reuters)는 AWS가 제공한 무료 AI 도구 AWS Transform를 사용하여 윈도우 .NET 코드를 리눅스로 재작성한 후, 데스크톱 소프트웨어 유지 비용을 30% 절감했다. 마이크로소프트 라이선스 비용 없이 AWS 클라우드에서 운영할 수 있게 되었다.
기업 파일 및 데이터 검색에 AI 부가가치를 제공하는 글린(Glean)과 같은 AI 스타트업은 빅테크의 데이터 접근 제한이라는 거대한 장벽에 직면하고 있다. 글린은 직원들이 수많은 애플리케이션을 사용하며 정보를 쉽게 찾지 못하거나 어떤 앱에 어떤 문서가 있는지 기억하지 못하는 전통적인 문제를 해결하는 AI 데이터 검색 툴로 인기를 얻고 있다. 구글 검색 엔지니어 출신이 이끄는 글린은 연간 반복 매출 1억 달러를 넘어설만큼 탄탄한 성장세를 만들고 있다. 기업 고객의 데이터를 수십, 수백 개의 애플리케이션과 데이터베이스에서 수집하고 정리한 후 오픈AI, 앤스로픽 등의 모델로 구동되는 챗봇을 사용하여 특정 문서나 대화를 찾을 수 있도록 요청할 수 있게 한다. 지난달 글린은 IT 헬프데스크 요청 라우팅, 직원 온보딩과 같은 작업을 처리하는 에이전트 서비스를 출시했다.
그러나 기업용 메신저 서비스 슬랙(Slack)은 최근 다른 소프트웨어 기업이 사용 고객의 허락을 받았더라도 슬랙 메시지를 검색하거나 저장하는 것을 차단했다. 이 움직임은 글린과 같은 빠르게 성장하는 AI 스타트업들의 서비스에 큰 타격이 된다. 글린과 다른 애플리케이션들은 슬랙 API를 통해 데이터를 장기적으로 인덱싱하거나 복사하거나 저장할 수 없게 되었다. 세일즈포스는 이러한 회사들이 고객의 슬랙 데이터를 일시적으로 사용하고 저장하는 것은 허용하지만, 사용 후에는 반드시 데이터를 삭제해야 한다는 방침을 발표했다.
세일즈포스 CEO인 마크 베니오프는 AI 시대에 데이터의 전략적 중요성을 공개적으로 강조해왔으며, 글로벌 우량 기업 대부분이 자사 앱에 데이터를 저장하기 때문에 세일즈포스가 새로운 기술흐름에서 늘 유리한 위치에 있다고 주장한다. 슬랙 고객 데이터에 대한 접근을 제한하는 것은 세일즈포스가 자사 AI 제품 개발과 같은 목표를 위해 데이터를 본인들만 활용하려는 야심을 가지고 있음을 시사한다.
글린은 이러한 변경으로 인해 슬랙 데이터를 글린의 검색 인덱스나 지식 그래프에 추가할 수 없게 되어 엔터프라이즈 AI 플랫폼으로 데이터를 사용할 수 있는 능력이 매우 제한될 것이다. 또한 글린은 변경 후에는 슬랙 데이터를 "쿼리별로만" 접근할 수 있게 될 것이기에, 서비스의 유용성이 저하될 수 있는 비용이 많이 드는 변경을 해야 할 수도 있음을 의미한다.
흥미로운 점은 오픈AI조차도 이러한 데이터 전쟁의 영향을 받았다는 것이다. 오픈AI는 챗GPT를 기업의 핵심 생산성 앱으로 만들고자 했고, 이를 위해 고객들이 슬랙 메시지와 파일을 챗봇에서 직접 접근할 수 있도록 슬랙 통합을 원했다. 실제로 일부 챗GPT 고객들은 이 기능을 테스트할 수 있었다. 그러나 이 엔터프라이즈 앱 통합 기능을 3월에 출시하기 몇 주 전에야 세일즈포스의 결정으로 슬랙 통합이 더 이상 가능하지 않다는 결정을 내린다. 슬랙이 배포 예정 중인 새로운 API를 통해 일부 메시지에 접근할 수 있게 될 가능성도 있지만, 어떤 제한점이 있을지는 불확실하다. 이는 AI 기업들을 경쟁 위협으로 간주하는 전통적인 빅테크 기업과 AI 기업들 간의 격화되는 데이터 전쟁이다. 오픈AI의 멀티유저 채팅 및 협업 기능이 출시된다면 슬랙을 포함한 엔터프라이즈 앱에 경쟁 위협을 충분히 가할 수 있기 때문이다.
이러한 데이터 접근 제한 움직임은 비단 아마존이나 세일즈포스와 같은 거대 기업에만 국한된 현상이 아니다. SaaS 시대를 이끌었던 선두 주자들, 예를 들어 피그마(Figma), 아틀라시안(Atlassian), 노션(Notion)과 같은 기술 기업도 데이터 접근을 둘러싼 전쟁에 동참하고 있다.
글의 나머지 부분은 기고 발행한 삼성 SDS 인사이트 리포트의 이곳에서 읽어주시면 감사하겠습니다. 도움이 되셨으면 '좋아요'도 눌러주시면 더욱 감사드리구요.
저는 다음 글로 다시 인사드리겠습니다.