검색의 절대왕자 구글과 AI 데이터의 독점 논란

AI시대의 '석유', 누가 더 많은 데이터를 차지할 것인가?

by TEUM Lab

영국 경쟁시장청(CMA)이 구글에 대한 '전략적 시장 지위(SMS)' 조사에 본격 착수했다.

핵심 쟁점은 구글이 검색 시장에서의 독보적 지배력을 지렛대 삼아 생성형 AI 경쟁에서 부당한 우위를 확보하고 있는지 여부다.


이번 조사에서 특히 주목받는 것은 구글의 웹 크롤러(*1) 'Googlebot'이다.

이 봇은 검색 결과 생성을 위한 전통적 인덱싱은 물론, 'AI 개요(AI Overviews)' 등 실시간 AI 서비스에 필요한 데이터까지 동시에 수집하는 이중 구조로 운영되고 있어 논란의 중심에 서 있다.


검색 트래픽은 디지털 출판 업계의 사실상 생명줄이다. 웹사이트 운영자 입장에서는 검색 순위에서 밀려나지 않으려면 구글의 데이터 수집을 사실상 거부할 수 없는 구조.


클라우드플레어가 공개한 분석 자료에 따르면, Googlebot이 접근하는 고유 URL 수는 ClaudeBot이나 GPTBot 등 경쟁 크롤러를 압도적으로 능가하며, 그 격차는 최대 1,800배에 이른다.

결국 발행인은 '검색 노출을 위해 모든 데이터 수집을 허용하거나, 아예 검색에서 배제되거나'라는 양자택일을 강요받고 있으며, 이는 데이터의 가치를 두고 공정하게 협상할 수 있는 시장 자체를 원천 봉쇄하는 셈이다.


클라우드플레어는 이 문제의 해법으로 '크롤러 분리 의무화'를 제시하고 있다.

구글이 검색 인덱싱용 봇과 AI 학습·추론용 봇을 명확히 분리 운영하도록 규제하면, 발행인은 검색 노출을 유지하면서도 AI 모델 학습이나 실시간 추론에 자사 콘텐츠가 활용되는 것만 선별적으로 차단할 수 있다.


이 정책이 현실화될 경우, 콘텐츠 창작자들은 웹 검색에서의 가시성을 포기하지 않고도 자신의 지적 재산에 대한 실질적 통제권을 되찾을 수 있을 것으로 전망된다.


용어 풀이

*1 크롤러: 인터넷상의 방대한 웹페이지를 자동으로 방문하여 데이터를 수집하고 색인을 만드는 프로그램


- 출처: https://blog.cloudflare.com/uk-google-ai-crawler-policy/





웹 크롤링의 명과 암

웹 크롤러는 검색 엔진이 인터넷의 방대한 정보를 색인하고 사용자에게 연결해주는 필수 인프라다.

그러나 생성형 AI 시대에 접어들면서 크롤러의 역할은 단순한 '정보 안내'를 넘어 'AI 학습 원료 수집'으로까지 확장되었고, 이에 따른 폐해도 본격적으로 드러나고 있다.


AI 전용 크롤러의 공격적인 데이터 수집은 소규모 웹사이트의 서버에 과도한 부하를 야기하고, 검색 트래픽의 감소로 이어지기도 한다. 실제로 차트비트(Chartbeat) 데이터에 따르면, 2025년 한 해 동안 전 세계 언론사로 유입되는 검색 트래픽이 약 3분의 1 수준으로 감소한 것으로 나타났다.



저작권 침해 논란의 확산

AI 기업이 웹에서 수집한 콘텐츠를 모델 학습에 활용하는 행위가 저작권 침해에 해당하는지를 놓고 전 세계에서 법적 분쟁이 확대되고 있다.


미국에서는 구글이 검색 결과 데이터를 무단 스크래핑한 SerpApi를 상대로 소송을 제기했고, 레딧 역시 AI 기업 퍼플렉시티(Perplexity)를 데이터 무단 수집 혐의로 고소한 바 있다.


유럽연합(EU) 집행위원회도 구글이 웹 퍼블리셔의 콘텐츠와 유튜브 동영상을 창작자 동의 없이 AI 학습에 활용했는지를 조사 중이다.


현행 저작권법상 '공정 이용(Fair Use)' 항변이 AI 학습에도 적용되는지에 대한 법원의 판단은 아직 명확하지 않으며, 미국에서는 고의적 저작권 침해 시 저작물 1건당 최대 15만 달러(약 2억 원)의 법정 손해배상이 가능하다.



개인정보 보호와의 충돌

크롤러 문제는 저작권을 넘어 개인정보 보호 영역과도 직결된다.

웹 크롤링 과정에서 사용자가 공개한 게시글, 댓글, 프로필 정보 등이 무차별적으로 수집되어 AI 모델의 학습 데이터로 흘러들어가는 사례가 속출하고 있다.


이는 EU의 일반 데이터 보호 규정(GDPR), 미국 캘리포니아주의 소비자 프라이버시법(CCPA) 등 주요 개인정보 보호 법제와 정면으로 충돌할 수 있는 쟁점이다.

특히 개인이 스스로 삭제한 데이터라 하더라도, 크롤링 시점에 이미 수집·학습된 정보는 AI 모델에서 완전히 제거하기 어렵다는 점에서 '잊힐 권리'의 실효성에 대한 근본적 의문이 제기되고 있다.



'옵트아웃'의 한계와 구조적 비대칭

현재 웹사이트 운영자가 크롤러를 통제하는 대표적인 수단은 'robots.txt' 파일이다.

그러나 미국 법원은 robots.txt가 법적 구속력이 없는 단순한 '요청'에 불과하며, 이를 무시하더라도 기술적 보호 조치의 우회에 해당하지 않는다고 판시한 바 있다.


한편, 한국에서도 2026년 1월 창작자·저작권 단체들이 정부의 'AI 국가 전략 실행계획' 중 '선이용·후보상' 방침에 대해 공동 성명을 통해 강하게 반발하며, 저작물의 AI 학습 활용이 창작 경제를 훼손할 것이라고 경고했다.


크롤러 분리 의무화는 이러한 구조적 비대칭을 해소하기 위한 첫 단추로, 발행인과 창작자에게 '검색 가시성'과 'AI 학습 거부권'을 동시에 보장하려는 시도라는 점에서 주목할 만하다.

keyword
매거진의 이전글MIT, 합리적 인공지능을 향한 철학적 난제를 교육