brunch

매거진 About Snippod

라이킷 11 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by shalomeir Dec 05. 2023

다가오는 AI시대를 위한 웹 크롤링 표준 개선 방향

구글 검색 팀에서 주도하고 있는 Robots.txt 프로토콜 개선 참여

최근 LLM 등 생성 AI 모델은 주로 인터넷의 공개된 콘텐츠를 크롤링하여 만들어집니다. 이런 AI가 생성한 새로운 콘텐츠들은 원본 콘텐츠 생산자의 명시적 동의 없이 크롤링 되는 경우가 많습니다.

AI에서 사용되는 콘텐츠 범위는 계속 넓어지고 있고 콘텐츠 생산자는 본인 소유 콘텐츠가 어떤 경우에만 허락할지 결정하고 싶지만, 현재의 웹 크롤러는 이러한 AI 목적에 세분화된 목적과 권리 표현이 어렵습니다. 게다가 RAG (Retrieval-Augmented Generation) 와 같은 AI 확장 기술들은 모델이 아닌 서비스로서 인터넷에 공개된 콘텐츠를 가져와 활용하는데요. 이러한 방식으로 콘텐츠가 이용되는 것에 대해 “콘텐츠 생산자가 동의를 했는가?” 등 관련 논의 역시 아직 충분히 이뤄졌다고 볼 수 없습니다.

현재 기존 Robots.txt 프로토콜 을 활용해서 크롤링 될지 여부를 호스트에서 의사 표시할 수 있는데 이 방식은 주로 “All or Nothing” 으로 사용됩니다. 또한 개별 Bot 이름을 사용해야 하기 때문에 콘텐츠 생산자의 의도를 제대로 표현하기 어렵습니다. 예를 들어 OpenAI GPTBot 은 ‘User-agent’: GPTBot 을 통해 차단 여부 의사표시를 하도록 가이드 하고 있습니다. 호스트는 이렇게 특정 봇 이름을 알고 있어야 비로소 의사 표현을 할 수 있습니다. 이러한 Robots.txt 프로토콜의 한계점은 AI 콘텐츠 시대에 더 큰 문제가 될 것입니다.

최근 구글은 2023 Google I/O 중 향후 AI 콘텐츠의 사용성을 고려한 프로토콜 업데이트 협의(AI Web Publisher Controls)를 제안했습니다. 이는 전 세계 기술 및 콘텐츠 퍼블리셔의 참여를 요청하는 첫번째 단계입니다.

이 협의는 구글 검색 관계 관리 (Google Search Relations Team) 팀이 주도하고 있으며 이 팀은 구글 SEO 에 대한 가이드와 구글 봇 표준을 관리합니다. 이 협의를 통해 새로 업데이트되는 Robots.txt Protocol 은 Google Bard, Vertax AI 에 적용될 계획이라고 하구요. 이렇게 되면 사실상의 웹 표준으로 받아들여질 가능성이 높습니다. 그렇기 때문에 이 논의가 향후 AI 콘텐츠에 대한 공개적 사용 기준이 될 수 있습니다.

그리고 최근 AI Web Publisher 킥오프가 2023.10.27 에 있었습니다.

Google Search Relations Lead John Mueller 이야기하는 robots.txt 의 현재

Google Search 팀 2023.10.27 올린 AI Web Publisher Controls Kickoff 영상

위 영상에서 이 논의에서 다뤄져야 하는 주요 4가지 담론을 이야기하는데 다음과 같습니다.

* 담론 4가지 Slides PDF 참고

Alignment (일치성)
크롤링 봇이 과거 주로 검색과 웹에 중점을 두었다면 이제 AI 산업으로 영역이 확장되고 있습니다. 구글은 이 변화를 반영하여, AI 목적에 부합하는 포괄적인 컨트롤을 가능하게 하는 새로운 Robots.txt 프로토콜 옵션과 분류 체계를 도입하고자 합니다. 웹 콘텐츠 생산자를 포함한 모든 이해관계자들이 일관된 기준을 갖추는 것이 중요합니다. 특히 웹 콘텐츠 생산자는 40억개 이상의 호스트가 존재하는데, 이러한 40억개 호스트가 최대한 영향을 받지 않도록 하는 표준을 만드는 것이 매우 중요하다고 보고 있구요.=

Transparency (투명성)
봇이 콘텐츠 호스트에 접근할 때, 봇이 왜 접근하는지 목적을 분명하고 투명하게 밝히는 것이 필수적입니다. 호스트는 정보를 바탕으로 콘텐츠 접근 여부를 결정할 수 있구요. 이러한 표준을 잘 지키기 위해 구글 검색 봇은 충분한 정보를 제공하고 있고 다른 봇들도 따르길 기대하고 있는데요.. (이 논의를 주도하는 팀이 이 역할을 하니까 더 신경쓸것 같은 사안이네요.) 이를 위해 봇 정보를 중앙에서 등록하고 호스트가 접근가능한 레지스트리 도입도 하나의 대안으로 언급됩니다.

Granularity (세분성)
검색엔진과 생성 AI 애플리케이션의 사용 목적과 방식이 서로 다르므로, 이를 구분하는 것이 중요합니다. AI의 목적 세분화는 필수적이지만, 너무 세분화되면 부작용을 초래할 수 있습니다. 새로운 목적과 사용 방식을 가진 크롤러가 등장함에 따라, 이러한 새로운 유형이 호스트에 미치는 영향도를 최소화하는 것이 중요합니다.

Adoption (적용성)
이 프로토콜은 구글 등 검색 업계 뿐 아니라 관련된 인공지능 업계, 스타트업 그리고 웹 콘텐츠 생산자에 이르기까지 많은 이해 관계자에 영향을 미칩니다. 최대한 많은 관계자가 이를 존중하고 적용할 수 있어야 비로소 제대로된 표준으로서 기능할 것이기 때문에 보다 쉽게 많은 관계자가 이를 적용할 수 있도록 만들어야 합니다. 이를 위해 다양한 도구가 만들어져야 할 수도 있구요. 봇에서 사용되는 인증서 탑재도 고려될 수 있습니다.

이러한 논의에 참여하고 싶으시면 지금 바로 아래 mailing list 에 메일을 입력하면 됩니다.

AI Web Publisher 메일링 참여 신청

현재, 첫 번째 피드백 일정이 11월 28일에 종료되었습니다. 이에 대한 정리된 내용은 구글에서 곧 공유될 예정입니다.

이번 kick-off 논의가 대중적인 관심을 크게 받지는 못했지만, 앞으로 Robots.txt 의 중요성은 매우 커질 것으로 예상됩니다. 구글과 네이버와 같은 검색 사업자는 그동안 Robots.txt 표준을 통해 사이트 게시자의 의도를 파악하고, 그에 따라 웹사이트 콘텐츠를 취급합니다. 이는 검색 서비스 제공이 콘텐츠 생산자와의 합의 아래 이루어진다는 것을 의미합니다.

그래서 이번 Robots.txt의 개선은 공개된 콘텐츠에 대한 AI 사용 방식과 범위가 합의되는 과정이기 때문에 AI 산업에 중요한 영향을 미칠 것으로 예상됩니다. 그래서 저는 국내 AI 업계에서도 이 협의에 적극적으로 참여하고 의견을 제시할 필요가 있다고 생각합니다.

스닙팟도 웹 콘텐츠 크롤러 봇을 운영하고 있는 정보 제공 사업자로서 Robots.txt 를 준수하고 있으며 이번 프로토콜 개선이 어떻게 진행될지 주목하고 있습니다. 그래서 이번 11월 피드백에 참여했고, 향후 발전 과정 역시 지속적으로 추적할 계획입니다.

앞으로 이와 관련된 내용은 계속 스닙팟 #인공지능 팟, #정보검색 팟 등에 공유될 예정입니다. 관심있는 분께서는 스닙팟에서 팔로우 부탁드립니다!

스닙팟 Android | iOS 앱 다운로드

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari