당신이 공들여 쓴 브런치 글, AI가 이미 읽어갔다

허락 없이 읽어가는 AI 봇, 나는 무엇을 할 수 있나?

by KnowAI

지금 이 글을 읽는 동안에도, 수백 개의 AI 봇이 인터넷을 돌아다니며 웹페이지를 읽어가고 있다.

GPTBot(OpenAI), ClaudeBot(Anthropic), Google-Extended(Gemini 학습용), PerplexityBot...


목적은 하나.

AI 모델을 학습시키거나 실시간 답변을 만들기 위해 공개된 콘텐츠를 수집하는 것.

브런치에 올린 글도 예외가 아니다.


AI의 학습 파이프라인에는 수개월이 걸리기에, AI 봇이 가져간 글이 오늘 바로 학습되는 건 아니다.

하지만 지금 이 순간에도 무분별한 크롤링은 진행 중이고, 수개월 후 출시될 다음 모델의 학습 데이터 어딘가에 내 글이 포함될 수 있다.


문제는 이 과정에서 아무도 내게 허락을 구하지 않는다는 점이다.




우리는 거부할 수 있을까?

완전히 막는 방법은 없다. 하지만 "아무것도 하지 않은 것"과 "명확히 거부 의사를 밝힌 것"은 법적으로 전혀 다른 위치에 놓인다.


내 사이트를 직접 운영한다면 세 가지 파일이 핵심이다.


① robots.txt — 출입 규칙을 정의

예를 들어 GPTBot만 막고 싶다면 이렇게 쓴다.

User-agent: GPT
Bot Disallow: /

다만 한 가지 함정이 있는데, Anthropic은 2025년 초 크롤러를 세 가지로 분리. 학습용 ClaudeBot, 검색 색인용 Claude-SearchBot, 사용자 요청 응답용 Claude-User. ClaudeBot만 막으면 나머지 두 봇은 여전히 통과한다. 봇마다 개별 설정이 필요하다.


② ai.txt — 사용 안내문을 표시

"공개 블로그는 괜찮지만, 이 용도로만 쓰세요"라고 AI에게 알려주는 파일이다.

아직 공식 표준은 아니지만, 법적 분쟁 시 의사 표시의 증거가 된다.


③ llms.txt — AI를 위한 설명서를 제시

막는 것과 반대 전략이다. AI가 내 콘텐츠를 정확히 이해하고 인용하도록 유도한다.

"내 사이트에서 가장 중요한 문서는 이것"이라고 알려두면, ChatGPT나 Perplexity가 답변을 생성할 때 내 콘텐츠를 우선 참고할 가능성이 높아진다.




이 규칙, 정말 지켜질까?

세 가지 파일은 모두 "자발적 준수"에 기반한다.

기술적으로 접근을 막는 장치가 아니라, "우리 집 규칙은 이렇습니다"라고 써 붙이는 안내문에 가깝다.


2025년 미국 법원은 Ziff Davis v. OpenAI 판결에서 robots.txt를 아래와 같이 규정.


잔디밭에 세운 출입금지 표지판과 같다. 접근을 실제로 통제하는 기술적 장치가 아니라, 방문자가 스스로 지키길 바라는 요청일 뿐이다.

AI 봇이 이 요청을 무시하더라도 현재 미국법상 DMCA 위반으로 보기 어렵다는 게 법원의 입장이다.


대형 AI 회사들(OpenAI, Anthropic, Google)은 대체로 robots.txt를 따른다.

문제는 소규모 크롤러나 신원을 숨긴 봇이다. 규칙 자체를 무시한다.


그래서 robots.txt만으로는 부족하다.

이용약관에 AI 크롤링 금지를 명시하고, 가능하다면 Cloudflare 같은 WAF(웹 방화벽)로 기술적 차단을 병행해야 한다. 아무것도 하지 않는 것과 명확히 의사를 표시한 것은 법적으로 전혀 다른 위치에 놓인다. 특히 EU에서는 이미 법적 효력이 인정되고 있다.




브런치에 올린 글은 어떨까?

brunch.co.kr의 robots.txt를 직접 확인해 봤다.

내용은 단 두 줄.

User-agent: *
Allow: /

(공개 링크에서 직접 확인 가능: https://brunch.co.kr/robots.txt)


모든 봇에게 전체 허용. GPTBot도, ClaudeBot도, CCBot도 예외 없다. ai.txt도, llms.txt도 없다.


브런치스토리는 2025년 한국저작권위원회와 업무협약을 맺고 저작권 존중을 대외적으로 표방하고 있는데, 정작 플랫폼 robots.txt는 모든 AI 봇에게 문을 열어두고 있다.


브런치 작가가 직접 할 수 있는 건 없다.

플랫폼 설정에 robots.txt 개별 제어 기능이 없기 때문이다.


이용약관을 보면 문제가 더 심각하다.

제7조는 게시물 저작권이 작가에게 있다고 명시하는데, 같은 조항에서 회원은 카카오가 서비스 운영·홍보 목적으로 게시물을 복제·전송·전시하는 것을 자동으로 허락한 것으로 본다고 규정한다.


외부 AI 회사의 크롤링을 금지한다는 조항은 어디에도 없다.

카카오 자체 AI 등이 브런치 글을 학습에 활용하는 것 역시 현재 약관상 명시적으로 제한되지 않는다.


브런치에 글을 올리는 순간, AI에게도 제공한 것과 같다.




무조건 막는 것만이 답은 아니다

역설적이게도, AI가 내 콘텐츠를 읽어가는 것이 꼭 손해만은 아니다.


검색엔진이 블로그를 순위에 올려주듯, AI도 답변을 생성할 때 특정 콘텐츠를 소스로 선택한다.

잘 구조화된 글, 구체적인 수치와 근거가 있는 글, 신뢰할 수 있는 출처가 명시된 글일수록 AI가 인용할 가능성이 높아진다. 이를 GEO(Generative Engine Optimization)라고 부르는데, 전통적인 SEO가 Google 순위를 위한 전략이라면, GEO는 AI 답변 안에 내 콘텐츠가 인용되게 만드는 전략이다.


막을 것은 막고, 활용할 것은 적극 활용하는 것. AI 시대 콘텐츠 전략의 출발점이다.




이 글은 AI의 도움을 받아 작성되었습니다.

최대한 사실 확인을 거쳤으나, 오류가 있을 수 있습니다. 잘못된 내용을 발견하셨다면 댓글로 알려주세요.


robots.txt / ai.txt / llms.txt 설정 방법, GEO 전략 전체 가이드, 그리고 내 사이트가 AI에게 이미 노출됐는지 확인하는 5가지 방법까지 아래 페이지에서 확인할 수 있습니다.

https://www.knowai.space/class/ai-crawling-geo-basics


매거진의 이전글앤트로픽은 어째서 펜타곤에 'No'라고 말했나?!