ChatGPT, Claude에게 크롤링 허용방법

llms.txt 작성과 AI 크롤러 robots.txt설정 완전 가이드

by AI개발자
ChatGPT, Claude, Gemini에게 인용되는 사이트 설계법.png

robots.txt로 AI를 차단하는 사이트가 넘처납니다. 그렇기 때문에, 명시적으로 허용하는 것만으로도 결정적인 차이가 생깁니다.


이번 장에서는 LLMO 최적화의 핵심 요소 3가지를 실제로 구현합니다.

06-01-01.png

이 세 요소는 각각 다음 역할을 합니다.

llmo-021.png

이 세 가지가 결합되면 AI가 사이트를 이해하는 경로가 명확해집니다.



1. llms.txt – AI를 위한 사이트 가이드

① llms.txt란 무엇인가?

SEO에는 sitemap.xml이 있다면, LLMO에는 llms.txt가 있습니다.


웹사이트에는 검색 엔진을 위한 robots.txt, sitemap.xml 같은 파일이 있습니다.

이 파일들은 검색 엔진이 사이트를 이해하도록 돕는 역할을 합니다.

그렇다면 AI는 어떤 파일을 참고할까요?


바로 llms.txt 입니다.


llms.txt는 AI가 웹사이트의 구조와 핵심 정보를 빠르게 이해할 수 있도록 제공하는 안내 파일입니다.

이 파일은 2024년 9월, Answer.AI 공동 창업자 Jeremy Howard (fast.ai 공동 창업자)가 제안했습니다.


목적은 매우 단순합니다.

LLM이 웹사이트의 정보를 더 정확하게 이해하고 사용할 수 있도록 돕는 것입니다.

예를 들어 AI는 llms.txt를 통해 다음 정보를 빠르게 파악할 수 있습니다.


이 사이트는 어떤 회사인가?

어떤 서비스나 제품을 제공하는가?

중요한 페이지는 어디에 있는가?

추가 기술 문서는 어디에 있는가?


즉 llms.txt는 AI에게 사이트를 소개하는 안내서 역할을 합니다.


가장 쉽게 말하면

llms.txt는 “AI를 위한 README 파일”입니다.


사람이 GitHub 저장소에서 README.md를 먼저 읽듯이,

AI도 llms.txt를 통해 사이트 전체 구조를 먼저 이해할 수 있습니다.


② robots.txt와의 차이점

웹사이트에는 크롤러와 검색엔진을 위해 여러 가지 표준 파일이 존재합니다.

그중 LLMO와 직접적으로 관련된 파일은 다음 세 가지입니다.

llmo-022.png

각 파일의 역할은 서로 다르지만 서로 보완적으로 동작합니다.

예를 들어 AI 크롤러는 다음과 같은 순서로 사이트를 이해합니다.


robots.txt 확인

접근 가능한 페이지 탐색

sitemap.xml 참고

llms.txt로 사이트 구조 이해


즉 3개 파일은 다음과 같은 역할을 합니다.


robots.txt → 크롤러 접근 허용/제어

sitemap.xml → 페이지 목록 제공

llms.txt → 사이트 구조와 핵심 정보 설명


정리하면,

robots.txt는 “들어와도 되는가”를 결정하고,

sitemap.xml은 “어디를 읽어야 하는가”를 알려주며,

llms.txt는 “이 사이트가 무엇인가”를 설명합니다.


이 세 가지 파일을 함께 구성하면 검색엔진과 AI 모두가 사이트를 훨씬 효율적으로 이해할 수 있습니다.


③ 왜 llms.txt가 중요한가?

AI 크롤러는 웹사이트를 읽을 때 검색 엔진과 비슷하지만 조금 다른 방식으로 정보를 이해합니다.

일반적으로 다음과 같은 과정을 거칩니다.


robots.txt 확인

사이트 크롤링

콘텐츠 구조 분석

정보 요약 및 답변 생성


문제는 대부분의 웹사이트가 AI에게 사이트 구조를 직접 설명하지 않는다는 것입니다.

AI는 페이지를 하나씩 읽어가며 사이트가 무엇을 하는 곳인지 스스로 추론해야 합니다.


이 과정은 다음과 같은 문제가 있습니다.


중요한 페이지를 찾지 못할 수 있음

회사 정보와 서비스 구조를 정확히 이해하지 못할 수 있음

콘텐츠의 우선순위를 판단하기 어려움


이때 llms.txt가 존재하면 상황이 크게 달라집니다.

AI는 llms.txt 파일을 통해 다음 정보를 즉시 파악할 수 있습니다.


회사 또는 서비스의 개요

주요 제품·서비스

핵심 페이지 위치

기술 문서 위치

추가 참고 자료 링크


즉 AI는 사이트 전체를 무작정 탐색할 필요 없이

llms.txt를 통해 핵심 구조를 먼저 이해한 뒤 필요한 페이지로 이동할 수 있습니다.

정리하면 다음과 같습니다.


llms.txt 없음 → AI가 사이트를 추측하며 탐색

llms.txt 있음 → AI가 사이트 구조를 먼저 이해


따라서 llms.txt는 AI가 웹사이트를 이해하는 속도와 정확도를 높이는 중요한 요소입니다.



④ 공식 자료

llms.txt는 다음 제안 문서에서 처음 소개되었습니다.


제안 문서

/llms.txt — a proposal to provide information to help LLMs use websites

공식 사이트: https://llmstxt.org/


이 책에서는 llms.txt를 AI가 웹사이트를 더 효과적으로 사용할 수 있도록 돕는 표준 형식으로 제안하고 있습니다.


⑤ 왜 llms.txt가 중요한가?

AI 크롤러는 웹사이트를 읽을 때 검색 엔진과 비슷하지만 조금 다른 방식으로 정보를 이해합니다.

일반적으로 다음과 같은 과정을 거칩니다.


robots.txt 확인

사이트 크롤링

콘텐츠 구조 분석

정보 요약 및 답변 생성


문제는 대부분의 웹사이트가 AI에게 사이트 구조를 직접 설명하지 않는다는 것입니다.

AI는 페이지를 하나씩 읽어가며 사이트가 무엇을 하는 곳인지 스스로 추론해야 합니다.


이 과정에서는 다음과 같은 문제가 발생할 수 있습니다.


중요한 페이지를 찾지 못할 수 있음

회사 정보와 서비스 구조를 정확히 이해하지 못할 수 있음

콘텐츠의 우선순위를 판단하기 어려움


이때 llms.txt가 존재하면 상황이 크게 달라집니다.

AI는 llms.txt 파일을 통해 다음 정보를 즉시 파악할 수 있습니다.


회사 또는 서비스의 개요

주요 제품·서비스

핵심 페이지 위치

기술 문서 위치

추가 참고 자료 링크


즉 AI는 사이트 전체를 무작정 탐색할 필요 없이,

llms.txt를 통해 핵심 구조를 먼저 이해한 뒤 필요한 페이지로 이동할 수 있습니다.


llms.txt는 AI에게 “이 사이트를 어떻게 읽어야 하는지” 알려주는 지도(map)입니다.



2. 구현하기 – public/llms.txt

LLMO 사이트에서는 llms.txt 파일을 public 디렉토리에 배치합니다.


public/llms.txt


Astro에서는 public/ 디렉토리에 있는 파일이 빌드 과정에서 그대로 사이트 루트 경로로 복사됩니다.


public/ 디렉토리는 “웹사이트 루트에 그대로 배포되는 파일 영역”입니다.


예를 들어 프로젝트 구조가 다음과 같다면

llmo-023.png

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
AI개발자작가님의 멤버십을 시작해 보세요!

AI Workflow Architect, LLM Engineer, Vibe Engineering, Claude Code, AI 업무 자동화 컨설팅/AI강의

82 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 14개의 멤버십 콘텐츠 발행
  • 총 34개의 혜택 콘텐츠
최신 발행글 더보기
이전 05화컴포넌트 기반 정적 사이트 설계