llms.txt 작성과 AI 크롤러 robots.txt설정 완전 가이드
robots.txt로 AI를 차단하는 사이트가 넘처납니다. 그렇기 때문에, 명시적으로 허용하는 것만으로도 결정적인 차이가 생깁니다.
이번 장에서는 LLMO 최적화의 핵심 요소 3가지를 실제로 구현합니다.
이 세 요소는 각각 다음 역할을 합니다.
이 세 가지가 결합되면 AI가 사이트를 이해하는 경로가 명확해집니다.
SEO에는 sitemap.xml이 있다면, LLMO에는 llms.txt가 있습니다.
웹사이트에는 검색 엔진을 위한 robots.txt, sitemap.xml 같은 파일이 있습니다.
이 파일들은 검색 엔진이 사이트를 이해하도록 돕는 역할을 합니다.
그렇다면 AI는 어떤 파일을 참고할까요?
바로 llms.txt 입니다.
llms.txt는 AI가 웹사이트의 구조와 핵심 정보를 빠르게 이해할 수 있도록 제공하는 안내 파일입니다.
이 파일은 2024년 9월, Answer.AI 공동 창업자 Jeremy Howard (fast.ai 공동 창업자)가 제안했습니다.
목적은 매우 단순합니다.
LLM이 웹사이트의 정보를 더 정확하게 이해하고 사용할 수 있도록 돕는 것입니다.
예를 들어 AI는 llms.txt를 통해 다음 정보를 빠르게 파악할 수 있습니다.
이 사이트는 어떤 회사인가?
어떤 서비스나 제품을 제공하는가?
중요한 페이지는 어디에 있는가?
추가 기술 문서는 어디에 있는가?
즉 llms.txt는 AI에게 사이트를 소개하는 안내서 역할을 합니다.
가장 쉽게 말하면
llms.txt는 “AI를 위한 README 파일”입니다.
사람이 GitHub 저장소에서 README.md를 먼저 읽듯이,
AI도 llms.txt를 통해 사이트 전체 구조를 먼저 이해할 수 있습니다.
웹사이트에는 크롤러와 검색엔진을 위해 여러 가지 표준 파일이 존재합니다.
그중 LLMO와 직접적으로 관련된 파일은 다음 세 가지입니다.
각 파일의 역할은 서로 다르지만 서로 보완적으로 동작합니다.
예를 들어 AI 크롤러는 다음과 같은 순서로 사이트를 이해합니다.
robots.txt 확인
↓
접근 가능한 페이지 탐색
↓
sitemap.xml 참고
↓
llms.txt로 사이트 구조 이해
즉 3개 파일은 다음과 같은 역할을 합니다.
robots.txt → 크롤러 접근 허용/제어
sitemap.xml → 페이지 목록 제공
llms.txt → 사이트 구조와 핵심 정보 설명
정리하면,
robots.txt는 “들어와도 되는가”를 결정하고,
sitemap.xml은 “어디를 읽어야 하는가”를 알려주며,
llms.txt는 “이 사이트가 무엇인가”를 설명합니다.
이 세 가지 파일을 함께 구성하면 검색엔진과 AI 모두가 사이트를 훨씬 효율적으로 이해할 수 있습니다.
AI 크롤러는 웹사이트를 읽을 때 검색 엔진과 비슷하지만 조금 다른 방식으로 정보를 이해합니다.
일반적으로 다음과 같은 과정을 거칩니다.
robots.txt 확인
↓
사이트 크롤링
↓
콘텐츠 구조 분석
↓
정보 요약 및 답변 생성
문제는 대부분의 웹사이트가 AI에게 사이트 구조를 직접 설명하지 않는다는 것입니다.
AI는 페이지를 하나씩 읽어가며 사이트가 무엇을 하는 곳인지 스스로 추론해야 합니다.
이 과정은 다음과 같은 문제가 있습니다.
중요한 페이지를 찾지 못할 수 있음
회사 정보와 서비스 구조를 정확히 이해하지 못할 수 있음
콘텐츠의 우선순위를 판단하기 어려움
이때 llms.txt가 존재하면 상황이 크게 달라집니다.
AI는 llms.txt 파일을 통해 다음 정보를 즉시 파악할 수 있습니다.
회사 또는 서비스의 개요
주요 제품·서비스
핵심 페이지 위치
기술 문서 위치
추가 참고 자료 링크
즉 AI는 사이트 전체를 무작정 탐색할 필요 없이
llms.txt를 통해 핵심 구조를 먼저 이해한 뒤 필요한 페이지로 이동할 수 있습니다.
정리하면 다음과 같습니다.
llms.txt 없음 → AI가 사이트를 추측하며 탐색
llms.txt 있음 → AI가 사이트 구조를 먼저 이해
따라서 llms.txt는 AI가 웹사이트를 이해하는 속도와 정확도를 높이는 중요한 요소입니다.
llms.txt는 다음 제안 문서에서 처음 소개되었습니다.
제안 문서
/llms.txt — a proposal to provide information to help LLMs use websites
공식 사이트: https://llmstxt.org/
이 책에서는 llms.txt를 AI가 웹사이트를 더 효과적으로 사용할 수 있도록 돕는 표준 형식으로 제안하고 있습니다.
AI 크롤러는 웹사이트를 읽을 때 검색 엔진과 비슷하지만 조금 다른 방식으로 정보를 이해합니다.
일반적으로 다음과 같은 과정을 거칩니다.
robots.txt 확인
↓
사이트 크롤링
↓
콘텐츠 구조 분석
↓
정보 요약 및 답변 생성
문제는 대부분의 웹사이트가 AI에게 사이트 구조를 직접 설명하지 않는다는 것입니다.
AI는 페이지를 하나씩 읽어가며 사이트가 무엇을 하는 곳인지 스스로 추론해야 합니다.
이 과정에서는 다음과 같은 문제가 발생할 수 있습니다.
중요한 페이지를 찾지 못할 수 있음
회사 정보와 서비스 구조를 정확히 이해하지 못할 수 있음
콘텐츠의 우선순위를 판단하기 어려움
이때 llms.txt가 존재하면 상황이 크게 달라집니다.
AI는 llms.txt 파일을 통해 다음 정보를 즉시 파악할 수 있습니다.
회사 또는 서비스의 개요
주요 제품·서비스
핵심 페이지 위치
기술 문서 위치
추가 참고 자료 링크
즉 AI는 사이트 전체를 무작정 탐색할 필요 없이,
llms.txt를 통해 핵심 구조를 먼저 이해한 뒤 필요한 페이지로 이동할 수 있습니다.
llms.txt는 AI에게 “이 사이트를 어떻게 읽어야 하는지” 알려주는 지도(map)입니다.
LLMO 사이트에서는 llms.txt 파일을 public 디렉토리에 배치합니다.
public/llms.txt
Astro에서는 public/ 디렉토리에 있는 파일이 빌드 과정에서 그대로 사이트 루트 경로로 복사됩니다.
즉 public/ 디렉토리는 “웹사이트 루트에 그대로 배포되는 파일 영역”입니다.
예를 들어 프로젝트 구조가 다음과 같다면
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠