brunch

You can make anything
by writing

C.S.Lewis

by 비쥬얼스토리 Oct 07. 2024

robots.txt 파일 작성 가이드

검색 엔진 크롤링 제어 및 검색엔진 최적화(SEO)

로봇텍스트(robots.txt) 파일은 웹사이트의 루트 디렉토리에 위치하는 텍스트 파일로, 검색 엔진 로봇(크롤러)이 웹사이트를 크롤링할 때 접근할 수 있는 페이지와 접근할 수 없는 페이지를 지정하는 역할을 합니다. 이 파일을 통해 웹사이트 소유자는 검색 엔진에게 특정 페이지 또는 섹션을 크롤링하지 말라고 요청할 수 있습니다. 로봇텍스트는 사이트의 검색 엔진 최적화(SEO)와 보안을 위한 중요한 도구입니다.



1. 로봇텍스트의 기본 구조

robots.txt의 기본 구조는 다음과 같은 두 가지 주요 명령어로 구성됩니다:  

User-agent: 특정 검색 엔진 로봇을 지정합니다. * 기호를 사용하면 모든 검색 엔진 로봇을 지칭합니다.

Disallow: 크롤링을 원하지 않는 페이지나 디렉토리를 지정합니다.

예시 :

UUser-agent: *
Disallow: /admin/
Disallow: /private/

위의 예시는 모든 검색 엔진 로봇에게 /admin/과 /private/ 디렉토리에 대한 접근을 차단하도록 지시합니다.


2. 로봇텍스트 파일 작성 방법  

텍스트 파일 생성: robots.txt은 간단한 텍스트 파일로, 메모장, 텍스트 에디터, 또는 개발 환경을 사용하여 생성할 수 있습니다.  

규칙 작성: 크롤러에게 허용할 것과 허용하지 않을 것을 지정합니다. 예를 들어:  

User-agent: Googlebot
Disallow: /no-google/

위의 규칙은 구글의 크롤러(Googlebot)에게 /no-google/ 디렉토리에 접근하지 말라고 요청하는 것입니다.

파일 저장 : 파일을 robots.txt라는 이름으로 저장합니다.

웹사이트 루트 디렉토리에 업로드 : 생성한 robots.txt 파일을 웹사이트의 루트 디렉토리에 업로드해야 합니다. 예를 들어, www.example.com/robots.txt와 같은 경로에 위치해야 합니다.


3. 로봇텍스트의 사용 예시  

모든 페이지 접근 차단 :  

User-agent: * 
Disallow: /

위 규칙은 모든 검색 엔진 로봇이 사이트의 모든 페이지에 접근하는 것을 차단합니다.


특정 로봇에게만 접근 허용 :

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

위 예시는 구글봇(Googlebot)에게만 전체 사이트 접근을 허용하고, 다른 모든 로봇에게는 접근을 차단합니다.


특정 파일 차단 :

User-agent: *
Disallow: /secret-file.html

이 규칙은 특정한 secret-file.html 파일에 대한 접근을 차단합니다.


특정 디렉토리 내 파일 차단 : 

User-agent: *
Disallow: /tmp/

이 예시는 /tmp/ 디렉토리 내의 모든 파일에 대한 접근을 차단합니다.


4. 사이트맵 포함하기

robots.txt에 사이트맵(sitemap.xml) 경로를 포함하는 것은 검색 엔진 로봇이 사이트 구조를 이해하고 효율적으로 크롤링하는 데 매우 유용합니다. 사이트맵은 검색 엔진이 사이트의 모든 페이지를 빠르게 발견할 수 있도록 도와줍니다. 로봇텍스트 파일에 사이트맵 경로를 추가하려면 다음과 같이 작성할 수 있습니다. 


User-agent: *
Disallow:  
Sitemap: https://www.example.com/sitemap.xml

위 예시에서는 모든 검색 엔진 로봇에게 사이트맵의 위치를 알려줍니다. 이 정보를 통해 검색 엔진은 사이트맵에 명시된 페이지를 우선적으로 크롤링하게 됩니다.


5. 로봇텍스트 파일 테스트 및 유효성 검사

로봇텍스트 파일을 작성한 후에는 검색 엔진의 로봇이 해당 규칙을 제대로 따르고 있는지 확인하는 것이 중요합니다. 이를 위해 구글 서치 콘솔(Google Search Console) 등의 도구를 사용하여 로봇텍스트 파일을 테스트할 수 있습니다.  

구글 서치 콘솔 사용 : 구글 서치 콘솔에 접속하여 '크롤링' > 'robots.txt 테스트 도구'에서 파일의 유효성을 확인할 수 있습니다.  

직접 접근 테스트 : 브라우저에서 www.example.com/robots.txt를 입력하여 파일이 제대로 업로드되어 있는지 확인할 수 있습니다.  


6. 로봇텍스트 파일 사용 시 주의사항  

보안 대책이 아님 : robots.txt는 검색 엔진에게 크롤링을 요청하는 것이지, 실제로 접근을 차단하는 보안 조치는 아닙니다. 민감한 정보를 보호하려면 서버 레벨의 인증과 같은 추가적인 보안 대책이 필요합니다.  

기본 공개 : robots.txt는 누구나 접근할 수 있으므로, 민감한 정보나 디렉토리 구조에 대한 정보를 노출하는 것은 피해야 합니다.  

과도한 Disallow 사용 자제 : 너무 많은 페이지를 차단하면 검색 엔진의 크롤링 범위가 제한되어 SEO에 부정적인 영향을 미칠 수 있습니다.  



마치며 


robots.txt는 웹사이트의 크롤링을 제어하는 데 있어 강력한 도구입니다. 이를 올바르게 사용하면 검색 엔진이 사이트를 더 효율적으로 크롤링할 수 있도록 도와주며, 의도치 않은 페이지가 검색 엔진 결과에 노출되는 것을 방지할 수 있습니다. 특히 사이트맵을 robots.txt에 포함시켜 검색 엔진이 사이트 구조를 잘 이해하도록 하는 것은 SEO에 큰 도움이 됩니다. robots.txt 파일의 규칙을 잘 이해하고 관리하여 웹사이트의 SEO와 보안을 강화할 수 있습니다.






--

홈페이지 제작이 필요하세요? 제품 소개를 위한 웹 디자인이 필요하신가요? 브랜드에 맞는 퀄리티 있는 디자인을 원하시면 연락 주세요.


비쥬얼스토리 UX Designer 

이전 23화 PHP 최신 버전 업그레이드로 보안과 성능 강화하기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari