검색 엔진 크롤링 제어 및 검색엔진 최적화(SEO)
로봇텍스트(robots.txt) 파일은 웹사이트의 루트 디렉토리에 위치하는 텍스트 파일로, 검색 엔진 로봇(크롤러)이 웹사이트를 크롤링할 때 접근할 수 있는 페이지와 접근할 수 없는 페이지를 지정하는 역할을 합니다. 이 파일을 통해 웹사이트 소유자는 검색 엔진에게 특정 페이지 또는 섹션을 크롤링하지 말라고 요청할 수 있습니다. 로봇텍스트는 사이트의 검색 엔진 최적화(SEO)와 보안을 위한 중요한 도구입니다.
robots.txt의 기본 구조는 다음과 같은 두 가지 주요 명령어로 구성됩니다:
User-agent: 특정 검색 엔진 로봇을 지정합니다. * 기호를 사용하면 모든 검색 엔진 로봇을 지칭합니다.
Disallow: 크롤링을 원하지 않는 페이지나 디렉토리를 지정합니다.
예시 :
UUser-agent: *
Disallow: /admin/
Disallow: /private/
위의 예시는 모든 검색 엔진 로봇에게 /admin/과 /private/ 디렉토리에 대한 접근을 차단하도록 지시합니다.
텍스트 파일 생성: robots.txt은 간단한 텍스트 파일로, 메모장, 텍스트 에디터, 또는 개발 환경을 사용하여 생성할 수 있습니다.
규칙 작성: 크롤러에게 허용할 것과 허용하지 않을 것을 지정합니다. 예를 들어:
User-agent: Googlebot
Disallow: /no-google/
위의 규칙은 구글의 크롤러(Googlebot)에게 /no-google/ 디렉토리에 접근하지 말라고 요청하는 것입니다.
파일 저장 : 파일을 robots.txt라는 이름으로 저장합니다.
웹사이트 루트 디렉토리에 업로드 : 생성한 robots.txt 파일을 웹사이트의 루트 디렉토리에 업로드해야 합니다. 예를 들어, www.example.com/robots.txt와 같은 경로에 위치해야 합니다.
모든 페이지 접근 차단 :
User-agent: *
Disallow: /
위 규칙은 모든 검색 엔진 로봇이 사이트의 모든 페이지에 접근하는 것을 차단합니다.
특정 로봇에게만 접근 허용 :
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
위 예시는 구글봇(Googlebot)에게만 전체 사이트 접근을 허용하고, 다른 모든 로봇에게는 접근을 차단합니다.
특정 파일 차단 :
User-agent: *
Disallow: /secret-file.html
이 규칙은 특정한 secret-file.html 파일에 대한 접근을 차단합니다.
특정 디렉토리 내 파일 차단 :
User-agent: *
Disallow: /tmp/
이 예시는 /tmp/ 디렉토리 내의 모든 파일에 대한 접근을 차단합니다.
robots.txt에 사이트맵(sitemap.xml) 경로를 포함하는 것은 검색 엔진 로봇이 사이트 구조를 이해하고 효율적으로 크롤링하는 데 매우 유용합니다. 사이트맵은 검색 엔진이 사이트의 모든 페이지를 빠르게 발견할 수 있도록 도와줍니다. 로봇텍스트 파일에 사이트맵 경로를 추가하려면 다음과 같이 작성할 수 있습니다.
User-agent: *
Disallow:
Sitemap: https://www.example.com/sitemap.xml
위 예시에서는 모든 검색 엔진 로봇에게 사이트맵의 위치를 알려줍니다. 이 정보를 통해 검색 엔진은 사이트맵에 명시된 페이지를 우선적으로 크롤링하게 됩니다.
로봇텍스트 파일을 작성한 후에는 검색 엔진의 로봇이 해당 규칙을 제대로 따르고 있는지 확인하는 것이 중요합니다. 이를 위해 구글 서치 콘솔(Google Search Console) 등의 도구를 사용하여 로봇텍스트 파일을 테스트할 수 있습니다.
구글 서치 콘솔 사용 : 구글 서치 콘솔에 접속하여 '크롤링' > 'robots.txt 테스트 도구'에서 파일의 유효성을 확인할 수 있습니다.
직접 접근 테스트 : 브라우저에서 www.example.com/robots.txt를 입력하여 파일이 제대로 업로드되어 있는지 확인할 수 있습니다.
보안 대책이 아님 : robots.txt는 검색 엔진에게 크롤링을 요청하는 것이지, 실제로 접근을 차단하는 보안 조치는 아닙니다. 민감한 정보를 보호하려면 서버 레벨의 인증과 같은 추가적인 보안 대책이 필요합니다.
기본 공개 : robots.txt는 누구나 접근할 수 있으므로, 민감한 정보나 디렉토리 구조에 대한 정보를 노출하는 것은 피해야 합니다.
과도한 Disallow 사용 자제 : 너무 많은 페이지를 차단하면 검색 엔진의 크롤링 범위가 제한되어 SEO에 부정적인 영향을 미칠 수 있습니다.
robots.txt는 웹사이트의 크롤링을 제어하는 데 있어 강력한 도구입니다. 이를 올바르게 사용하면 검색 엔진이 사이트를 더 효율적으로 크롤링할 수 있도록 도와주며, 의도치 않은 페이지가 검색 엔진 결과에 노출되는 것을 방지할 수 있습니다. 특히 사이트맵을 robots.txt에 포함시켜 검색 엔진이 사이트 구조를 잘 이해하도록 하는 것은 SEO에 큰 도움이 됩니다. robots.txt 파일의 규칙을 잘 이해하고 관리하여 웹사이트의 SEO와 보안을 강화할 수 있습니다.
--
비쥬얼스토리 UX Designer