brunch

You can make anything
by writing

C.S.Lewis

by episodekim Jun 04. 2019

02.내 홈페이지를 누가 가져간다고?

검색원리와 개인정보보호

SEO를 시작하기 전에 검색포털이 어떻게 동작 하는지? 개인정보는 어떻게 보호해야 하는지 간단히 알고 시작하시면 좋습니다. 검색포털(네이버, 구글)에서는 다양한 정보를 제공하기 위해 24시간 365일 전세계 홈페이지를 방문하여 정보를 수집하는 크롤러를 운영하고 있습니다.


크롤러(Crawler)란? 웹에서 새롭게 생성되거나 업데이트 되는 웹페이지를 끊임없이 수집하는 소프트웨어를 말하며, 봇(bot), 에이전트(agent) 라고도 말합니다. 우리는 크롤러 덕분에 자료를 찾기 위해 전세계 홈페이지를 찾아 헤맬 필요없이 구글, 네이버와 같은 검색포털 한 곳에서 편리하게 자료를 찾을 수 있는 것입니다


과거 야후시대(Yahoo.com)에는 신규생성 웹페이지 수집속도를 크롤러가 따라가지 못하는 상황에서 검색 포털에서는 고객의 홈페이지를 수동으로 등록해 주는 조건으로 돈을 받는 상품을 팔기도 했었습니다


만약, 직접 운영하고 계시는 홈페이지에 크롤러가 언제 방문 했는지? 얼마나 많은 페이지를 수집해 갔는지? 궁금하시면? 아래의 방법으로 확인하실 수 있습니다


구글 크롤러 방문기록 확인 방법

아래의 URL에 방문하셔서 본인의 사이트 주소를 [속성추가] 하신 후 등록하신 본인의 사이트를 클릭하고 들어가시면, 좌측메뉴에 크롤링 > 크롤링 통계에서 확인하실 수 있습니다.

구글서치콘솔URL : https://www.google.com/webmasters/tools/home?hl=ko 
네이버 크롤러 방문기록 확인방법

아래URL에 방문하셔서[연동사이트목록]에 본인의 사이트 주소를 추가 하신 후 본인의 사이트를 클릭하고 들어가시면, 좌측메뉴에 현황 > 색인현황 에서 확인하실 수 있습니다.

네이버 웹마스터 도구 URL : https://webmastertool.naver.com/ 


그런데, 여러분이 인터넷뱅킹, 주소록서비스, 건강정보서비스, 인터넷쇼핑몰을 운영자라면? 계좌정보, 연락처정보, 나의질병정보, 매출정보가 혹시 크롤러에 의해 수집되어 구글이나 네이버에 공개 되는 건 아닐까? 라는 고민을 하실 수 있습니다.


크롤러가 개인정보라고 생각되는 정보의 경우는 검색사업자가 별도로 만들어 놓은 로직에 의해 수집/저장/노출
되지 않도록 설계가 잘 되어 있겠지만 이 또한 주민등록번호, 계좌번호, 전화번호와 같이 규칙적인 데이터의 경우만 가능하고, 그 외 부분은 모니터링 센터를 통해 사람이 필터링할 수 밖에 없는 상황입니다.


향 후 문맥을 이해하는 AI기술이 크롤러에 도입되어 나의 소중한 일기는 수집하지 않고 지켜주는 시대가 올지 모르겠지만, 지금의 나의 일기는 크롤러에게 단지 텍스트에 불가 합니다. 따라서, 나의 소중한 정보를 검색 크롤러가 접근하지 못하도록 막아야 하는데 그 방법이 Robot.txt를 설치하는 것입니다.


Robot.txt는 1994년 위와 같은 문제를 해결하기 위해 국제적으로 만든 약속이며 권고안 입니다. Robot.txt가 설치되어 있어도 기술적으로는 크롤러가 100% 수집하지 못하는 건 아니지만, 그때 부터는 범죄가 되기 때문에 상호간의 신뢰를 기반으로 운영된다고 보시면 됩니다.


아울러 개인이 직접 설치운영하는 서버를 제외하고, 웹호스팅을 이용할 경우에는 robot.txt가 기본적으로 허락되지 않는 조건으로 설정되어 있기 때문에 크게 걱정하지 않으셔도 됩니다. 만약 너무 궁금하시면 회사 전산담당자나 웹호스팅 고객센터에 문의하셔서 내가 지금 운영하고 있는 사이트의 robot.txt가 어떻게 설정되어 있는지? 문의하시면 됩니다. ^^



Robot.txt의 활용방법은?

아래 박스와 같이 Robot.txt 파일을 생성하고, 본인의 서비스에 맞게 설정한 후 서버의 root디렉토리에 업로드 하시면 됩니다. 

robot.txt 예시

User-agent: googlebot # googlebot 로봇만 적용
Disallow: /private/ # 이 디렉토리를 접근 차단한다.
User-agent: googlebot-news # googlebot-news 로봇만 적용
Disallow: / # 모든 디렉토리를 접근 차단한다.
User-agent: * # 모든 로봇 적용
Disallow: /something/ # 이 디렉토리를 접근 차단한다.

감사합니다 ^^

미니시리즈 10부작 SEO

01.돈 버는 SEO
02. 내 홈페이지를 누가 가져간다고?
03. SEO로 신규고객 30배 증가
04. SEO의 시작은 디자인!
05.사랑에 빠진 크롤러
06.삼각관계
07.첫만남
08.og는 이야기
09.내 웹페이지 포털 실시간반영
10.내 말이 아닌 남의 말
[번외편]SEO의 역습


이미지 출처 : https://marcom18.com/f/how-google-crawlers-check-your-site 

매거진의 이전글 01. 돈 버는 SEO
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari