비영리가 알아야 할 검색 생태계 (4)
검색 데이터의 수집
검색 서비스가 데이터를 가져가는 방식은 2가지가 있습니다. 서버 간의 데이터 연동과 크롤러를 통한 수집입니다. 예를 들어, 티스토리나 네이버 블로그와 같은 포털 서비스를 사용하게 되면 각각 다음과 네이버 검색에 데이터 연동방식으로 검색에 노출되게 됩니다. 이 경우에는 검색 서비스와 콘텐츠가 서로를 잘 파악하고 있기 때문에, 적어도 사전에 정의된 규약대로 제작한 콘텐츠를 검색엔진이 정확하게 가져가고 있는지에 대해선 많은 고민을 하지 않아도 됩니다. (정확하게 가져간다는 것은 제목을 본문으로 잘못 가져간다거나 특정 콘텐츠만 빠뜨리고 가져가는 경우를 말합니다.) 이와 같은 서비스는 간단한 설정만으로도 검색 노출을 제어할 수 있고 기본적인 통계 기능도 제공하고 있어 일정 수준의 유지관리도 가능합니다.
이와 달리 별도의 서버와 도메인으로 구성된 웹사이트의 콘텐츠를 포털 검색에 노출하는 경우에는 대체로 데이터 연동이 아닌 수집방식을 활용하게 됩니다. 크롤러를 통한 수집방식은 위의 그림과 같이 수집 대상인 웹페이지를 잘 모으고 분석해야 검색엔진이 콘텐츠를 정확하게 가져갈 수 있기 때문에, 수집대상과 콘텐츠 구성에 대한 정보가 잘 정리되어 있다면 웹페이지 분석과 수집에 유리할 수 있습니다.
웹마스터 도구는 웹사이트의 정보를 잘 관리하여 포괄적으로 검색 콘텐츠의 등록/수집/노출 등을 종합적으로 관리하는 툴을 말합니다. 대표적인 툴인 구글 웹마스터 도구를 통해 검색엔진에 등록하고 검색 결과에 노출되고 사용자의 유입이 발생하는 과정에 대해 살펴보도록 하겠습니다.
구글 웹마스터 도구
구글 웹마스터 도구 https://www.google.com/webmasters/
구글 웹마스터 도구는 사이트의 등록뿐 아니라 유지관리를 위한 필수적인 통계 기능까지 한 번에 제공하기에 심플하지만 유용한 툴입니다. 구글 웹마스터 도구에서 제공하는 몇 가지 기능들은 다른 검색엔진에도 공통적으로 적용될 수 있지만 구글 검색에 대해서만 적용되는 부분도 있습니다. 즉, 구글 웹마스터 도구에 사이트를 등록한다고 하더라도 다음과 네이버의 검색 결과에 노출되는 것은 아닙니다. 다음과 네이버 검색 서비스에 대한 최적화와 유지/관리는 각 검색 서비스에서 제공하는 도구를 사용해야 합니다. 구글 웹마스터 도구가 가장 풍부한 기능을 제공하기에 다른 검색도구도 어렵지 않게 활용 가능할 듯합니다.
1. 가입하기
웹마스터 도구에 가입하기 위해선 구글 계정이 필요합니다. 웹마스터 도구는 구글 애널리틱스 계정과도 연동이 되기에 같은 구글 계정으로 관리하는 편이 좋습니다.
2. 사이트 등록하기
사이트를 등록하는 것이 우리의 1차적인 목표입니다. 웹마스터 도구에 사이트를 등록하게 되면 크롤러가 우리 사이트를 방문할 준비를 하게 됩니다. 구글 웹마스터 도구는 다수의 사이트를 한 번에 관리할 수 있는 기능을 제공하고 있습니다. 하나의 사이트가 여러 가지 주소로 등록된다 하여도 대표 도메인을 지정할 수 있게 되어 있기에 복수의 도메인을 사용하고 있거나 관련된 웹사이트를 운영하고 있다면 모두 등록하는 편이 좋습니다.
www가 있는 경우와 없는 경우 모두 등록을 하는 것이 좋습니다.
https와 같은 보안 프로토콜을 지원한다면 그 역시 추가로 등록하는 편이 좋습니다.
사이트 내에 다른 섹션이 있다면 하위 사이트나 하위 폴더를 각각 별도의 사이트로 추가하는 것이 좋습니다.
<http://example.com/> <http://www.example.com/>
<https://example.com/> <ftp://ftp.example.com/>
<http://bar.example.com/> <http://foo.bar.example.com/>
<http://www.example.com/foo/> <http://www.example.com/foo/bar/>
3. 사이트 소유자 확인하기
유지관리 기능들을 사용하기 위해선 등록한 사이트의 소유자가 본인임을 확인해야 합니다. 확인하는 방식은 웹마스터 도구에서 제공하는 html 파일을 업로드하거나 소스코드에 메타태그를 추가해야 하며, html 파일과 소스코드 내에는 우리 사이트를 나타내는 고유한 값을 가지고 있어 다른 사이트와 구분이 가능하게 됩니다. 웹서버를 사용하는 경우에는 직접 html 업로드도 가능하지만 티스토리와 같이 html 편집이 가능한 경우에는 구글이 제공하는 HTML 태그를 추가하거나 구글 애널리틱스 추적 코드를 삽입하여도 소유자 확인이 가능합니다.
티스토리를 예로 들면, 관리자 페이지에서 '꾸미기 > HTML/CSS 편집'을 선택한 후 아래와 같이 <head>와 </ head> 사이에 발급받은 태그를 추가하면 됩니다.
4. 사이트맵 만들기
사이트 등록이 되면 웹사이트로 바로 갈 수 있는 URL이 검색 결과에 노출되게 됩니다. 하지만 사이트 내부의 모든 페이지가 수집되어 노출되는 것은 아닙니다. 사이트 내부의 페이지가 잘 수집되어 노출되기 위해서는 검색엔진의 크롤러가 사이트의 구조를 잘 알아서 웹페이지가 있는 경로로 빠짐없이 접근해야 합니다. 따라서 크롤러에게 사이트의 구조에 대해 설명해준다면 보다 원활하게 수집하게 됩니다. 사이트맵을 추가하는 방법도 다양합니다. 대표적으로 티스토리와 같은 블로그 서비스들은 RSS라는 포맷을 지원하기에 RSS 주소를 입력하면 완료됩니다. 블로그가 아닌 직접 호스팅 서버를 사용하는 경우, 사이트맵을 하나하나 만들기는 어렵습니다. 그래서 자동으로 사이트맵을 생성해주는 도구를 사용하여 만드는 방법을 추천해드립니다.
자동 사이트맵 제작 도구 http://www.web-site-map.com/xml_sitemap.php
필수 정보인 사이트 주소와 보안 문자를 입력하고 나머지 옵션을 그대로 두어도 문제없습니다. 이렇게 생성한 XML 파일을 다운로드한 후 소유자 확인 절차와 마찬가지로 웹사이트로 업로드를 해야 합니다.
사이트맵 업로드는 서버로 직접 올리지 않더라도 웹페이지 내 게시물 첨부파일을 통해서도 업로드가 가능합니다. 다만 업로드한 파일의 주소가 앞서 등록한 웹페이지의 주소와 동일해야 합니다. congdoo.org의 사이트맵 파일은 http://example.com/sitemap.xml과 같이 최상위 위치에 올리지 않더라도 같은 웹사이트 내 위치에 업로드가 되면 실행이 가능합니다. (ex. http://example.com/image/sitemap.xml)
5. robots.txt 만들기
robots.txt는 크롤러의 방문을 제어하는 규약을 웹페이지 내 방문이 가능한 곳과 불가능한 곳을 구분해주는 역할을 합니다. robots.txt를 수정하여 웹사이트 내 크롤러의 방문을 원하지 않는 위치를 지정할 수도 있고, 특정한 검색엔진 크롤러의 수집을 막을 수도 있습니다. 티스토리와 같은 서비스를 이용한다면 이미 설정되어 있기 때문에 별도의 설정은 필요 없으며, 웹사이트 내 모든 콘텐츠가 수집되길 원한다면 설정하지 않아도 문제는 없습니다. 다만, 특정한 콘텐츠의 크롤러의 수집을 막아야 하는 경우에는 직접 작성하여 업로드를 해야 합니다.
User-agent: *
Disallow: /my_profile/
위 설정은 모든 크롤러에 대한 수집을 허용하지만 개인정보가 있을 수 있는 영역인 profile 페이지에 대해서는 수집을 거부한다는 내용을 담고 있습니다. 마지막으로 robots.txt는 사이트맵과 달리 반드시 최상위 위치에 있어야 효력을 발휘할 수 있습니다. ( ex. http://example.com/robots.txt)
robots.txt에 대한 보다 자세한 내용은 이곳을 참고 부탁드립니다.
웹마스터 도구를 통한 콘텐츠 노출 관리
검색 결과에서 콘텐츠 삭제
구글 웹마스터 도구로 검색 결과에 노출된 콘텐츠를 삭제하는 방법은 2가지가 있습니다. 첫 번째는 이미 삭제되거나 정상적이지 않은 페이지에 대한 삭제요청이고, 두 번째는 기술적인 오류가 없는 페이지의 삭제요청입니다. 전자에 해당하는 대표적인 상황은 실제 웹페이지에서는 삭제가 되었는데 검색에는 노출되는 경우입니다. 이런 현상은 검색 결과에 실제 웹페이지가 노출되는 것이 아닌 크롤러가 수집한 페이지가 노출되는 것에서 기인합니다. 즉 사용자들이 보고 있는 검색 결과는 크롤러가 웹페이지가 삭제되기 전에 수집하여 저장한 웹페이지이며 다시 크롤러가 재수집을 하기 전까지 시차가 발생하게 됩니다. 이 경우 오래된 콘텐츠 삭제를 요청하게 되면 크롤러는 웹페이지를 재방문하여 삭제 여부에 대해 확인을 하고, 삭제가 확인되면 검색 결과에서도 제거를 하도록 요청합니다. 실제로는 삭제라기 보단 크롤러의 재수집 요청에 가깝다고 볼 수 있습니다.
두 번째는 삭제나 오류에 관계없이 임시삭제조치를 요청하는 방법입니다. 임시라는 말이 붙은 이유는 역시 크롤러와 관련이 있습니다. 임시삭제는 크롤러가 수집해온 검색 결과를 삭제하는 것으로 이후 크롤러가 다시 웹페이지를 방문하고 문제가 없다면 다시 수집되어 노출될 수 있습니다. 그렇기에 영구적으로 삭제가 필요한 경우에는 다른 방법을 사용해야 합니다.
1. robots.txt 수정
2. 메타태그 추가
3. 웹 서버 파일 비밀번호 보호
위 3가지 방법 중 robots.txt에 삭제할 페이지를 표시하는 것은 앞서 살펴본 robots.txt 만들기와 동일한 방법입니다. 2번에 메타태그 추가도 앞서 살펴본 사이트 소유자 확인과 동일한 방식으로 페이지 소스코드에 수집 거부를 표시하는 것입니다. 여기서 한 가지 유의할 점은 한번 수집된 웹페이지를 robots.txt로 막게 되면 크롤러가 재방문을 아예 못하기 때문에 수집은 안되지만 검색 결과 삭제까지 자동으로 이루어지지 않습니다. 따라서 robots.txt로 웹페이지를 막는 경우 임시삭제요청도 바로 이어 해주어야 합니다.
수집 거부를 표시하는 메타태그 <meta name="robots" content="noindex">
웹마스터 도구를 활용한 콘텐츠 삭제에 대해서는 이곳을 참고 부탁드립니다.
추가로 웹마스터 도구를 활용하지 않고도 구글에 검색 결과 삭제를 요청할 수 있는 케이스가 있습니다. 이 경우는 개인정보가 노출되거나 기술적인 오류 또는 명예훼손에 해당하는 경우이며, 구글에 별도의 서식을 통해 요청할 수 있습니다. 각각 케이스에 따라 양식이나 필요한 정보가 다르므로 아래 페이지에서 도움말을 따라 진행하셔야 합니다.
다른 검색 서비스의 검색 관리 도구
구글 외에도 검색 서비스별로 검색등록과 관리를 위해 제공되는 도구들이 존재합니다. 구체적인 절차나 프로세스는 조금씩 다르지만 기본적인 구조나 기능은 유사한 점이 많으니 같이 시도해보시면 좋을 것 같습니다.
네이버 웹마스터 도구 http://webmastertool.naver.com/
웹과 앱을 등록할 수 있으며, 관련한 SNS, 카페주소와 같은 멀티채널 또한 등록할 수 있습니다.
네이버 마이비즈니스 https://submit.naver.com/
웹/앱과 같은 온라인 콘텐츠 외에 오프라인 거점이 존재한다면 지역정보 등록을 할 수 있습니다.
다음 검색등록 https://register.search.daum.net
웹, 지역정보, 블로그 RSS 등록을 지원합니다. (네이트에도 동일하게 노출됩니다)
검색을 통한 커뮤니케이션
콘텐츠 창작과 와 사용자의 커뮤니케이션 과정을 풀어보면 누가(Source), 무엇을(Message), 어떤 채널로(Channel), 누구에게(Receiver), 어떤 효과를 가지고(Effect) 전달하느냐 하는 단계로 구성해볼 수 있습니다.
이번 검색 생태계의 이해 시리즈는 이 과정에 따라 각각의 단계에 대한 해법을 담아내려고 하였습니다. 앞서 살펴본 3가지 주제는 메시지와 채널, 사용자에 대한 고민을 담았고, 4번째로 검색도구를 통해 콘텐츠를 전달한 효과에 대해 알아보았습니다. 검색을 활용하여 잠들어 있는 좋은 콘텐츠를 발굴하고 더 많은 사람들과 공공의 가치를 나눌 수 있는 기회가 만들어지길 바랍니다. 부족한 글을 읽어주셔서 감사합니다.
비영리가 알아야 할 검색 생태계
1. 무엇을 전달할 것인지 (message)
우리가 가진 콘텐츠는 어떤 특성을 가지고 있고, 어떻게 제작/발굴해야 하는지 알아보려 했습니다.
2. 어떤 경로로 전달할 것인지 (channel)
멀티채널 전략을 통해 사용자와의 접점을 넓힐 수 있는 방안에 대해 알아보려 했습니다.
3. 누구에게 전달하여 어떤 효과를 기대할 것인지 (receiver)
사용자 타겟팅을 통해 효과적인 전달 방식을 찾아보려 했습니다.
4. 검색 관리 도구를 활용해 효과 측정하기 (effect)
검색등록과 수집, 유입 효과 측정을 통한 콘텐츠 관리방법을 알아보려 했습니다.
'비영리가 알아야 할 검색 생태계'는 다음세대재단의 changeon.org에도 동일하게 기고된 글임을 밝힙니다.