SEO 담당자가 마주할 수 있는 Case Study
안녕하세요. 오늘은 SEO마케터 뿐만 아니라 퍼포먼스 마케터에게도 도움이 될 수 있는 내용을 전달드립니다. 여러분들께서 검색광고를 운영하다가 가끔 광고 소진이 안되는 경우를 발견할 수 있습니다. 특별히 소재에 문제가 있는 것도 아닌데 아래와 같은 반려를 당한 사례가 있으신가요?
여기서 안내 받은 내용을 보고 "아 이것 때문에 안됬구나? 이렇게 고치면 되겠네" 하신다면, 더이상 이 글을 읽지 않으셔도 됩니다. 하지만 그게 아니라면 한 번쯤 읽고 기억해두시면, 앞으로 이런 문제를 경험하셨을 때 훨씬 쉽게 대응하실 수 있습니다.
일단 해결책 부터 알려드리자면 아래의 두 가지 방법으로 대처하시기 바랍니다.
1. 웹서버에서 네이버 크롤러 정보 확인 후 접근 허용(화이트 리스트 등록)
2. 네이버 크롤러 IP범위 목록에 있는 IP주소 모두 접근 허용(화이트 리스트 등록)
해결책은 이렇게 알려드렸으니, 이제 네이버 광고센터가 안내한 문제에 대해 하나씩 이해해볼까요? 우선 첫 번째로 "무엇이 문제인가"에 대해 먼저 알아봅시다.
유형 : 수집 실패
상세 유형 : 접근 불능의 페이지
상세 내용: 400 응답 코드를 반환하는 페이지로 페이지 누락, 권한 등으로 접속이 되지 않아 다운로드 할 수 없는 상태
위 내용을 알기 쉽게 말씀드리면, "네이버 검색광고 크롤러"가 검색광고 랜딩 페이지로 운영될 페이지를 먼저 수집해두려고 방문했더니, 해당 페이지의 서버에서 네이버 크롤러의 접근을 불가하게 했다는 의미입니다. 단, 랜딩 페이지 URL이 404 오류 뜨면서 페이지에 문제가 있는 경우는 제외입니다. 나는 그런 접근을 막은 적시 없는데... 누가 한걸까요?
상황에 따라 다르지만 범인은 웹서버 운영 관리팀입니다. 더 정확하게 말하면 그들이 범인이라기 보다, 웹서버의 운영 안정성 차원에서 어느날 갑자기 비정상적인 빈도로 우리 웹서버에 방문해서 우리 사이트를 크롤링하기 시작하는 크롤러는 자동으로 접근을 불허하는 로직을 걸어둔 것입니다. 이 상황을 모르면 아래와 같은 대응을 할 수 있습니다.
네이버 서치어드바이저에서 이런 정보를 찾아보고 "우리 사이트가 네이버 크롤러 Yeti의 사이트 색인을 방지해서 그런거 아니야?"라고 생각해서 개발팀에 아래의 정보대로 robots.txt 수정해주세요!
일단 이렇게 정보를 찾아보신게 대단한 일이지만, 정답부터 말씀드리면 틀렸습니다. 네이버 검색광고 크롤러는 웹서버에 업데이트한 robots.txt 규칙을 참조하지 않습니다. 네이버 광고주 센터에서 공식적으로 설명하고 있습니다.
즉, 네이버 광고용 검색 로봇 "Ads-Naver"는 위와 같이 모든 User-agent에게 사이트 수집을 허용하지 않는다는 설정을 해놔도 네이버 광고시스템에 광고 대상 URL을 등록한 경우, 등록만으로도 웹페이지 내용 수집을 허용하는 것으로 간주해서 robots.txt 내의 규칙을 참조하지 않습니다. 혹시나 누가 "robots.txt에서 Disallow해서 그러니 이거 풀어주세요"라고 한다면 다음의 내용을 참조해서 안내해주세요.
이제 진짜 올바른 대응 방법을 알려드리겠습니다. 우선 개발팀을 찾아서 "우리 웹서버 크롤러 접근 관리하는 담당자 알려주세요"를 합니다. 그래서 그 담당자를 찾았으면 위 문제를 얘기하면서 아래와 같이 요청하세요.
우리 웹서버에 해당 링크에 있는 User-agent 정보와 IP로 접근하는 모든 크롤러의 색인은 항상 허용으로 바꿔주세요.
우선 해당 링크는 네이버의 "검색로봇 확인 방법"에 나와있는데, User-Agent 정보는 "난 네이버 크롤러고 내 세부 정보는 아래와 같아" 라고 이해하시면 됩니다.
그리고 두 번째 "IP로 접근하는 모든 크롤러의 색인 허용" 중 IP 범위 목록 리스트는 다음과 같습니다. 아래의 IP 정보들은 네이버의 Ads-Naver 크롤러는 다음의 IP를 사용하여 당신의 웹사이트에 접속할 수 있어요를 말하고 있는 것 입니다.
제가 지금까지 말씀드렸던 방법대로 조치를 취하면 네이버 검색광고 운영에 있어 맨 처음 접하셨던 오류는 거의 100% 해결할 수 있습니다. 화이트 리스트 처리라는 것은 "다음의 정보들로 접근하는 크롤러는 무조건 허용해" 라는 개념으로 우리가 흔히 얘기하는 "블랙 리스트"의 반대 개념으로 이해하시면 됩니다.
일단 이렇게 해결책은 알려드렸는데, 이 방법은 검색엔진최적화(SEO)에도 꼭 필요한 사항입니다. 다만 좀 다른 것은 네이버 검색엔진 크롤러는 아래 두 개의 세부 정보를 가지고 있습니다. Robots.txt에 표기되는 이름은 Yeti로 불리우지만, 실제 웹서버에 상세 User-agent로 기록되는 정보는 다음과 같으니 웹서버 담당자에게 꼭 알려주시기 바랍니다.
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko; compatible; Yeti/1.1; +https://naver.me/spd) Chrome/W.X.Y.Z Safari/537.36
또는
Mozilla/5.0 (compatible; Yeti/1.1; +https://naver.me/spd)
검색엔진최적화(SEO)에서도 네이버 크롤러의 IP정보는 모두 화이트리스트에 등록해둬야 네이버 크롤러의 정상적인 웹페이지 색인이 가능하니 한 번쯤 꼭 웹서버 담당자와 확인해 두는 것을 추천드려요.
원래 이번 포스팅을 하면서 계획은 이 참에 웹서비스가 운영되기 위한 기본적인 지식을 한 번 훑어볼 수 있는 내용까지 추가하려고 했습니다. 그래서 나름 웹서비스 운영을 위한 기본적인 서버 운영 체계 및 역할에 대한 체계도까지 준비했지만 내용이 너무 많았습니다.
빠른 시일 내 해당 내용을 주제로하는 포스팅도 준비해서, 이 글을 읽으시는 모둔 분들의 연봉이 조금이나마 오를 수 있도록 도움을 드려보겠습니다.
감사합니다.