brunch

You can make anything
by writing

C.S.Lewis

by 마크 Aug 13. 2021

URL 너 이런 애였니?

소인, URL 구조를 보았나이다.

뭔가를 배울 때 성격 급한 건 도움이 되는 편이다. 최소한 난 그렇게 믿는다. 남들은 코딩을 배울 때 기본기부터 차근차근 배워나가고 있지만 나는 조급증에 차근차근이란 단어를 머릿속에서 지웠다. 아마도 내 이가 40대 중반이 되기에 빨리 뭔가를 하지 않으면 안 된다고 생각했나 보다.


코딩의 기본이라는 if, for를 배우고, 파이썬으로 웹사이트를 크롤링할 수 있는 라이브러리인 Beautifulsoup을 쓸 수 있게 되니 이걸 이용해 뭔가를 만들어 보고 싶었다.


무엇을 만들어볼까 고민했다.

프로그래밍이라는 게 반복 작업을 컴퓨터가 할 수 있게 만드는 것이라고 하던데 나는 뭔 일을 반복 작업하고 있는지를 생각해 봤다. 문득 내가 티스토리 낙장을 찾는데 많은 시간을 소모하고 있다는 것을 알게 되었다.


티스토리 낙장이란 티스토리 블로그 중에서 현재는 개설되어 있지 않지만 과거에 누군가 개설해서 쓰던 url이다. 오래전 누군가 https://◇◇◇◇. tistory.com라는 주소로 블로그를 운영하다가 어떤 이유로 이 블로그를 지금은 폐쇄한 블로그. 그러나 아직 검색엔진에는 이 블로그의 포스팅들이 색인이 되어 있는 것을 '낙장'이라고 불렀다.


이걸 찾는 이유는 아직 네이버나 구글 검색엔진에 색인이 남아 있어 이 주소로 새로 블로그를 개설하면 검색엔진 색인에 유리하기 때문이다. 티스토리 블로그는 네이버 검색에 노출되기 쉽지 않아서 수익형 블로거들은 이런 낙장 블로그를 찾아 네이버 검색 노출을 쉽게 하려고 하기에 수요가 꽤 있는 편이다.


하지만 이런 낙장 블로그를 찾기는 쉽지 않았다. 하루 종일 검색해봐도 하나 나올까 말까. 나오면 그나마 다행. 수많은 시간을 쓰고도 티스토리 낙장을 못 찾는 일도 다반사였다. 이 낙장 찾는 일이야 말로 단순 노동이다. 네이버에서 검색어를 넣고 과거에 발행된 글 중 티스토리만을 골라 검색해본다.


그리고 하나씩 사이트에 들어가 봐서 현재 개설되어 있지 않은 블로그를 찾는 과정이다. 얼마나 많은 사이트를 들어가 봐야 할지 모른다.

색인된 링크 중 사이트에 들어갔을 때 이런 화면이 보이는 티스토리를 찾으면 된다.

개념은 간단했다. 특정 검색어로 특정 기간 동안 발행된 티스토리 블로그만 찾아 사이트를 체크했을 때 현재 개설되지 않은 것을 찾으면 된다. 근데 어떻게 해야 할지 몰랐다. 사람이 하는 과정을 그대로 따라 하기에는 뭔가 복잡했다. 고민을 거듭하면서 네이버 검색 결과창을 뚫어지게 쳐다보고 있던 중 검색 결과와 그 결과를 보여주는 url이 눈에 들어왔다.


검색 결과를 보여주는 주소를 단 한 번도 유심히 본 적이 없었다. 그런데 검색 결과를 보여주는 url은 여러 정보를 담고 있다는 것을 알게 되었다.


우리가 보는 검색 결과 페이지는 이 url의 정보에 따른 결과였다. url의 구조에 대해 알아보고 시작했다. url은 크게 이렇게 구성되어 있었다.

단순하게 살펴본 URL 구조

이 외의 것도 있지만 크게는 이렇게 구성되어 있었다. 그렇게 긴 주소들은 사실 쿼리스트링이라는 것으로 &A=##### 이런 식으로 구성된 것들의 집합들이었던 것이다. 이걸 알게 된 순간, 내가 만약 url에 원하는 정보를 입력하고 주소창에 넣으면 그에 맞는 결과가 나올 것이라는 생각이 들었다.


네이버 검색 결과를 예를 들어 query= 이 뒤에 키워드를 넣으면 그 키워드에 해당되는 검색 페이지가 나올 것이고, from, to에 내가 원하는 기간을 적으면 그에 맞는 결과가 보일 것이라고 생각했다.


이는 맞는 생각이었다.


url을 수정해서 검색하면 그에 맞는 페이지가 나왔고 그 페이지를 나는 크롤링만 하면 되었다. 웹에 대해 잘 아는 분들에게는 기본적인 상식일 수 있으나 비전문가에겐 URL의 구조를 살펴본 것은 마치 신대륙을 발견한 콜럼버스와 같은 기분이었다.


그렇게 나는 '티스토리 낙장' 찾는 프로그램을 만들었다. 내 인생 최초로 스스로 만든 프로그램이었다. 이후로 만드는 모든 크롤링 기반의 프로그램들은 이렇게 url을 먼저 분석하는 것으로 시작함으로써 원하는 자료를 가져올 수 있게 되었다.


파이썬으로 만든 티스토리 낙장 프로그램


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari