brunch

You can make anything
by writing

C.S.Lewis

by 고코더 Jul 05. 2021

'지렁이 키우기 게임'의 초고수 구글  검색엔진

구글 검색 엔진이 일하는 방법

* 책으로 출간되었습니다.

해당 브런치에 남김 글은 초고입니다. 완성된 작품은 해당 "오늘부터 IT를 시작합니다."로 출간하였습니다!!

구매하여서 완성된 글을 종이책의 정감과 편안함으로 읽어보시길 바랍니다^^ 

감사합니다.!!

http://www.yes24.com/Product/Goods/111417594


구글의 스파이더 프로그램

 "웹 크롤러는 사용자가 검색하기 전에 수 천억 개에 달하는 웹페이지에서 정보를 모아 이를 검색 색인에 정리합니다." - 구글 공식 홈페이지 -


영화 '스파이더맨(Spider-Man)' 주인공 피터 파커는 건물과 건물 사이를 자유자재로 활보하고 다닙니다. 그 비법은 바로 손목에서 나오는 거미줄에 있습니다. 이동하고 싶은 곳 가까운 건물에 거미줄을 쏴서 시소 타듯 지렛대 원리로 날아 또 다른 건물로 이동합니다. 스파이더맨은 거미줄을 쏠 수 있는 건물만 있다면 어디든지 다닐 수 있습니다. 여기서 중요한 건 이동을 위해서는 꼭 거미줄을 쏠 수 있는 지지대가 있어야 합니다. 만약 아무것도 없다면 스파이더맨도 걸어갈 수밖에 없을 것입니다. 


구글은 스파이더맨이 이동하는 원리와 똑같이 웹사이트를 돌아다닙니다. 바로 구글의 검색엔진 '스파이더(Spider)'가  거미처럼 웹사이트를 탐색하는 방식입니다. 스파이더는 페이지를 열심히 크롤링으로 탐색하다가 링크가 발견되면 타고 들어가서 또 새로운 웹페이지를 크롤링으로 먹어 치웁니다. 그리고 또 다른 링크가 보이면 스파이더맨이 건물과 건물을 옮겨 다니듯 링크라는 거미줄을 쏴서 이동합니다. 그렇게 수십억 페이지의 사이트를 정신없이 돌아다니면서 웹페이지의 정보를 저장합니다. 크롤링이란 HTML로 되어 있는 웹페이지 안에 있는 데이터를 추출해서 가공하는 역할을 합니다. 이처럼 웹 크롤러는 맛있는 반찬만 골라 먹는 편식하는 아이처럼, 구글은 페이지 내에 정보를 자신들의 서버에 저장합니다. 마치 지렁이가 먹이를 먹고 몸집을 키워 나가듯 그렇게 웹을 휘젓고 다니면서 지렁이 키우기 게임을 합니다.



구글의 지렁이 키우기 게임


거대한 존재를 만난 고코더 지렁이


지렁이 게임을 한번 온라인에서 즐겨보겠습니다. 바로 slither.io라는 사이트입니다. 온라인 게임을 제공하는 이 게임의 이름은 뱀이 기어가는 모습을 묘사하는 단어라고 합니다. 이 지렁이 게임이 꼬리잡기와 다른 하나의 규칙은 서로의 꼬리를 떼어오는 방식이 아닌 아이템을 먹고 점점 크게 지렁이를 키워내면서 진행합니다. 접속한 유저 중에 가장 큰 지렁이를 키워내는 사람이 승리하는 단순한 게임입니다. 


게임에 접속하면 지렁이 한 마리를 분양받습니다. 그리고 다른 지렁이들을 피해서 먹이를 먹습니다. 형형색색의 아이템들은 지렁이가 커질 수 있게 만들어줍니다. 그렇게 끊임없이 몸통을 만들다. 보면 끝이 보이지 않는 아주 거대한 지렁이를 볼 수 있습니다. 화면 안에 한 번에 볼 수도 없을 정도로 커져버린 지렁이는 얼마나 많은 먹이를 먹었을지 예측도 불가합니다. 이렇게 욕심 많은 지렁이는 결국 거대해져서 게임판을 지배하게 됩니다. 이 몸통을 유지한다면, 게임에서 1등으로 판을 기어 다니면서 점점 더 큰 존재가 될 것입니다. 그런데 다소 엉뚱한 지렁 키우기 게임은 우리의 인터넷 생활 속에 녹아든 검색 사이트의 검색엔진이 사용하는 방식입니다. 바로 검색엔진이 욕심스럽게  데이터를 모으는 방법과 같습니다. 


구글이란 커다란 몸뚱이를 가진 지렁이가 먹은 데이터의 양은 정말 어마 어마 합니다. 공식 홈페이지에서 밝힌 데이터의 크기는  100,000,000 기가바이트가 넘고, 수 십억 개의 웹페이지를 수집하였다고 합니다. 이런 데이터를 저장하는 구글의 서버 대수는 250만 개라고 합니다. 이는 대구 광역식의 인구 수보다도 많은 대수입니다. 하지만 무식하게 데이터를 집어삼키는데에서 그치지 않습니다. 지렁이 몸뚱이가 길게 뻗어나가야 커져도 몸이 꼬이지 않는 것처럼 모인 데이터를 정리 정돈을 합니다. 이를 색인이라고 합니다. 데이터를 순서대로 나열하여 사용자가 찾기 쉽게 만들어 놓음으로 1초 만에 수 천억 개의 페이지에서 원하는 정보를 찾아줍니다.



이 순간에도 구글의 지렁이 게임은 계속됩니다.


구글은 한 번의 클릭으로 전 세계의 정보를 제공합니다. 
(Google provides access to the world's information in one click)


 지금 이 순간에도 구글이란 지렁이는 웹사이트를 돌아다니면서 데이터를 먹어치우고 있습니다. 먹은 데이터를 소화하여 서버라는 공간에 부지런히 정리 정돈하고 있습니다. 만약에 지렁이 키우기 게임에서 구글을 발견한다면, 그 긴 몸뚱이가 지나가는 걸 보려면 몇 년이 걸릴까요? 1년? 10년? 100년? 정답은 평생이 걸려도 다 보지 못한다는 것입니다. 왜냐하면 지금 이 순간에도 구글은 거대해지고 있기 때문입니다. 




구글은 현재 
영원히 끝나지 않을 지렁이 게임을 하고 있습니다. 



매거진의 이전글 최초의 컴퓨터 파일 "OMR 종이 카드"
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari