"API와 웹 크롤링, 도대체 뭔가요?"
작년 이맘때쯤, 저도 이런 궁금증으로 가득했습니다.
"카카오톡으로 택시 부르면 API가 일하고 있다는데..."
"네이버는 어떻게 모든 쇼핑몰 가격을 실시간으로 알고 있지?"
구글에 검색하면 더 어려운 말들만 나오고, 영어로 된 전문용어는 또 얼마나 많던지!
전문가들의 설명은 마치 외계어 같았습니다.
그래서 오늘은 제가 일상생활 속 경험으로 쉽게 설명해보려고 합니다.
음식점 주문 시스템을 생각해 보세요!
메뉴판 보고 주문하기 = API 요청
주방에서 음식 만들기 = API 처리
맛있는 음식 서빙 = API 응답
카카오택시를 부를 때:
나: "강남역으로 가고 싶어요!" (API 요청)
카카오: "근처 택시를 찾고 있습니다" (API 처리)
기사님: "3분 후 도착합니다!" (API 응답)
네이버 지도를 열 때:
우리가 위치 검색하면 (API 요청)
네이버가 정보를 찾아주고 (API 처리)
지도와 길 안내를 받습니다 (API 응답)
주부의 알뜰 쇼핑과 비슷합니다:
여러 마트 전단지 수집 = 웹사이트 방문
필요한 상품 찾기 = 정보 찾기
가격 메모하기 = 데이터 저장
네이버 쇼핑이 하는 일:
전국의 쇼핑몰을 자동으로 돌아다니며
상품 정보와 가격을 수집해서
가장 저렴한 가격부터 보여줍니다.
맛집 추천 앱의 비밀:
여러 블로그의 맛집 리뷰를 모아서
평점과 방문자 수를 분석하고
인기 있는 맛집을 추천합니다.
음식점에서 주문할 때처럼 규칙을 지켜야 합니다
정해진 방식으로 요청해야 해요
과도한 요청은 서버에게 부담이 됩니다
다른 사람의 집에 방문하는 것처럼 예의가 필요해요
robots.txt라는 '방문 규칙'을 꼭 확인하세요
저작권은 반드시 지켜야 합니다
robots.txt가 뭔지 궁금하시죠? 웹사이트의 "방문 규칙"이라고 생각하면 됩니다.
robots.txt의 역할
웹사이트 주인이 검색 엔진에게 알려주는 규칙입니다
"여기는 봐도 되고, 저기는 보면 안 돼요"라고 알려주는 거죠
마치 가게 주인이 "직원만 출입" 표지판을 붙이는 것과 비슷합니다.
왜 중요할까요?
웹사이트의 성능을 지켜줍니다 너무 많은 방문자가 한꺼번에 몰리면 서버가 힘들어하니까요
개인정보를 보호합니다 로그인 페이지나 관리자 페이지 같은 곳은 막아둘 수 있어요
검색 순위에도 영향을 줍니다 구글이나 네이버가 웹사이트를 더 잘 이해할 수 있게 해 줘요
이런 규칙을 지키지 않으면 어떻게 될까요?
마치 식당에서 주방에 무단으로 들어가는 것처럼 웹사이트 주인에게 큰 피해를 줄 수 있습니다. 좋은 크롤러는 항상 robots.txt를 먼저 확인하고, 규칙을 지키면서 정보를 수집한답니다!
다음에는 'RAG'에 대해 알아보겠습니다. 도서관 사서가 책을 찾아주는 것과 비슷한 이 개념, 어떻게 하면 더 쉽게 이해할 수 있을지 고민해 보겠습니다.
너무 쉽다고요? 네, 알고 있습니다. 하지만 작년의 저처럼, 이런 설명이 필요한 분들이 분명 계실 거예요. 한 분이라도 도움이 된다면, 계속 이야기해 보겠습니다!
To Be Continue......
- Total HR / 사파 감성 HR & 나만의 AI를 찾고 있는 구아바 -