brunch

GUAVA의 왕초보를 위한
AI 기초개념 - 3

"API와 웹 크롤링, 도대체 뭔가요?"

by 구아바

작년 이맘때쯤, 저도 이런 궁금증으로 가득했습니다.


"카카오톡으로 택시 부르면 API가 일하고 있다는데..."

"네이버는 어떻게 모든 쇼핑몰 가격을 실시간으로 알고 있지?"


구글에 검색하면 더 어려운 말들만 나오고, 영어로 된 전문용어는 또 얼마나 많던지!

전문가들의 설명은 마치 외계어 같았습니다.

그래서 오늘은 제가 일상생활 속 경험으로 쉽게 설명해보려고 합니다.



API, 우리 주변에서 찾아보기


API란 무엇일까요?


음식점 주문 시스템을 생각해 보세요!

메뉴판 보고 주문하기 = API 요청

주방에서 음식 만들기 = API 처리

맛있는 음식 서빙 = API 응답


실생활 속 API


카카오택시를 부를 때:

나: "강남역으로 가고 싶어요!" (API 요청)

카카오: "근처 택시를 찾고 있습니다" (API 처리)

기사님: "3분 후 도착합니다!" (API 응답)


네이버 지도를 열 때:

우리가 위치 검색하면 (API 요청)

네이버가 정보를 찾아주고 (API 처리)

지도와 길 안내를 받습니다 (API 응답)

couveflor._isometric_empty_flat_map_location_--v_6.1_b5f03aaa-b820-4359-b0d0-d570f8b4b494.png



웹 크롤링, 디지털 시대의 정보 수집가



웹 크롤링이란?


주부의 알뜰 쇼핑과 비슷합니다:

여러 마트 전단지 수집 = 웹사이트 방문

필요한 상품 찾기 = 정보 찾기

가격 메모하기 = 데이터 저장


실생활 속 웹 크롤링


네이버 쇼핑이 하는 일:

전국의 쇼핑몰을 자동으로 돌아다니며

상품 정보와 가격을 수집해서

가장 저렴한 가격부터 보여줍니다.


맛집 추천 앱의 비밀:

여러 블로그의 맛집 리뷰를 모아서

평점과 방문자 수를 분석하고

인기 있는 맛집을 추천합니다.



잠깐! 이것만은 꼭 기억하세요


API 사용할 때는:

음식점에서 주문할 때처럼 규칙을 지켜야 합니다

정해진 방식으로 요청해야 해요

과도한 요청은 서버에게 부담이 됩니다


웹 크롤링할 때는:

다른 사람의 집에 방문하는 것처럼 예의가 필요해요

robots.txt라는 '방문 규칙'을 꼭 확인하세요

저작권은 반드시 지켜야 합니다

백링크프로 썸네일 10.jpg


[추가 설명] robots.txt, 이것도 알면 좋아요!


robots.txt가 뭔지 궁금하시죠? 웹사이트의 "방문 규칙"이라고 생각하면 됩니다.


robots.txt의 역할

웹사이트 주인이 검색 엔진에게 알려주는 규칙입니다

"여기는 봐도 되고, 저기는 보면 안 돼요"라고 알려주는 거죠

마치 가게 주인이 "직원만 출입" 표지판을 붙이는 것과 비슷합니다.

왜 중요할까요?

웹사이트의 성능을 지켜줍니다 너무 많은 방문자가 한꺼번에 몰리면 서버가 힘들어하니까요

개인정보를 보호합니다 로그인 페이지나 관리자 페이지 같은 곳은 막아둘 수 있어요

검색 순위에도 영향을 줍니다 구글이나 네이버가 웹사이트를 더 잘 이해할 수 있게 해 줘요


이런 규칙을 지키지 않으면 어떻게 될까요?

마치 식당에서 주방에 무단으로 들어가는 것처럼 웹사이트 주인에게 큰 피해를 줄 수 있습니다. 좋은 크롤러는 항상 robots.txt를 먼저 확인하고, 규칙을 지키면서 정보를 수집한답니다!



마치며: 다음 이야기는?


다음에는 'RAG'에 대해 알아보겠습니다. 도서관 사서가 책을 찾아주는 것과 비슷한 이 개념, 어떻게 하면 더 쉽게 이해할 수 있을지 고민해 보겠습니다.


너무 쉽다고요? 네, 알고 있습니다. 하지만 작년의 저처럼, 이런 설명이 필요한 분들이 분명 계실 거예요. 한 분이라도 도움이 된다면, 계속 이야기해 보겠습니다!


To Be Continue......


- Total HR / 사파 감성 HR & 나만의 AI를 찾고 있는 구아바 -

keyword
이전 03화GUAVA의 왕초보를 위한 AI 기초개념 [부록]