brunch

웹 크롤링 vs. 웹 스크래핑

by UXUI 니디자인랩



20250321_105037.png


목적

웹 크롤링: 여러 웹페이지 탐색해서 여러 데이터 수집하기 위함. 데이터를 수집하기 위한 탐색 과정

웹 스크래핑: 특정 웹페이지의 특정 데이터 수집하기 위함. 특정 데이터를 추출하는 과정




웹 스크래핑을 하기위해서는 전처리 작업으로서 웹 크롤링을 꼭 해야 할까?



꼭 해야 하는 건 아니다. 웹 스크래핑을 하기 위해 웹 크롤링이 항상 필요한 것은 아니고, 경우에 따라 다를 수 있다.



■ 웹 크롤링 없이 웹 스크래핑이 가능한 경우


이미 목표 웹페이지를 알고 있는 경우

e.g. 특정 쇼핑몰의 상품 가격을 스크래핑하려고 한다면, 해당 상품 페이지의 URL을 직접 입력해서 원하는 데이터를 가져올 수 있다. 이 경우 크롤링 없이 바로 스크래핑하면 된다.


API가 제공되는 경우

어떤 웹사이트는 공식 API를 제공해서 직접 데이터를 요청할 수 있다. 이런 경우 굳이 크롤링이나 스크래핑을 할 필요 없이 API를 활용하면 된다.



■ 웹 크롤링이 필요한 경우


대량의 웹페이지에서 데이터를 수집해야 할 때

e.g. 뉴스 사이트에서 특정 키워드가 포함된 기사를 모두 수집하려면, 먼저 크롤러를 돌려서 관련 기사 URL을 모은 후, 해당 URL에서 필요한 데이터를 스크래핑해야 한다.


동적으로 생성되는 페이지가 많을 때

웹사이트가 무한 스크롤 방식이거나, 버튼을 눌러야 다음 페이지가 로드되는 경우에는 크롤링을 이용해 여러 페이지를 탐색하고, 그 후에 스크래핑을 해야 할 수도 있다.




■ 정리


웹 크롤링 없이도 특정 웹페이지를 바로 스크래핑할 수 있음

하지만, 대량의 데이터를 수집하거나, 여러 페이지를 탐색해야 하는 경우 웹 크롤링이 필요함


즉, 목표 데이터가 어디 있는지 알고 있다면 크롤링 없이 바로 스크래핑, 어디 있는지 모르거나 대량의 데이터를 수집해야 한다면 크롤링 후 스크래핑이 필요하다고 보면 된다.





keyword
작가의 이전글웹/앱 디자이너, 개발자 커뮤니티를 만들었어요!