brunch

You can make anything
by writing

C.S.Lewis

by 넓을홍 Mar 23. 2021

비 전공자를 위한 웹크롤링 프로그램 Octoparse

기술 메타 분석에 유용한 웹 크롤링 서비스

 특정 의약분야에 대한 기술동향을 분석하고 있다. 넉넉히 잡아도 20,000개는 넘는 방대한 양의 논문을 수집하고 분류하기에 구글 스콜라는 너무 불친절했다.


Octoparse 사용 화면


 Octoparse는 웹 스크랩핑 과정을 쉽게 만들어 주는 툴로 IT분야에 문외한인 나도 알고리즘만 잘 설정하면 자료를 긁어올 수 있다. 특히 논문을 긁어올 때 제목, 기관, 저자, 연도, 피인용수, 키워드, 요약 등 내가 원하는 정보들을 포함하여 데이터화 해주기 때문에 메타분석에 무척 유용하다.


 사용방법은 간단하다. 일단 왼쪽 상당 New 버튼을 클릭한 후 Advanced를 클릭한다. (Template은 대부분 쓰레기이다.) 그 후 빨간 부분에 긁어오고자 하는 웹페이지 주소를 입력한다.


그러면 데이터 Auto-detecting을 빠르게 취소한 뒤(마찬가지로 대부분 핀트가 안맞는다.) 원하는 데이터를 클릭하면 데이터 추출알고리즘이 만들어진다.


간단하게 만들어본 구글 스콜라 크롤링 결과물 (엑셀)


다양한 Pricing이 있지만 10,000개 이상의 데이터를 수집해야하는 헤비유저가 아니라면 무료 플랜으로 충분하다.


작가의 이전글 성공적인 인생을 위한 첫걸음: 목표
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari