brunch

You can make anything
by writing

C.S.Lewis

by 무명 Apr 09. 2020

python으로 위키피디아에서 텍스트 수집하기.

pip install wikipedia-api

역시 검색을 잘 하면 바퀴를 다시 만드는 수고를 안해도 된다. 

사용법도 쉽다.


https://pypi.org/project/Wikipedia-API/

특징들을 살펴보면

- 해당 키워드의 위키 페이지가 있는지 없는지 알 수 있다. (True False 리턴)

- 어떤 언어의 위키를 찾을지 설정할 수 있다. (en, ko)

- 요약내용(summary)과 풀텍스트(text)도 가져올 수 있다. 

- extract format 을 설정할 수 있다. (extract_format=wikipediaapi.ExtractFormat.WIKI, extract_format=wikipediaapi.ExtractFormat.HTML)

- 풀텍스트(text)를 가져올 시 개행값도 얻을 수 있다. 


아래는 잘 정리된 다른 분들의 사용기

https://inspiringpeople.github.io/data%20analysis/wrapper_wikipedia/

https://cromboltz.tistory.com/7


매거진의 이전글 AWS, ES로 유의어, 유사문서 추천 서비스 구축하기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari