brunch

python으로 위키피디아에서 텍스트 수집하기.

pip install wikipedia-api

by 무명

역시 검색을 잘 하면 바퀴를 다시 만드는 수고를 안해도 된다.

사용법도 쉽다.


https://pypi.org/project/Wikipedia-API/

특징들을 살펴보면

- 해당 키워드의 위키 페이지가 있는지 없는지 알 수 있다. (True False 리턴)

- 어떤 언어의 위키를 찾을지 설정할 수 있다. (en, ko)

- 요약내용(summary)과 풀텍스트(text)도 가져올 수 있다.

- extract format 을 설정할 수 있다. (extract_format=wikipediaapi.ExtractFormat.WIKI, extract_format=wikipediaapi.ExtractFormat.HTML)

- 풀텍스트(text)를 가져올 시 개행값도 얻을 수 있다.


아래는 잘 정리된 다른 분들의 사용기

https://inspiringpeople.github.io/data%20analysis/wrapper_wikipedia/

https://cromboltz.tistory.com/7


keyword
매거진의 이전글AWS, ES로 유의어, 유사문서 추천 서비스 구축하기