이제 EDA를 한다고 시간을 버리지 말자!
지난 시간에는 EDA를 dataprep으로 해보았습니다.
정말 간단히 몇 행으로 EDA 보고서를 만들어 보았는데요 이번에는 sweetviz로 해보겠습니다.
https://pypi.org/project/sweetviz/
설치는
pip install sweetviz
로 간단히 끝납니다.
sweetviz도 dataprep와 같이 간단히 EDA가 가능합니다. 어렵지 않습니다. 라이브러리 불러오는 줄 몇개를 제외하고 단 5줄이내로 가능합니다.
1. 데이터 불러오기
2. EDA 실행 및 레포트 생성
3. EDA 보고서 보기
이 3가지를 각각 소스코드 1줄씩으로 표현할 예정입니다. 데이터는 가장 만만한 데이터인 타이타닉 데이터를 사용하겠습니다.
https://www.kaggle.com/competitions/titanic
위 소스코드가 전부입니다.
1행은 우리를 위해 EDA를 하고 보고서를 만들 파이썬 라이브러리인 sweetviz를 불러옵니다.
2행은 타이타닉 데이터를 불러오기 위해 사용할 판다스 라이브러리를 불러옵니다.
4행에서는 타이타닉의 학습 데이터인 train.csv를 불러와서 df_dataframe이라는 데이터프레임에 저장합니다.
5행에서는 4행에서 불러온 데이터프레임 df_dataframe를 가지고 "나의 Titanic Traning Data"라는 보고서를 만들어 달라고 요청합니다.
6행에서는 생성한 보고서를 브라우저에서 열어보거나, 다른 사람에게 공유할 수 있도록, html 파일로 저장합니다. 이 때, 파일이름은 "SWEETVIZ_REPORT.html"로 저장됩니다.
위 소스코드를 실행하면 10초만에 브라우저에 아래와 같은 화면이 나옵니다. 직접 만들려면 고생을 해야 하지만, sweetviz에게 맡기면 금방 생성해 주는 보고서 입니다. 특히 이 보고서는 대화형입니다. 즉, 우리가 클릭을 하면 클릭한 방식으로 각종 결과를 보여줍니다.
아래와 같이 데이터에 대한 요약을 보여주며, correlation (상관관계)를 보여줍니다.
각 변수를 선택하면 범주형 및 수치형에 맞는 기술 통계량을 보여줍니다.
dataprep보다는 보여지는 정보가 작지만 그래도 간단히 EDA를 할 수 있는 방법입니다.