brunch

You can make anything
by writing

C.S.Lewis

by 김영하 Oct 10. 2022

효율적으로 EDA를 하자! - sweetviz편

이제 EDA를 한다고 시간을 버리지 말자!

지난 시간에는 EDA를 dataprep으로 해보았습니다.

정말 간단히 몇 행으로 EDA 보고서를 만들어 보았는데요 이번에는 sweetviz로 해보겠습니다.


https://pypi.org/project/sweetviz/


설치는


pip install sweetviz


로 간단히 끝납니다.


sweetviz도 dataprep와 같이 간단히 EDA가 가능합니다. 어렵지 않습니다. 라이브러리 불러오는 줄 몇개를 제외하고 단 5줄이내로 가능합니다.


1. 데이터 불러오기

2. EDA 실행 및 레포트 생성

3. EDA 보고서 보기


이 3가지를 각각 소스코드 1줄씩으로 표현할 예정입니다. 데이터는 가장 만만한 데이터인 타이타닉 데이터를 사용하겠습니다.


https://www.kaggle.com/competitions/titanic



위 소스코드가 전부입니다.


1행은 우리를 위해 EDA를 하고 보고서를 만들 파이썬 라이브러리인 sweetviz를 불러옵니다.

2행은 타이타닉 데이터를 불러오기 위해 사용할 판다스 라이브러리를 불러옵니다.


4행에서는 타이타닉의 학습 데이터인 train.csv를 불러와서 df_dataframe이라는 데이터프레임에 저장합니다.

5행에서는 4행에서 불러온 데이터프레임 df_dataframe를 가지고 "나의 Titanic Traning Data"라는 보고서를 만들어 달라고 요청합니다.

6행에서는 생성한 보고서를 브라우저에서 열어보거나, 다른 사람에게 공유할 수 있도록, html 파일로 저장합니다. 이 때, 파일이름은 "SWEETVIZ_REPORT.html"로 저장됩니다.


위 소스코드를 실행하면 10초만에 브라우저에 아래와 같은 화면이 나옵니다. 직접 만들려면 고생을 해야 하지만, sweetviz에게 맡기면 금방 생성해 주는 보고서 입니다. 특히 이 보고서는 대화형입니다. 즉, 우리가 클릭을 하면 클릭한 방식으로 각종 결과를 보여줍니다.


아래와 같이 데이터에 대한 요약을 보여주며, correlation (상관관계)를 보여줍니다.


각 변수를 선택하면 범주형 및 수치형에 맞는 기술 통계량을 보여줍니다.


 dataprep보다는 보여지는 정보가 작지만 그래도 간단히 EDA를 할 수 있는 방법입니다.

작가의 이전글 wifi 비번을 쉽게 QRCODE로 공유하세요
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari