brunch

You can make anything
by writing

C.S.Lewis

by Moai Dec 08. 2020

Pandas 코로나 확진자 통계

pandas를 이용해 코로나 확진자 통계를 그래프로 표현해보자. 아래 위키에 들어가면 코로나 확진자 수를 일자별로 정리한 테이블을 볼 수 있다.


https://ko.wikipedia.org/wiki/대한민국의_코로나19_범유행

위 테이블 정보를 가져와 차트로 표현해보자



read_html로 url에서 테이블 정보를 가져온 뒤 번호를 하나씩 올려가면서 원하는 테이블을 찾아보자. 5번째에 확진자 명단을 가진 테이블이 있다는 것을 찾아냈다.


테이블의 칼럼명이 잘못되어 있으므로 변경해주자. 그리고 불필요한 값들이 들어가 있으므로 위에 있는 두 개의 행과 아래의 두 행을 제거해주자


차트로 표현하려면 적어도 한 축의 데이터가 숫자여야 한다. 그리고 일자별 확진자를 차트로 표현해주려고 하니 날짜는 datatime형식으로 변경해주어야 한다. 데이터를 파싱 한 뒤 새로운 열로 추가하자. 새로운 열로 추가하면 잘못 수정했을 때 기존 정보가 변경되어 다시 읽어와야 하는 수고로움을  줄일 수 있다.

X축에는 시간 정보를 넣고 누적 확진자와 현재 감염자를 Y축에 넣어 차트로 표현해보자. seaborn 라이브러리를 이용해 표현해보겠다. seaborn의 pointplot을 이용하면 점으로 확진자 수를 볼 수 있다. seaborn을 sns라고 하는 이유는 The West Wing 미드의 samuel norman sam seaborn 등장인물의 줄임말이라고 하는데 미국 드라마를 보지 않아서 왜 그렇게 부르는지 잘 모르겠다.


마지막으로 lineplot으로 차트를 예쁘게 표현하고 마무리하겠다.

11월 중순부터 확진자가 급격하게 늘어 현재 격리된 사람이 3월만큼 증가한 것을 확인할 수 있다.

매거진의 이전글 연관검색어 데이터 시각화
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari