나도 해보는 공공데이터 분석 및 시각화 5
문의 및 어려운 사항, 의견에 대해서는 fermat39@naver.com (김영하)로 부탁드립니다!
"한국가스공사_월별 천연가스 생산량_20221031.csv" 데이터 파일을 불러와서 df라는 판다스 데이터프레임에 저장했습니다.
데이터를 살펴보니 행이 총 82개에 컬럼이 3개입니다.
위 아이콘에서 왼쪽의 아이콘을 클릭하면 아래와 같이 데이터를 자세히 보여주기는 하지만, 그녕 데이터를 보여줄 뿐이지 데이터를 살펴보아야 합니다.
판다스에는 데이터를 요약해서 알려주는 info()라는 함수가 존재합니다. 위 출력을 보니 데이터에 결측치 (missing data)는 없다는 것을 알 수 있습니다.
describe()라는 함수는 데이터프레임의 기술통계 (descriptive statistics)를 계산해서 출력합니다.
자, 일단 연도 컬럼을 선택해 볼까요?
판다스는 데이터프레임에서 컬럼을 선택할 때, [] 안에 컬럼 이름을 전달하면 됩니다.
그런데 총 몇 개년도가 있는지 알 수가 없네요. 그래서 unique()라는 함수가 존재합니다. 지정한 컬럼에서 중복값을 제거한 고유한 값을 출력합니다.
자, 그럼 다음에도 이어서 데이터를 살펴보겠습니다.