파이썬으로 데이터 전처리하기(5)

feat. pandas에서 통계값 계산 및 정렬하기

Nov 25. 2022

안녕하세요, 브래드입니다.

오늘은 파이썬으로 데이터 전처리하기 다섯 번째 시간으로 pandas에서 통계값 계산 및 정렬하기에 대해 함께 공부해보아요.

요약 정보 확인하기

info()

info()는 전체 레코드 수, null값, 컬럼 수, 데이터 타입 등을 확인할 때 사용합니다.

위의 예시에서는 Column의 종류와 null 값이 없다는 non-null 및 타입을 확인할 수 있습니다.

head()

head()를 사용하여 상위 몇 개의 값만을 확인할 수 있습니다. 예시에서는 df.head(3)을 사용하여 상위 3개의 값만 가져온 모습입니다.

만약, 뒤에서부터 정보를 가져오려 한다면 df.tail()을 사용할 수 있습니다.

describe()

describe()는 숫자형 데이터의 생김새를 빠르게 요약 통계하기 위해 사용합니다.

describe()를 통해 개수(count), 평균(mean), 표준편차(std), 최솟값(min), 1사분위수(25%), 2사분위수(50%), 3사분위수(75%), 최댓값(max)을 한눈에 확인할 수 있습니다.

sort_index()

sort_index()는 데이터 프레임 인덱스를 기준으로 정렬해줍니다.

디폴트 값은 오름차순이므로 df.sort_index()를 출력하면 오름차순으로 정렬된 데이터 값을 확인할 수 있습니다.

sort_index(ascending=False)

sort_index로 데이터를 정렬할 때 오름차순이 아닌 내림차순으로 정렬하기 위해선 오름차순을 의미하는 ascending를 False 값을 입력하여 출력해줍니다.

즉, df.sort_index(ascending=False)를 통해 데이터 정렬을 내림차순으로 정렬할 수 있습니다.

앞서 진행했던 sort_index들은 맨 앞 굵은 글씨로 되어있는 숫자 인덱스를 기준으로 정렬된 것입니다.

sort_values()

다음으로 sort_values()는 데이터 프레임의 값을 기준으로 정렬해줍니다.

위의 예시에서는 df.sort_values(by='category_id')를 출력하여 category_id 값을 기준으로 정렬해준 모습입니다.

sort_values() 내림차순으로 정렬

sort_values() 또한 acending=False를 통해 내림차순으로 데이터 값을 정렬할 수 있습니다.

지금까지 파이썬으로 데이터 전처리하기 다섯 번째 시간으로 pandas에서 통계값 계산 및 정렬하기에 관해 함께 공부해보았습니다.

다음 시간에도 pandas 내에서 데이터를 전처리하는 다양한 방법을 함께 알아보아요.

브래드였습니다. 감사합니다.

keyword

브래드 소속 디지털마케터

데이터를 기반으로 끊임없는 분석과 개선을 통해 소비자의 마음을 내다보고자 합니다.