파이썬으로 데이터 전처리하기(4)

feat. pandas에서 데이터 슬라이싱 하기

by 브래드

Nov 23. 2022

안녕하세요, 브래드입니다.

오늘은 파이썬으로 데이터 전처리하기 네 번째 시간으로 pandas에서 데이터 슬라이싱하는 작업을 함께 공부해보아요.

데이터 슬라이싱

데이터 가져오기

pandas로 데이터 슬라이싱을 하기 위하여 pandas를 import 하고 예시 데이터를 가져온 모습입니다.

행(row) 선택하기

데이터 슬라이싱의 일환으로 행을 하나 가져오거나 행을 여러 개 가져올 수 있습니다.

행을 하나 가져올 때는 df['행 시작 인덱스':'행 시작 인덱스+1']을 하여 데이터를 가져옵니다.

행을 여러 개 가져올 때는 df['행 시작 인덱스:행 끝 인덱스']를 하여 원하는 데이터를 불러올 수 있습니다.

위의 예시로 나와있는 df[8:]은 8 이상인 값을 가져오는 것을 알 수 있습니다.

열(column) 선택하기

행에 이어서 열을 선택하여 가져오는 방법을 알아볼게요.

열을 하나 가져오는 방법은 df['칼럼명']을 입력하여 원하는 열을 가져올 수 있습니다. 위의 예시에서는 df['item_name'}을 통해 열 하나를 가져온 모습입니다.

또한, 대괄호를 중첩하고 칼럼명을 여러 개 입력하여 열을 여러 개 가져올 수 있습니다.

추가로 df.columns를 통해 어떠한 열이 존재하는 지를 나열하여 확인할 수 있습니다.

loc

다음으로 loc과 iloc을 통해 데이터를 더욱 편하게 조회하는 방법을 알아볼게요.

loc과 iloc을 활용하여 pandas 내에서 데이터 조작을 쉽게 진행할 수 있으며, 조건문을 기본적으로 활용할 수 있습니다. 따라서 SQL문과 같이 원하는 조건에 맞는 데이터를 추출할 수 있습니다.

loc과 iloc의 기본형은 다음과 같습니다.

df.loc ['행 슬라이싱 영역' , '열 슬라이싱 영역']
df.iloc ['행 슬라이싱 영역' , '열 슬라이싱 영역']

loc은 행과 열의 데이터를 조회할 때 특정 레이블(lable)을 통해 접근하는 방법입니다. 레이블은 인덱스와 같같은 의미로 생각할 수 있습니다.

위의 예시에서 레이블은 0,1,2 ... 값들이며 df.loc[0]을 통해 0의 레이블 값을 출력한 모습입니다. 여기서 주의할 점은 0번째라 가져온 것이 아니라 레이블이 0 값이기 때문에 가져온 것입니다. 즉, 만약 레이블이 문자이면 df.loc['문자']를 통해 값을 가져올 수 있습니다.