brunch

You can make anything
by writing

C.S.Lewis

by 브래드 Nov 21. 2022

파이썬으로 데이터 전처리하기(3)

feat. pandas 알아보기 및 csv, 엑셀 파일 한눈에 확인하기

안녕하세요, 브래드입니다.


오늘은 numpy에 이어서 파이썬의 라이브러리 중 하나인 pandas에 대해 알아보고 pandas에서 csv, 엑셀 파일을 한눈에 요약 및 확인하는 방법을 함께 공부해보아요.



Pandas란?

Pandas

Pandas데이터 조작과 분석을 위한 파이썬의 라이브러리 중 하나입니다.


특히, 표(행렬) 형태의 데이터를 조작하는데 특화되어 있으며 엑셀이 제공하는 대부분의 기능을 구현할 수 있습니다.


또한, SQL문도 간편하게 구현이 가능하여 쓰임새가 많은 라이브러리입니다.





데이터 프레임 만들기

데이터 프레임 만들기

데이터 프레임은 pandas에서 사용하는 기능입니다. 따라서 데이터 프레임을 다룬다고 하면 pandas에서 무언가를 만든다고 생각하면 됩니다.


데이터 프레임은 리스트형(list)이나 딕셔너리형(dict)을 활용하여 만들 수 있으며, 여러 개의 시리즈(Series)가 모여서 만들어진 것을 데이터 프레임이라고 합니다.


위의 예시는 pandas을 import한 후 pd로 축약한 모습입니다. 그리고 list를 2차원 배열로 만들어 출력했습니다. pd.DataFrame은 pandas에서 데이터 프레임을 만드는 문법입니다.




데이터 프레임 만들기(컬럼명 지정해주기)

만약, 컬럼명을 지정해주고 싶다면 columns = [ ]을 활용하여 원하는 컬럼명을 출력할 수 있습니다.


작성할 때 콤마와 columns의 s가 붙는다는 것을 주의할 필요가 있습니다.




딕셔너리형

딕셔너리형은 데이터 프레임과 다르게 컬럼명을 별도로 입력해줄 필요 없이 KEY 값을 컬럼명으로 인식하여 컬렴명을 바로 만들어줄 수 있습니다.


위의 예시에서는 대분류, 중분류, 판매 가격을 각각 KEY 값으로 설정하고 값들을 입력한 후 출력하여 좀 전에 진행했던 예시와 같은 값을 출력한 모습입니다.





CSV파일 불러오기/읽기

CSV파일 가져오기/읽기

다음으로 CSV파일을 가져오고 읽어볼게요.


먼저 구글 코랩에서 드라이브 마운트를 해준 후, csv파일을 구글 드라이브에 넣어주고 drive에서 해당 csv 파일을 우클릭하여 경로 복사해줍니다.


그리고 csv_path가 저장된 경로를 입력해주고, pd.read_csv()를 통해 csv파일이 제대로 들어온 걸 확인할 수 있습니다.


1) 구글 코랩에서 드라이브 마운트 해주기 
   from google.colab import drive
   drive.mount('/content/drive')

2) CSV 파일을 구글 드라이브에 넣어주고 drive에서 해당 csv 파일 우클릭하여 경로 복사하기

3) CSV 파일이 저장된 경로 입력해주기
   csv_path = '파일 경로'

4) CSV 파일 확인하기
   pd.read_csv(csv_path)

**
read_csv(파일 경로): csv파일을 읽어올 수 있음
to_csv(파일 경로): csv파일을 저장할 수 있음


또한, df.head()을 통해 기본으로 다섯 개 값만 불러올 수 있습니다. 괄호 안에 1 혹은 2 등을 입력하면 위에서부터 한 개의 값, 혹은 두 개의 값을 출력합니다.




df.info( )

df.info( )를 통해서 우리가 저장한 데이터 프레임의 형태를 한눈에 볼 수 있습니다.




지금까지 파이썬의 라이브러리 중 하나인 pandas의 개념과 pandas를 통해 csv, 엑셀 파일을 불러오고 한눈에 확인해보는 작업을 함께 공부해보았습니다.


다음 시간에는 pandas로 데이터를 슬라이싱하는 작업을 알아보아요.


브래드였습니다. 감사합니다.

매거진의 이전글 파이썬으로 데이터 전처리하기(2)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari