brunch

You can make anything
by writing

C.S.Lewis

by 나무늘보 May 23. 2019

야, 너도 Pandas 할 수 있어!

비개발자도 할 수 있는 판다스 #기초편 01

비개발자 마케터로 활동하다 보니, 많은 한계점들을 느꼈다. 그리고, 얼마전 데이터 사이언스를 듣기 시작했다. 다소 어렵다고 생각하는 파이썬를 비개발자의 언어로 필요한 부분만 짚어서 연재해볼까 한다. 파이썬을 하기위해서는 일단 앞전에 소개한 단축키를 익히는 것을 추천한다. 
https://brunch.co.kr/@godori/3

또한, Phython 을 Jupiter Notebook에서 파이썬을 실행하는 기본 방법에 대한 것도 한 번 보기를 추천한다. 
https://brunch.co.kr/@godori/4


앞으로도, 마케터의 입장에서 비개발자의 언어로 누구도 할 수 있는 데이터 사이언스에 대해 연재해보려 한다.

#Pandas 가져오는 방법 

> ‘.’은 판다스 할 때 명령어 such as ‘read’ 같은 것.

> ‘_’ 소카테로리 같은 것. 


>> import pandas as pd 

(Pandas를 가져오고(‘import’) pd라고 지정(‘as’)한다.) 

pandas는 엑셀에 훌륭한 대체제이면서 대용량 데이터에 최적화된 데이터 분석 라이브러리이다.  


>> file_url = “https://bit.ly/ds01-weight-history” 

pd.read_csv(file_url) 

url에서 파일을 가져올 것이다.  

pd(Pandas)를 csv파일로 읽을(read)것이다.  

Column(맨 윗줄) 

Index(맨 왼쪽 새로 줄)  

Row(가로 줄)  


*Index를 회차 컬럼으로 바꾸겠다.  

*너무 명령어가 기니깐 ‘data’라고 지정하겠다.  


*shape는 전체 표가 어떻게 되어 있는 지  

*head(위에서 부터 원하는 갯수)는 위에 것을 보여줘라.  


#행렬검색

*컬럼 하나 가지고 오고 싶으면, 대괄호 열고 원하는 컬럼 입력  


*여러개 가지고 오고 싶으면 대괄호 두 개(안에 대괄호는 list랑 같은 의미(안에 리스트 라는 것을 작성하고 이걸 data라는 파일에서 불러오고 싶다.) 

위의 입력값과 같은 의미  


#loc == locate

*loc이라는 것은 원하는 위치의 값을 가져오는 것,  

Column가져오고 싶을 때는 대괄호, row가져오고 싶을 때는 ‘.loc[대괄호]’으로 


*column하고 row값을 한번에 가져오고 싶을 때는 아래와 같이 입력하면 됨.  

>> data.loc[index, column]  


*column도 여러개, row도 여러개 가져오고 싶으면 ‘대괄호’를 통해 직접 하나하나 입력해도 되지만, 위에서 정의한 변수를 이용하면 쉽게 입력할 수 있다.  


*데이터 중에서 해당 담당자가 ‘김지수’인 것만 빼고 다 지우는 방법  


*몸무게 중에 75키로 이상인 값만 남겨두는 것.  


*지점중에 강남인 경우만 남겨두는 것. 


#NaN(Not a Number), null 값 지정하는 것  

‘Isnull’ 은 비어있는 값 

‘Notnull’ 은 안비어있는 값  



# 여러 조건 만족 (and, or) 


#'&' 기호(여러 조건 만족)

#이렇게 길게 써도 되지만, 너무 길어지면 복잡해보이니 각각의 변수를 만들어 주는 방법을 추천 

data [ (data[“담당”] == "김지수") & (data["몸무게"] > 75)] 



#'|'(or, shift + 대괄호 닫는 버튼 오른쪽)

data[kim | high] 


#담당자가 김지수인 사람들의 몸무게를 구할 때


#기본 연산


#여러 형태의 데이터인데 하나의 데이터 이다. 라는 것을 정리해주는 것. 

지점 컬럼에 강남구, 강남이라는 두 가지의 형태로 존재하는 데이터를 하나로 통합해주는 것.  


#입력값이 없는 컬럼에 일정값을 채워주는 것. 

>> fillna(원하는 입력값)이라는 코멘드를 넣어주면 됨.  




#컬럼 추가 & 수정하기 


*컬럼을 추가하려면, data+대괄호 안에 원하는 컬럼을 지정하고 안에 값을 ‘=‘을 통해 넣어주면됨. 

*수정하고 싶을 시에는 “”안의 값만 수정해주면 됨. 


*다 같은 값이 아닐 경우에는 컬럼을 만들어서 각각 넣어주면 됨. (단, 갯술를 맞춰줘야 함) 

*조건을 걸어서 T/F로 나눠줘서 입력하는 방법 

*조건을 걸어서 아예 입력값도 지정해 주는 방법  


#좀 더 판다스 공부를 하고 싶다면? 

>>아래 링크를 통해 하루 정도 공부하면 됨.  

https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html




매거진의 이전글 야, 너도 python 할 수 있어!
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari