brunch

You can make anything
by writing

C.S.Lewis

by 이지섭 Jan 26. 2021

R 기초 -데이터의 특성을 파악하자

분석의 아이디어를 얻기 위해서는 데이터를 면밀히 살펴봐야 한다.  


데이터 특성을 파악할 수 있는 함수 총정리 

아무 csv 파일이나 불러와서 새로운 변수에 할당하자.  

exam <- read.csv("csv_exam.csv", header = T)


데이터의 양이 많을 경우 모두 출력하는데 오랜 시간이 걸린다. 앞부분만 확인해서 특성을 파악해보자. 

앞 부분 데이터를 보고 싶다면 head()함수를 사용하면 된다. 

head(exam)  #앞에서부터 6행까지 출력 

head(exam, 10)  #앞에서부터 10행까지 출력 


exam의 뒷 부분 데이터를 확인하고 싶다면 tail()함수를 사용하면 된다. 

tail(exam)  #뒤에서부터 6행까지 출력

tail(exam, 10) #뒤에서부터 10행까지 출력 


데이터가 몇 행, 몇 열로 구성되는지 알고싶다면 dim()함수를 사용하면 된다. 

dim(exam) #데이터의 행과 열 개수 확인가능


데이터 속성을 확인하고 싶다면 str() 또는 int()함수를 사용하면 된다. 

str(exam)

int(exam)


요약통계량을 산출해내고 싶다면 summary() 함수를 사용해보자. 

summary(exam)



실제 데이터로 연습해보자. 

ggplot2라는 packages안에는 mpg(mile per gallon)라는 자동차 제조사 및 연비관련 데이터가 존재한다. 

이 데이터를 활용하고 싶다면  


mpg <- as.data.frame(ggplot2::mpg)

ggplot2 패키지 안에 있는 mpg 데이터를 가져와서 data frame으로 변환해서 mpg에 할당하라는 뜻.

ggplot2 패키지 안에 있는 mpg라는 데이터만 쏙 빼오고 싶을 때는 더블콜론을 사용하고 패키지 안에 있는 특정 요소 이름을 지칭하면 된다.

as라는 건 '어떤 데이터의 특성을 이런 형태로 변환시켜줘!'라는 뜻이다. 괄호 안 변수를 데이터프레임으로 변화시켜달라는 뜻이다.


mpg를 data frame으로 변환해서 새롭게 할당했으면 다양한 함수로 데이터를 살펴보자. 

View(mpg)로 mpg데이터 원본을 한 번 보기도 하고

dim(mpg)로 사이즈가 어느정도인지도 좀 보고

str(mpg)로 속성도 확인하자. 

summary로 요약통계량도 한 번 훑어보고. 


데이터 분석가들은 이 과정을 거쳐 분석 아이디어를 얻게 된다! 그러니 면밀히 살피고 또 살피자. 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari