brunch

You can make anything
by writing

C.S.Lewis

by 김영하 Mar 08. 2016

Rdatasets

데이터 분석을 위한 R 패키지들에 포함된 데이터셋들의 모음

데이터 분석을 위해 요즘 R이 많이 각광을 받고 있습니다. 

무료보다 중요한 것은 시중에 R 활용 책들도 많이 있고 사용자들도 많아져서 

R에 대한 진입장벽이 낮다는 것이 매력일 것입니다.


특히, 한국에서 가톨릭의대 교수님이시면서 R 관련 책과 강의를 많이 하시고, R 패키지도 직접 만드시는 

R프로그래밍의 대가 문건웅 교수님께서 web-r.org 사이트를 직접 운영하시면서 활성한 활동을 하고 

계십니다! 이 사이트 강추입니다!!!


이번에 저는 Rdatasets라는 사이트를 소개해보고자 합니다.

R에는 통계를 기본으로 하는 기본 패키지 외에 기능을 추가하는 엄청난 패키지들이 있습니다.

이 글을 작성하는 2016년 3월 8일 화요일 현재 8,051개의 패키지들이 있습니다.

(본인도 패키지 한번 만들어보고 싶습니다. OTL)


이 패키지들은 이 패키지들의 개발자들이 R의 편한 사용을 위해 미리 만들어 놓은 함수들의 

라이브러리라고 생각하면 좋을 것 같습니다. 이 패키지에는 함수들의 활용 설명을 위해 샘플 데이터셋도

포함하고 있습니다.


오늘 소개할 사이트 Rdatasets (https://vincentarelbundock.github.io/Rdatasets/)은 이 패키지에

포함된 데이터셋들만 정성껏 모아둔 곳입니다. R 학습을 위해 그리고 데이터를 이해하기 위해 탐색적

자료 분석(EDA)을 위해 데이터를 자주 다뤄보아야 하는데 사실 데이터를 얻고 데이터를 얻어도 R에서

사용하기 쉽게 전처리(pre-process)하는 것이 쉽지는 않습니다. 

이 사이트는 이를 위해 패키지를 설치하지 않고도 데이터셋을 사용할 수 있도록 하였습니다. 사이트에 적힌

목적(The goal is to make these data more broadly accessible for teaching and statistical software development.)을 따라 정리도 잘 되어 있습니다. 현재 총 758개의 데이터셋이 있습니다.

1일에 1개씩 다루는 것은 무리겠고, 1주에 1개씩만 다뤄도 1년이 52주이니 모두 해보는데 산술적으로 보면 

14년이 걸리겠네요...


R 공부하실 때 한번 사용해보시는 것은 어떠실까요? 



작가의 이전글 MERN 스택(stack) 이야기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari