brunch

You can make anything
by writing

C.S.Lewis

by 레오군 Jan 13. 2019

[BOOK] 따라하며 배우는 데이터 과학

주니어 데이터분석가를 위한 추천도서

따라하며 배우는 데이터 과학

권재명 지음 / 제이펍


전 회사 도서관에서 만났던 책.  사실 첫 인상은 별로였는데 (‘실리콘밸리…’라는 제목이 좀 -_-….  저런 제목 달고 나오는 실망스러운 책이 너무 많아서 선입견 생길 지경임.) 몇 장 읽어보다보니 책 구성+내용에 완전 반해서 그날로 바로 개인적으로 소장하려고 주문함.


Udemy에서 들은 Machine Learning Bootcamp 강의와 함께, 작년에 R로 이것저것 깨작깨작 공부하는 데 엄청난 도움을 준 책이다. R 관련 서적을 꽤 여럿 봤지만 딱 마음에 드는 책이 없었는데, 지금까지 본 책 중에서는 가장 추천.  이유는 아래와 같음.


1. 굉장히 입체적으로 쓰여진 책이다.

단순히 R 사용법만 기술한 책이 아니라, ‘데이터과학자’ 에게 필요한 가이드를 골고루 제시하고 있다.  구성이 진짜 짜임새 있음.          

데이터과학에 대한 기본적 이해

데이터과학에 필요한 기초 통계 이론 (개인적으로 이 책의 특장점이라고 생각하는 부분!  R 관련 도서에서 p value를 이렇게 ‘정확하게+성의있게’ 설명한 사례를 아직 본 적이 없다.)

R 코딩 스타일에 대한 가이드

자료 유형에 따른 기초적인 분석 방법에 대한 가이드

다양한 머신러닝 분석방법 예시

심지어 데이터과학자 Job interview 준비에 대한 내용까지 들어있음


2. 사전식으로 기능을 나열하는 게 아니라, 실제 데이터분석 프로젝트를 진행하는 순서 그대로를 설명하고 실습한다.

언제 어떻게 활용될지 모르는 기법 하나하나를 설명하는 게 아니라, 전체 데이터분석 프로세스를 조망하고 실제 그 프로세스대로 차근차근 실습을 진행하는 구조로 되어 있다.

많은 머신러닝 책들이 모델링에 무게를 많이 싣다보니, 데이터 정제에 대해서는 간략하게만 설명하고 넘어가는 경우가 많은데, Data manipulation, Data visualization 중요성을 충분히 강조하고 이걸 어떤 식으로 진행하는지 단계별로 세세하게 설명하고 있다.


3. 꼼꼼한 검수 과정을 거친 것으로 보이며, 관련 자료를 풍부하게 제공하고 있다.

개발 관련 책 보다가 제일 빡칠 때가 “책에 있는 코드 그대로 입력했는데, 결과가 안 나올 때” 인데… (python 공부할 때 그런 경험 엄청 많았음-_-) 이 책은 거의 그런 경우가 없었다.  책에 나온 대로 입력하면 책에서 설명한 대로 코드 다 돌아감 (‘이게 왜 돌아가지? 지금쯤 에러 한번 나올 때 됐는데?’ ㅋㅋ)  저자와 출판사의 꼼꼼한 검수 과정이 있었던 것 같다.

오탈자도 많지 않다.  (몇 개 찾았는데, 출판사에 보내야지! ㅋㅋ)

책에 사용된 R 코드와 관련 추가 자료가 엄청나게 잘 정리되어서 공개되어 있다.

책 홈페이지: R 코드와 파이썬으로 변환한 코드, 보충 자료 및 연습문제 해답 등등   http://dataninja.me/ipds-kr/


4. 독자를 배려하는(;;;) 책이다. 

저자가 아는 지식을 모두 다 때려넣어서 나 이만큼 똑똑해… 라고 말하는 대신, (똑똑하지 않은;;;) 독자들을 배려해서 쉽게 쓰려고 노력한 책이다.

기본적인 내용이 매우 충실하게 정리되어 있고, 초심자를 배려해서 ‘어려운 내용을 쉽게 쓰려고’ 노력한 저자의 의지가 여기저기서 보여진다. (물론 그래도 어렵습니다… OTL.  특히 수식으로 모형 설명한 부분은 그냥 흰색은 종이고 검은색은 글씨임 ㅠ)

필요 이상으로 어려운 포인트들은 대범하게 패스하면서 독자를 심하게 괴롭히지 않는다(?). ㅋㅋ  어쨌든 포기하지 않고(!) 책을 끝까지 따라갈 수 있었다.

조심해야 할 것, 특히 중요한 것, 실수하기 쉬운 것 등등 저자가 실제 프로젝트 하면서 경험한 깨알 지식을 곳곳에 정리해뒀는데, 이거 진짜 아는 선배가 해주는 알찬 조언 같은 느낌이다.  많이 도움이 될 듯.     


개인적으로는 이 책의 Target 독자가 딱 나같은 사람이라서 좀 더 와닿았던 것 같은데…

R의 기본적인 사용법은 대강 알고 있고 (dplyr이랑 ggplot 정도는 대강 사용가능한 수준?!)

SQL의 기본적인 사용법은 대강 알고 있고 (간단한 select문은 쓸 수 있으면서 join 유형 정도는 구분이 가능하고?!)

통계학에 대한 기초적인 지식도 대강 있고 (영가설, p값… 등등에 대한 기본적인 개념 + ANOVA나 regression 등 간단한 분석은 해 본 경험?!)

머신 러닝 개념을 어디서 대충 들어는 봤는데, 실제 데이터를 가지고 모델링 한 경험은 많지 않은…

… 사람이라면 딱 좋을 듯.  (=나?!)


매거진의 이전글 2018 결산
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari