brunch

You can make anything
by writing

C.S.Lewis

by JK의 계단 밑 연구실 Feb 08. 2017

데이터/머신러닝 입문 책

1. 데이터 과학 입문 - 레이첼 슈트, 캐시 오닐
처음 데이터 과학이 무엇인지 감을 잡기 위해 입문용으로 괜찮다. 책 자체가 대학교에서 저자가 데이터 과학 특강을 연 것을 책으로 꾸민 것이라 다 읽고 나면 한 학기 분량의 좋은 데이터 과학 수업을 들은 느낌이 난다. 단 교양이다. 무슨 말이냐면 온갖 생소한 용어들이 나오지만 이 책은 그런 용어가 쓰인다 정도만 알려주지 깊게 들어가지 않는다. 그리고 각 파트에 각기 다른 데이터 전문가가 참여했기 때문에 일관성도 떨어진다. 그럼에도 불구하고 데이터 과학의 여러 모습을 처음 접하기 좋기 때문에 이 중 제일 처음 읽을 책으로 추천한다.


2. DATA SMART - 존 포먼
이 책은 데이터 사이언스, 혹은 머신러닝 알고리즘의 계산 과정을 독자가 직접 눈으로 볼 수 있게 만들어 준다. 데이터 분야에서 엑셀의 장점은 무엇보다 데이터를 직접 보고 주무를 수 있다는 것인데 이 책은 그런 엑셀의 장점을 십분 살린 책이다. 그리고 저자가 유머러스해서 나름 지루함을 상쇄시켜 준다. 하지만 역시 입문 책이기 때문에 어떤 알고리즘은 설명을 읽다 보면 절대 이 책만으로는 이해가 잘 되지 않는 부분이 있을 것이다. 원래 그런 거다. 그런 건 다른 책으로 해결하자. 


3. 머신러닝 인 액션 - 피터 해링튼
개인적으로 평하자면 소소. 장점은 여러 머신러닝 알고리즘을 파이썬 코드로 직접 다 짜서 보여주는 것. 그냥 돌아가게만 짜주는 게 아니라 코드 효율성을 생각해서 제대로 짜준다. 따라서 파이썬 머신러닝 라이브러리 못 믿고 직접 짜 보고 싶다는 사람은 이 책이 많은 참고가 될 것이다. 다른 입문 책에 비해 꽤 많이 컴퓨터 공학 쪽으로 치우친 책이다. 그리고 알고리즘 분류에 따라 구성한 책 목차도 깔끔했다. 단점은 개떡 같은 알고리즘 설명이다. 앞에서 내가 이런 입문 책에서 내용을 완벽히 이해할 수 없다고 했지만 이 책은 해도 너무하게 구리게 설명해 놨다. 빡치다가 나중엔 코드만 보게 된다. 아, 그리고 번역판도 있는데 번역도 구려서 비추 한다고 한다.(난 원서 봄)


4. 집단지성 프로그래밍 - 토비 세가란
국내에서 나름 명성을 가지고 있는 머신러닝 책. 개인적으로 이 책은 '머신러닝 인 액션' 책보다는 각 알고리즘에 대한 설명이 좋고, 코드 설명은 조금 나쁜 책이라고 생각한다. 각 챕터마다 하나의 알고리즘을 주제로 예제를 풀어가면 이해시켜 준다. DATA SMART 책과 같이 보면 좋다.


5. 해커 스타일로 배우는 기계학습 - 드류 콘웨이
이 책은 파이썬 대신 R을 사용한다. 구성은 집단지성 프로그래밍이랑 크게 다르지 않은데 설명은 훨씬 친절한 느낌이다. (토비 세가란은 말이 짤은 느낌) 그리고 무엇보다 R로 구현한 책이라 그런지 그래프가 많고 큼직해서 보기 좋다. 막 나도 빨리 따라 해서 그려보고 싶달까. 단점은 이 책이 나온 이후로 R 라이브러리가 몇 개 업데이트돼서 코드가 안 돌아가는 게 있다고 한다.


6. 밑바닥부터 시작하는 데이터 과학 - 조엘 그루스
이 책은 재밌는 게 단순히 알고리즘만 챕터별로 나열한 것이 아니라 머신러닝에 필요한 수학, 통계, 프로그래밍(파이썬) 까지도 입문 수준으로 다루고 있다는 것이다. 물론 그래서 깊이도 많이 떨어진다. 책 하나에 이걸 다 다루려고 하니. 개인적으로는 수학이나 통계 잘 모르는 프로그래머가 머신러닝 입문할 때 읽어보면 좋을 거 같다. 아, 그리고 이 책은 파이썬으로 코드를 짜는 데 matplotlib으로 비주얼라이제이션을 꽤 많이 해줘서 보는 재미가 쏠쏠하다. 그리고 각 챕터마다 더 공부하고 싶은 사람에게 관련 레퍼런스를 소개해 주는 것도 좋았다.


총평
입문 책에서 머신러닝 알고리즘을 완벽히 이해하려는 욕심은 버리자. 머신러닝/데이터 사이언스가 무엇인지 한 번 알아보려는 사람은 1,2번을 추천한다. 파이썬으로 구현해 보고 싶은 사람은 3번을 추천한다. 각 알고리즘에 대해 사전식으로 코드와 함께 찾아보고 싶은 사람은 4,5번 중에서 골라보면 될 듯하다. 6번은 수학, 통계 모르는 프로그래머에게 추천

작가의 이전글 수학의 추상성과 객체지향 프로그래밍
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari