사물이 왜 생겨났는지 모르면, 그것이 무엇인지도 이해하기 힘듭니다. 데이터 과학의 여러 이론이나 기법들도 마찬가지입니다.
소프트웨어 개발자와 데이터 과학자로서 10년 이상 일한 경험으로, 데이터 과학 실무에서 기초 필수라고 여겨지는 것들만 모아 작은 책을 엮었습니다. 이 기초만 잘 이해해도 데이터 과학자의 말에서 핵심적인 부분은 전부 알아들을 수 있을 것입니다. 데이터 과학이라는 광범위한 세계에 무엇이 있는지, 데이터 과학적인 문제 접근이란 어떤 것인지, '왜'라는 관점에서 느껴보시기 바랍니다.
데이터 과학 입문서로서 이 시리즈의 특징은 다음과 같습니다.
거의 모든 영역을 커버합니다.
기초적인 수준의 데이터 엔지니어링도 커버합니다.
코드와 수식은 최소한도로 썼습니다.
기술의 내재적 특성보다는, 실용적 의미에 집중합니다.
실무 경험에서 얻은 교과서 밖의 지식을 담았습니다.
이 시리즈는 다음과 같은 내용으로 구성됩니다. 1장은 이야기책처럼 누구나 읽을 수 있습니다만, 2장 이후부터는 다소 난이도가 있어서 앞에서 나온 개념들이 다져져 있어야 진행이 가능합니다.
1장. 기초 개념
1.1 데이터 과학
1.2 하둡과 데이터 레이크
1.2.1 하둡 (Hadoop)
1.2.2 데이터 레이크 (Data Lake)
1.3 데이터 분석 팀
1.4 모델
1.4.1 모델 = 목적을 가진 표현
1.4.2 모델 = 함수
2장. 데이터 가공
2.1 통계 데이터의 정의
2.1.1 측정값과 변수
2.1.2 수치형 변수와 범주형 변수
2.1.3 범주형 데이터의 수치형 변환
2.1.4 정돈된 데이터 (Tidy Data)
2.2 피쳐 엔지니어링
2.2.1 설명 변수, 반응 변수, 피쳐, 레이블
2.2.2 피쳐 엔지니어링의 개념
2.2.3 피쳐 폭발과 피쳐 선택
2.3 데이터 엔지니어링
2.3.1 데이터 엔지니어링 업무
2.3.2 테이블 데이터 SQL, JOIN
2.3.3 하둡, 스파크
3장. 데이터 분석
3.1 기초 통계 분석
3.1.1 단변량 데이터 분석
3.1.2 다변량 데이터 분석
3.1.3 이상치 제거
3.1.4 결측치 보완
3.1.5 범주형 데이터 분석
3.2 지도 학습 모델
3.2.1 선형 회귀 모델 (Linear Regression)
3.2.2 나이브 베이즈 모델 (Naïve Bayes)
3.2.3 의사 결정 트리 모델 (Decision Tree)
3.2.4 신경망 (Neural Network)
3.3 비지도 학습 모델
3.3.1 주성분분석 (Principal Component Analysis, PCA)
3.3.2 K-평균 군집 분석 (K-Means Clustering)
3.4 모델 평가
3.4.1 정확도 (Accuracy)
3.4.2 손실 (Loss)
3.4.3 과소적합(Underfit)과 과적합(Overfit)
3.4.4 데이터 부족
4장. 데이터 분석 실무
4.1 모델 선택
4.2 데이터 시각화
cover photos
1장: https://unsplash.com/photos/BnWz1zYJswI
2장: https://unsplash.com/photos/EW_DbvCx5ik
3장: https://unsplash.com/photos/Uu1CtKngEXY
4장: https://unsplash.com/photos/btQt9i0Krag