<데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집>
제이펍으로부터 북리뷰 기회를 얻었습니다.
책의 목차는 아래와 같습니다.
차례
CHAPTER 1 피처 엔지니어링 1
① 피처 정규화 3
② 범주형 피처 6
③ 고차원 결합 피처의 처리 방법 9
④ 결합 피처 12
⑤ 텍스트 표현 모델 14
⑥ Word2Vec 17
⑦ 이미지 데이터가 부족할 때는 어떻게 처리해야 할까요? 20
CHAPTER 2 모델 평가 23
① 평가 지표의 한계 25
② ROC 곡선 31
③ 코사인 거리의 응용 38
④ A/B 테스트의 함정 43
⑤ 모델 평가 방법 46
⑥ 하이퍼파라미터 튜닝 49
⑦ 과적합과 과소적합 52
CHAPTER 3 클래식 알고리즘 55
① 서포트 벡터 머신 57
② 로지스틱 회귀 67
③ 의사결정 트리 71
CHAPTER 4 차원축소 85
① PCA 최대분산 이론 87
② PCA 최소제곱오차 이론 92
③ 선형판별분석 96
④ 선형판별분석과 주성분분석 101
CHAPTER 5 비지도학습 107
① k평균 클러스터링 109
② 가우스 혼합 모델 121
③ 자기 조직화 지도 125
④ 클러스터링 알고리즘 평가 131
CHAPTER 6 확률 그래프 모델 137
① 확률 그래프 모델의 결합확률분포 139
② 확률 그래프 표현 142
③ 생성모델과 판별모델 146
④ 마르코프 모델 148
⑤ 토픽 모델 156
CHAPTER 7 최적화 알고리즘 163
① 지도학습에서의 손실함수 165
② 머신러닝에서의 최적화 문제 169
③ 전통적인 최적화 알고리즘 172
④ 경사하강법 검증 방법 177
⑤ 확률적 경사하강법 180
⑥ 확률적 경사하강법의 가속 184
⑦ L1 정규화와 희소성 192
CHAPTER 8 샘플링 199
① 샘플링의 역할 201
② 균등분포의 난수 204
③ 자주 사용하는 샘플링 방법 207
④ 가우스 분포 샘플링 212
⑤ 마르코프 체인 몬테카를로 219
⑥ 베이지안 네트워크 샘플링 225
⑦ 불균형 샘플 집합에서의 리샘플링 230
CHAPTER 9 피드 포워드 신경망 235
① 다층 퍼셉트론과 부울 함수 237
② 딥러닝의 활성화 함수 245
③ 다층 퍼셉트론의 오차역전파 알고리즘 249
④ 딥러닝 훈련 테크닉 257
⑤ 합성곱 신경망 263
⑥ ResNet 271
CHAPTER 10 순환신경망 277
① 순환신경망과 합성곱 신경망 279
② 순환신경망의 그래디언트 소실 문제 281
③ 순환신경망의 활성화 함수 284
④ LSTM 네트워크 286
⑤ Seq2Seq 모델 290
⑥ 어텐션 메커니즘 294
CHAPTER 11 강화학습 299
① 강화학습 기초 301
② 비디오 게임에서의 강화학습 308
③ 폴리시 그래디언트 313
④ 탐색과 이용 317
CHAPTER 12 앙상블 학습 323
① 앙상블 학습의 종류 325
② 앙상블 학습 단계와 예제 329
③ 기초 분류기 332
④ 편향과 분산 334
⑤ GBDT 알고리즘의 기본 원리 338
⑥ XGBoost와 GBDT의 차이점, 그리고 연관성 342
CHAPTER 13 생성적 적대 신경망 347
① 처음 만나는 GANs의 비밀 349
② WGAN: 저차원의 유령을 잡아라 357
③ DCGAN: GANs이 합성곱을 만났을 때 365
④ ALI 372
⑤ IRGAN: 이산 샘플의 생성 377
⑥ SeqGAN: 텍스트 시퀀스 생성 382
CHAPTER 14 인공지능의 응용 현황 391
① 알고리즘 마케팅 393
② 게임에서의 인공지능 409
③ 자율 주행에서의 AI 428
④ 기계 번역 439
⑤ 인간과 컴퓨터 상호작용 443
에필로그 및 저자 소개 449
참고문헌 465
찾아보기 470
출처: https://jpub.tistory.com/1057 [제이펍의 참 똑똑한 2비트 책 이야기]
채용에 참고하거나 학습을 위해서 (좋은 문답집이라면, 항목에 대한 액기스를 물어봤을 것이므로) 신청했는데요. 정보습득에는 도움이 되나 좋은 사람을 채용할 수 있는 내용이냐? 에는 고개가 갸우뚱 해집니다. 언급되어있는 내용, 특정 알고리즘 등에 대한 개념을 알고 있는 것과, 회사가 직면한 문제 상황을 풀 수 있다는 것과는 괴리가 있기 때문인데요. 뭐, 이 부분은 본 글에서 다루기에 적절하지 않은 것 같아서 다른 글에서 이야기할까 싶습니다. 책 내용 자체는 괜찮습니다. 재미있어요.
문제를 몇 개 요약해서 적어보면
7) 이미지 데이터가 부족할 때는 어떻게 처리해야 할까요?
질문) 이미지 분류 문제에서 훈련 데이터가 부족하다면 어떤 문제를 일으킬까요? 어떻게 데이터 부족이 야기하는 문제들을 완화할 수 있을까요?
해답)
1) 일정 범위 내에서 이미지에 대한 회전, 평행 이동, 축소, 확대, 삭제, 추가, 좌우 전환 등의 변화를 줄 수 있습니다.
2) 이미지에 대해 노이즈를 추가합니다.
3) 색상을 변환합니다.
4) 명암, 해상도, 광도, 첨예도(acutance)를 변환합니다.
물론 이렇게 답만 적혀있지 않고 한 장 정도 분량의 설명과 예시가 적혀있고, 수식단위도 가끔 다룹니다.
아쉬운 점은..
원제가 <The Quest for Machine Learning>이라는 것입니다.
번역서의 제목은 <데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집>이어서 조금 낚인 느낌이 들었네요. 데이터 엔지니어를 위한 시스템 설계, 운용에 관련된 내용들이 조금 있을 줄 알았는데 전혀 없었거든요. 이 부분은 데이터 엔지니어링보다는 머신러닝 엔지니어링에 가깝고, 그보다는 머신러닝 엔지니어도 알면 좋을 개념들에 가깝다는 생각이 드네요. 한국의 JD들에서 언급되는 포지션과 역할로서는 그 편이 더 적절하지 않나 싶네요. 머신러닝에 관련된 업무를 하는 사람이라면 얻을 게 있는 책이라고 봅니다.