brunch

매거진 데이터이야기

라이킷 9 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 무명 Sep 18. 2020

[책] Hulu 데이터 과학팀 실전 출제 문제

<데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집>

https://jpub.tistory.com/1057

데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집

로지스틱 회귀, 랜덤 포레스트 등 전통적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까지! ■ 도서구매 사이트(가나다순) [교보문고] [도서11번가] [반디앤루니스] [알라딘] [영풍문고] [예스

jpub.tistory.com

제이펍으로부터 북리뷰 기회를 얻었습니다.

책의 목차는 아래와 같습니다.

차례

CHAPTER 1 피처 엔지니어링 1

① 피처 정규화 3

② 범주형 피처 6

③ 고차원 결합 피처의 처리 방법 9

④ 결합 피처 12

⑤ 텍스트 표현 모델 14

⑥ Word2Vec 17

⑦ 이미지 데이터가 부족할 때는 어떻게 처리해야 할까요? 20

CHAPTER 2 모델 평가 23

① 평가 지표의 한계 25

② ROC 곡선 31

③ 코사인 거리의 응용 38

④ A/B 테스트의 함정 43

⑤ 모델 평가 방법 46

⑥ 하이퍼파라미터 튜닝 49

⑦ 과적합과 과소적합 52

CHAPTER 3 클래식 알고리즘 55

① 서포트 벡터 머신 57

② 로지스틱 회귀 67

③ 의사결정 트리 71

CHAPTER 4 차원축소 85

① PCA 최대분산 이론 87

② PCA 최소제곱오차 이론 92

③ 선형판별분석 96

④ 선형판별분석과 주성분분석 101

CHAPTER 5 비지도학습 107

① k평균 클러스터링 109

② 가우스 혼합 모델 121

③ 자기 조직화 지도 125

④ 클러스터링 알고리즘 평가 131

CHAPTER 6 확률 그래프 모델 137

① 확률 그래프 모델의 결합확률분포 139

② 확률 그래프 표현 142

③ 생성모델과 판별모델 146

④ 마르코프 모델 148

⑤ 토픽 모델 156

CHAPTER 7 최적화 알고리즘 163

① 지도학습에서의 손실함수 165

② 머신러닝에서의 최적화 문제 169

③ 전통적인 최적화 알고리즘 172

④ 경사하강법 검증 방법 177

⑤ 확률적 경사하강법 180

⑥ 확률적 경사하강법의 가속 184

⑦ L1 정규화와 희소성 192

CHAPTER 8 샘플링 199

① 샘플링의 역할 201

② 균등분포의 난수 204

③ 자주 사용하는 샘플링 방법 207

④ 가우스 분포 샘플링 212

⑤ 마르코프 체인 몬테카를로 219

⑥ 베이지안 네트워크 샘플링 225

⑦ 불균형 샘플 집합에서의 리샘플링 230

CHAPTER 9 피드 포워드 신경망 235

① 다층 퍼셉트론과 부울 함수 237

② 딥러닝의 활성화 함수 245

③ 다층 퍼셉트론의 오차역전파 알고리즘 249

④ 딥러닝 훈련 테크닉 257

⑤ 합성곱 신경망 263

⑥ ResNet 271

CHAPTER 10 순환신경망 277

① 순환신경망과 합성곱 신경망 279

② 순환신경망의 그래디언트 소실 문제 281

③ 순환신경망의 활성화 함수 284

④ LSTM 네트워크 286

⑤ Seq2Seq 모델 290

⑥ 어텐션 메커니즘 294

CHAPTER 11 강화학습 299

① 강화학습 기초 301

② 비디오 게임에서의 강화학습 308

③ 폴리시 그래디언트 313

④ 탐색과 이용 317

CHAPTER 12 앙상블 학습 323

① 앙상블 학습의 종류 325

② 앙상블 학습 단계와 예제 329

③ 기초 분류기 332

④ 편향과 분산 334

⑤ GBDT 알고리즘의 기본 원리 338

⑥ XGBoost와 GBDT의 차이점, 그리고 연관성 342

CHAPTER 13 생성적 적대 신경망 347

① 처음 만나는 GANs의 비밀 349

② WGAN: 저차원의 유령을 잡아라 357

③ DCGAN: GANs이 합성곱을 만났을 때 365

④ ALI 372

⑤ IRGAN: 이산 샘플의 생성 377

⑥ SeqGAN: 텍스트 시퀀스 생성 382

CHAPTER 14 인공지능의 응용 현황 391

① 알고리즘 마케팅 393

② 게임에서의 인공지능 409

③ 자율 주행에서의 AI 428

④ 기계 번역 439

⑤ 인간과 컴퓨터 상호작용 443

에필로그 및 저자 소개 449

참고문헌 465

찾아보기 470

출처: https://jpub.tistory.com/1057 [제이펍의 참 똑똑한 2비트 책 이야기]

채용에 참고하거나 학습을 위해서 (좋은 문답집이라면, 항목에 대한 액기스를 물어봤을 것이므로) 신청했는데요. 정보습득에는 도움이 되나 좋은 사람을 채용할 수 있는 내용이냐? 에는 고개가 갸우뚱 해집니다. 언급되어있는 내용, 특정 알고리즘 등에 대한 개념을 알고 있는 것과, 회사가 직면한 문제 상황을 풀 수 있다는 것과는 괴리가 있기 때문인데요. 뭐, 이 부분은 본 글에서 다루기에 적절하지 않은 것 같아서 다른 글에서 이야기할까 싶습니다. 책 내용 자체는 괜찮습니다. 재미있어요.

문제를 몇 개 요약해서 적어보면

7) 이미지 데이터가 부족할 때는 어떻게 처리해야 할까요?

질문) 이미지 분류 문제에서 훈련 데이터가 부족하다면 어떤 문제를 일으킬까요? 어떻게 데이터 부족이 야기하는 문제들을 완화할 수 있을까요?

해답)

1) 일정 범위 내에서 이미지에 대한 회전, 평행 이동, 축소, 확대, 삭제, 추가, 좌우 전환 등의 변화를 줄 수 있습니다.

2) 이미지에 대해 노이즈를 추가합니다.

3) 색상을 변환합니다.

4) 명암, 해상도, 광도, 첨예도(acutance)를 변환합니다.

물론 이렇게 답만 적혀있지 않고 한 장 정도 분량의 설명과 예시가 적혀있고, 수식단위도 가끔 다룹니다.

아쉬운 점은..

원제가 <The Quest for Machine Learning>이라는 것입니다.

번역서의 제목은 <데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집>이어서 조금 낚인 느낌이 들었네요. 데이터 엔지니어를 위한 시스템 설계, 운용에 관련된 내용들이 조금 있을 줄 알았는데 전혀 없었거든요. 이 부분은 데이터 엔지니어링보다는 머신러닝 엔지니어링에 가깝고, 그보다는 머신러닝 엔지니어도 알면 좋을 개념들에 가깝다는 생각이 드네요. 한국의 JD들에서 언급되는 포지션과 역할로서는 그 편이 더 적절하지 않나 싶네요. 머신러닝에 관련된 업무를 하는 사람이라면 얻을 게 있는 책이라고 봅니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari