brunch

You can make anything
by writing

C.S.Lewis

by 무명 Sep 18. 2020

[책] Hulu 데이터 과학팀 실전 출제 문제

<데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집>

https://jpub.tistory.com/1057

제이펍으로부터 북리뷰 기회를 얻었습니다. 

책의 목차는 아래와 같습니다. 



차례

CHAPTER 1 피처 엔지니어링 1

① 피처 정규화 3

② 범주형 피처 6

③ 고차원 결합 피처의 처리 방법 9

④ 결합 피처 12

⑤ 텍스트 표현 모델 14

⑥ Word2Vec 17

⑦ 이미지 데이터가 부족할 때는 어떻게 처리해야 할까요? 20

   



CHAPTER 2 모델 평가 23


① 평가 지표의 한계 25


② ROC 곡선 31


③ 코사인 거리의 응용 38


④ A/B 테스트의 함정 43


⑤ 모델 평가 방법 46


⑥ 하이퍼파라미터 튜닝 49


⑦ 과적합과 과소적합 52




CHAPTER 3 클래식 알고리즘 55


① 서포트 벡터 머신 57


② 로지스틱 회귀 67


③ 의사결정 트리 71




CHAPTER 4 차원축소 85


① PCA 최대분산 이론 87


② PCA 최소제곱오차 이론 92


③ 선형판별분석 96


④ 선형판별분석과 주성분분석 101




CHAPTER 5 비지도학습 107


① k평균 클러스터링 109


② 가우스 혼합 모델 121


③ 자기 조직화 지도 125


④ 클러스터링 알고리즘 평가 131




CHAPTER 6 확률 그래프 모델 137


① 확률 그래프 모델의 결합확률분포 139


② 확률 그래프 표현 142


③ 생성모델과 판별모델 146


④ 마르코프 모델 148


⑤ 토픽 모델 156




CHAPTER 7 최적화 알고리즘 163


① 지도학습에서의 손실함수 165


② 머신러닝에서의 최적화 문제 169


③ 전통적인 최적화 알고리즘 172


④ 경사하강법 검증 방법 177


⑤ 확률적 경사하강법 180


⑥ 확률적 경사하강법의 가속 184


⑦ L1 정규화와 희소성 192




CHAPTER 8 샘플링 199


① 샘플링의 역할 201


② 균등분포의 난수 204


③ 자주 사용하는 샘플링 방법 207


④ 가우스 분포 샘플링 212


⑤ 마르코프 체인 몬테카를로 219


⑥ 베이지안 네트워크 샘플링 225


⑦ 불균형 샘플 집합에서의 리샘플링 230




CHAPTER 9 피드 포워드 신경망 235


① 다층 퍼셉트론과 부울 함수 237


② 딥러닝의 활성화 함수 245


③ 다층 퍼셉트론의 오차역전파 알고리즘 249


④ 딥러닝 훈련 테크닉 257


⑤ 합성곱 신경망 263


⑥ ResNet 271




CHAPTER 10 순환신경망 277


① 순환신경망과 합성곱 신경망 279


② 순환신경망의 그래디언트 소실 문제 281


③ 순환신경망의 활성화 함수 284


④ LSTM 네트워크 286


⑤ Seq2Seq 모델 290


⑥ 어텐션 메커니즘 294




CHAPTER 11 강화학습 299


① 강화학습 기초 301


② 비디오 게임에서의 강화학습 308


③ 폴리시 그래디언트 313


④ 탐색과 이용 317




CHAPTER 12 앙상블 학습 323


① 앙상블 학습의 종류 325


② 앙상블 학습 단계와 예제 329


③ 기초 분류기 332


④ 편향과 분산 334


⑤ GBDT 알고리즘의 기본 원리 338


⑥ XGBoost와 GBDT의 차이점, 그리고 연관성 342




CHAPTER 13 생성적 적대 신경망 347


① 처음 만나는 GANs의 비밀 349


② WGAN: 저차원의 유령을 잡아라 357


③ DCGAN: GANs이 합성곱을 만났을 때 365


④ ALI 372


⑤ IRGAN: 이산 샘플의 생성 377


⑥ SeqGAN: 텍스트 시퀀스 생성 382




CHAPTER 14 인공지능의 응용 현황 391


① 알고리즘 마케팅 393


② 게임에서의 인공지능 409


③ 자율 주행에서의 AI 428


④ 기계 번역 439


⑤ 인간과 컴퓨터 상호작용 443




에필로그 및 저자 소개 449


참고문헌 465


찾아보기 470



출처: https://jpub.tistory.com/1057 [제이펍의 참 똑똑한 2비트 책 이야기]



채용에 참고하거나 학습을 위해서 (좋은 문답집이라면, 항목에 대한 액기스를 물어봤을 것이므로) 신청했는데요. 정보습득에는 도움이 되나 좋은 사람을 채용할 수 있는 내용이냐? 에는 고개가 갸우뚱 해집니다. 언급되어있는 내용, 특정 알고리즘 등에 대한 개념을 알고 있는 것과, 회사가 직면한 문제 상황을 풀 수 있다는 것과는 괴리가 있기 때문인데요. 뭐, 이 부분은 본 글에서 다루기에 적절하지 않은 것 같아서 다른 글에서 이야기할까 싶습니다. 책 내용 자체는 괜찮습니다. 재미있어요. 



문제를 몇 개 요약해서 적어보면


7) 이미지 데이터가 부족할 때는 어떻게 처리해야 할까요?


질문) 이미지 분류 문제에서 훈련 데이터가 부족하다면 어떤 문제를 일으킬까요? 어떻게 데이터 부족이 야기하는 문제들을 완화할 수 있을까요?


해답) 

1) 일정 범위 내에서 이미지에 대한 회전, 평행 이동, 축소, 확대, 삭제, 추가, 좌우 전환 등의 변화를 줄 수 있습니다. 

2) 이미지에 대해 노이즈를 추가합니다. 

3) 색상을 변환합니다. 

4) 명암, 해상도, 광도, 첨예도(acutance)를 변환합니다. 


물론 이렇게 답만 적혀있지 않고 한 장 정도 분량의 설명과 예시가 적혀있고, 수식단위도 가끔 다룹니다. 




아쉬운 점은..

원제가 <The Quest for Machine Learning>이라는 것입니다. 

번역서의 제목은 <데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집>이어서 조금 낚인 느낌이 들었네요. 데이터 엔지니어를 위한 시스템 설계, 운용에 관련된 내용들이 조금 있을 줄 알았는데 전혀 없었거든요. 이 부분은 데이터 엔지니어링보다는 머신러닝 엔지니어링에 가깝고, 그보다는 머신러닝 엔지니어도 알면 좋을 개념들에 가깝다는 생각이 드네요. 한국의 JD들에서 언급되는 포지션과 역할로서는 그 편이 더 적절하지 않나 싶네요. 머신러닝에 관련된 업무를 하는 사람이라면 얻을 게 있는 책이라고 봅니다. 








매거진의 이전글 [es] bool, filter, must, score
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari