2021년 10월 11일 출판. 11월 독서
관심은 있었지만, 실무적으로 해보지도 못했을 법한 머신러닝의 분야를 계속해서 접하고 있고, 그 근처에서 헤매고 있다는 것만으로도 감사할 일이라 생각된다. 그 이유는 내 전공은 자연계이고 생물학, 생화학, 분자생물학, 유전공학, 약리학을 공부했기 때문에 공학, 머신러닝, 딥러닝은 기존의 전공과 연계성도 없고, 향후 커리어를 쌓을 때 필요 없을 수 있기 때문이다.
머신러닝을 공부하면서 느끼는 것은 재밌다? 신기하다?이다. 하지만 더 많이 느끼는 것은 어렵다?이다. ANN RNN CNN 듣기만 해도 어려운 단어들이 출몰하고, 머신러닝과 딥러닝의 차이는 이론적으로 알겠는데 막상 한걸음 들어가 보니 경계도 모호하다. 머신러닝을 배우고 있는데 왜 딥러닝 알고리즘을 배워야 하는지 모를 때가 많다.
본론으로 돌아가서 본 책에 대한 내용은 간단하게 적어본다.
CHAPTER 1 머신러닝 파이프라인
CHAPTER 2 TFX - 텐서플로 익스텐디드
CHAPTER 3 데이터 수집
CHAPTER 4 데이터 검증
CHAPTER 5 데이터 전처리
CHAPTER 6 모델 학습
CHAPTER 7 모델 분석 및 검증
CHAPTER 8 텐서플로 서빙을 사용한 모델 배포
CHAPTER 9 텐서플로 서비스를 사용한 고급 모델 배포
CHAPTER 10 고급 TFX
CHAPTER 11 파이프라인 1부: 아파치 빔 및 아파치 에어플로
CHAPTER 12 파이프라인 2부: 쿠베플로 파이프라인
CHAPTER 13 피드백 루프
CHAPTER 14 머신러닝을 위한 데이터 개인정보 보호
CHAPTER 15 파이프라인의 미래와 다음 단계
APPENDIX A 머신러닝에 유용한 인프라 소개
APPENDIX B 구글 클라우드에 쿠버네티스 클러스터 설정하기
APPENDIX C 쿠베플로 파이프라인 조작 팁
머신러닝 파이프라인 : GPU의 광범위한 가용성과 BERT와 같은 트랜스포머나 DCGAN과 같은 GANs 등 새로운 딥러닝 개념의 등장으로 AI 프로젝트가 급증했다. 모든 요소에 사용되는 다양한 머신러닝 모델을 가속, 재사용, 관리 및 배포하는 프로세스를 표준화 하는것이 머신러닝 파이프라인이라고 할 수 있다.
머신러닝 파이프라인의 단계
모델 학습 -> 데이터 드리프트 확인 -> 전처리 -> 학습 -> 추적 -> 튜닝 -> 분석/검증 -> 배포 -> 스케일링 -> 피드백 루프
머신러닝 파이프라인을 도표로 보면 아래와 같으며, 이 책은 아래의 프로세스 과정을 각 챕터별로 상세하게 설명하고 관련 코드와 예제를 활용할 수 있다.
TFX : TensorFlow Extended(TFX)는 프로덕션 ML 파이프라인을 배포하기 위한 엔드 투 엔드 플랫폼이다. 적합한 버전을 확인하여 설치할 수 있다.
tfx를 활용한 예제 코드이다.
워크플로의 분리 모델 : 모델 서빙 컨테이너는 한 번만 배포되고, 데이터 과학자는 버킷의 웹 인터페이스나 명령줄 복사 작업으로 새 버전의 모델을 스토리지 버킷에 업로드할 수 있다.
텐서플로 모델을 활용한 예제 코드이다.
아무리 많은 영상을 보고 공부해보았지만, 파이프라인은 또 정말 새롭다. 여러 알고리즘과 학습 모델이 있지만 배울 때마다 늘 새롭고 어렵다.
한 줄로 설명하자면 본 책은 머신러닝 전 프로세스를 이해하고 이를 활용하여 실제 제품에 적용되는 모든 과정을 이해할 수 있는 책이라고 할 수 있다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."