[홍창수 서평] 데이터 사이언티스트 실전 노트
데이터사이언티스가 자신이 하는 일을 정확하게 책으로 내는 일은 의미 있는 일이다. 저자는 데이터사이언티스가 되기 위해 캐나다로 유학가서 캐나다에서 데이터사이언티스트가 되었으니 본인이 목표로한 것을 성취한 것에 보람이 있으리라 생각된다. 이 책 '데이터사이언티스트 실전노트'는 데이터사이언티스트 직무, 데이터 유형, 파이썬을 활용한 전처리, 통계, 코드작성법까지 단계별로 설명하고 있는 책이다.
최근 대부분의 회사가 데이터사이언티스를 채용하기 위해 채택하고 있는 방법은 코딩테스트와 포트폴리오를 보고 입사자의 능력을 테스트하는데, 이 책은 코딩테스트에 관한 내용은 본문을 참조하면 많은 도움이 될 것이라 생각되며, 책의 백미는 본인이 만들수 있는 코딩 프로젝트인 '포트폴리오 작성법'에 대해 배울 수 있다는 점이다.
클래스101에 ‘데이터과학자 실무프로젝트’라는 저자의 강좌가 개설된 것으로 아는데, 개인적으로 저자가 제공하는 'Data Scientist 이지영' 유튜브 채널 https://bit.ly/3yfUQG7 을 우선적으로 참고하라고 이야기하고 싶다. 보통의 책이 교과서적인 접근을 하는데 비해, 실무적 관점에서 본인이 실수했거나 터득한 노하우를 전달하고 있다는 점에서 이 책은 데이터사이언티스가 되려는 사람에게 좋은 가이드북이 될 것이라 생각한다.
--------------------------------------------
데이터 사이언티스트 실전
데이터 핵심부터 포트폴리오까지, 한 권으로 돌파하기
이지영 지음 | 비제이퍼블릭 | 2022년 06월 29일 출간
이 시대의 가장 섹시한 직업, 데이터 사이언티스트?!
소문만 무성한 데이터 사이언티스트의 모든 것을 알려드립니다!
1. 데이터 사이언티스트의 실제 업무를 알려드리고, 데이터 사이언티스트가 되기 위한 필수 역량을 체크리스트로 알려줍니다.
막연하게 데이터 사이언티스트를 꿈꾸는 것은 이제 그만! 데이터 사이언티스트의 업무가 무엇인지 정확히 이해하고 그 업무를 해결하기 위한 필수 역량이 적힌 체크리스트를 확인해 보세요! 체크리스트를 기반으로 계획을 세워 공부하다 보면, 어느새 여러분은 데이터 사이언티스트에 한 발짝 가까워질 거예요!
2. 현업에서 일어나는 실제 상황 속, 데이터 사이언티스트의 해결 방법을 알려줍니다.
현업에서 데이터 사이언티스트가 마주하는 상황 속, 해결 방법을 알려드립니다. ‘내가 이런 상황에 있다면 나는 어떻게 해야 할까? 어떻게 하는 것이 옳을까?’ 스스로 가치 판단면서 상황을 해결해가는, 진짜 데이터 사이언티스트가 될 수 있어요!
3. 매력적인 포트폴리오 작성법을 알려줍니다.
취업/이직 시장에서는 매력적인 포트폴리오를 작성하는 것이 가장 중요합니다. 데이터 사이언티스트의 업무도 잘 모르는데, 매력적인 포트폴리오 작성하기란 너무 쉽지 않죠?
매력적인 포트폴리오로 취업하고, 이직 시장에서 경쟁력을 갖추는 비법을 싹 다 공개할 테니, 이제 매력적인 데이터 사이언티스트로 거듭나세요!
4. 데이터 분석을 위한 기초 파이썬과 기본 통계 지식은 덤!
데이터 분석, 더 이상 맨땅에 헤딩하지 마세요! 데이터 분석을 위해 꼭 필요한 기초 파이썬과 기본 통계 지식을 덤으로 배워갈 수 있습니다. 배워야 할 것은 빠르게 습득하여, 유능한 ‘데이터 사이언티스트’로 성장하세요!
목차
저자 소개 서문 베타 리더 추천사 이 책의 구성
1장 데이터 사이언티스트 이해하기
1.1 데이터 직무 알아보기
1.1.1 데이터 직무 세 가지: 데이터 분석가, 데이터 엔지니어, 데이터 사이언티스트
1.1.2 데이터 직무별 갖춰야 할 필수 능력
1.2 데이터 사이언티스트를 왜 하필 데이터 사이언티스트라고 할까
1.2.1 회사가 데이터 사이언티스트에게 바라는 점
1.2.2 진짜 데이터 사이언티스트가 갖춰야 할 역량
1.3 데이터 사이언티스트를 희망한다면 이것부터 살펴라
1.3.1 관련 전공자와 석·박사를 우대하는 현실
1.3.2 체크리스트로 보는 나는 무엇을 키워야 할까
2장 데이터 사이언티스트에서 “데이터”
2.1 데이터 유형
2.1.1 정형 데이터(Structured Data)
2.1.2 비정형 데이터(Unstructured Data)
2.1.3 반정형 데이터(Semi-structured Data)
2.1.4 내게 필요한 데이터 유형은 무엇일까?
2.2 데이터에서 확인해야 할 사항
2.2.1 4가지 상황에서 살펴본 데이터 크기(Size)
2.2.2 데이터의 값에 따른 종류
2.2.3 결측치(Missing Value)
2.2.4 중복 데이터
2.2.5 식별키(Prime Key, Primary Key)
2.2.6 상황으로 살펴보는 스키마 생성 예시
2.3 데이터 합치기
2.3.1 데이터프레임 결합: pd.merge()
2.3.2 데이터프레임 결합: df_left.join(df_right, ...)
2.3.3 여러 데이터프레임 연결: pd.concat()
2.3.4 데이터프레임, 배열, 리스트, 딕셔너리 연결: .append()
2.3.5 상황으로 살펴보는 데이터 합치기 활용
3장 데이터 사이언티스트에서 “사이언티스트”
3.1 데이터 사이언티스트는 무엇을 하는 사람인가
3.1.1 질문을 통해 문제점 찾기
3.1.2 수학과 통계 얼마나 잘해야 할까
3.2 기본 통계로 질문자 되기
3.2.1 평균인 μ와 , 무엇이 다를까?
3.2.2 수학과 통계는 무엇이 다를까?
3.2.3 확률, 가능도, 최대 가능도 추정, 통계 차이는?
3.2.4 통계 vs. 머신러닝 그리고 모수 vs. 비모수 차이는 무엇일까?
3.2.5 정규분포를 포함한 분포는 결국 OO이다
3.2.6 분포는 무엇으로 결정될까?
3.2.7 중심경향값을 계산하는 대표적인 세 가지는 무엇일까?
3.2.8 중심경향을 제외한 분포 파악에 필요한 통계치는 무엇일까?
3.2.9 적률로 이해하는 분포 특징 4가지
3.2.10 피처 스케일링할 것인가, 말 것인가? 지도학습 사용 목적으로 판단하기
3.2.11 피처 스케일링 방법 중 선택 기준이 있을까?
3.2.12 꼭 분포를 바꿔야 할까? 로그 변환, 파워 변환에서 손실과 이익을 따져 보기
3.2.13 중심극한정리에서 시작하는 추리통계
3.2.14 [가설검정 (1) - 가설 설정] 귀무가설을 ?? =0이라고 하면 안 되는 이유
3.2.15 [가설검정 (2) - 유의수준] 가설을 선택하는 기준 & 선택에 따른 오류
3.2.16 [가설검정 (3) - 검정 통계량] 통계방법 선택하는 방법
3.2.17 [가설검정 (4) - α vs. p-value, 임계치 vs. 검정 통계량] 가설검정 결론 내리기
3.2.18 두 개 이상의 변수 관계를 이해할 때 알아야 할 개념: 공분산, 상관계수, 선형성, 공선성, 다중공선성
3.2.19 차원의 저주란 무엇일까?
3.2.20 저주를 풀어줄 PCA란?
3.2.21 필요한 변수만 선택해야 할 때 어떤 방법이 좋을까?
3.3 100개 지식을 아는 사람 vs. 110개 지식을 아는 사람, 누가 진정한 데이터 사이언티스트일까?
4장 데이터 사이언티스트가 하는 일
4.1 직장인으로서 데이터 사이언티스트
4.1.1 피할 수 없는 ‘업무 정의의 모호성’
4.1.2 업무를 제대로 이해하는 방법
4.1.3 업무의 방향성을 지켜 줄 두 가지의 방법
4.1.4 당신을 돋보이게 할 상황에 따른 커뮤니케이션 방법
4.2 꼭 알아야 할 키워드
4.2.1 모델의 수익화(Web API)
4.2.2 불확실성(Uncertainty) 다루기
4.2.3 모델 해석 능력(Interpretability)
4.2.4 업무 효율성 - 자동화 머신러닝, 파이프라인
5장 포트폴리오로 시작하기
5.1 왜 포트폴리오일까?
5.2 당신을 함정에 빠뜨릴 포트폴리오
5.2.1 누구나 다 아는 데이터
5.2.2 복사 & 붙여넣기 식의 포트폴리오
5.2.3 양 vs. 질: 양을 선택한 포트폴리오
5.3 포트폴리오 예시
5.3.1 주제 찾기 & 문제점 제시
5.3.2 데이터
5.3.3 해결 과정
5.3.4 결과
5.3.5 플랫폼 선택, 문서화
5.3.6 재검토
5.3.7 마치며
에필로그
찾아보기