읽은 기간 : 2021. 12. 4. – 2021. 12. 20.
읽은 방법 : 밀리의서재 앱 + 갤럭시노트10 & 오닉스 북스 리프
총평
통계학과 데이터과학에 대한 패키지여행 가이드 투어와 같은 책. 가이드 여행이 끝나고 나면 여행지에 대해 ‘디테일하진 않지만 중요한 곳들은 잘 보고 왔다’고 생각하게 되는 것처럼, 마지막 페이지를 넘기고 나면 통계학과 데이터과학에 대해 ‘자세히는 모르겠지만 이런 개념이 있고 이런 관점이 있구나’라고 알 수 있게 된다.
자세히
프롤로그 마지막 문단이 이 책을 가장 정확하게 설명한다.
“책에서는 데이터과학에서 다루는 복잡하고 어려운 방법을 설명하지 않습니다. 다만 데이터를 통한 합리적 의사결정이 왜 어려운지 일상 속 여러 사례를 통해서 소개하고, 다양한 분야에서 데이터과학의 활약상을 살펴볼 예정입니다.”
데이터과학이나 통계학의 복잡한 이론 혹은 수식은 거의 등장하지 않는다. 대신 이 책을 읽으면서 느낄 수 있는 건 ‘아 확률이라는 게 이렇게 오묘하구나’ ‘평균으로의 회귀라는 개념이 있구나’ ‘통계가 그렇게 어렵다고 어렵다고 하던데, 이래서 어렵구나’ ‘과학, 의학, 질병관리, 정치, 금융, 제조업, 마케팅 등등 요즘은 데이터과학이 안 끼는 곳이 없구나’ 하는 생각들이다.
데이터와 통계에 대해 ‘책’을 읽은 건 이번이 처음이었다. 올해 들어 회사에서 지표 관련 업무를 하고 있다보니 팟캐스트 ‘데이터홀릭’을 종종 듣기는 하지만, 오며가며 듣는 팟캐스트보다는 역시 문자로 읽는 게 기억에 더 많이 남는 것 같다.
아무튼 그렇게 통계 관련 지식이 일천하다보니, 책을 읽으면서 처음 알게 된 개념어나 표현이 많았다. 대략 아래와 같은 것들을 처음 알게 되거나, 이름만 들어봤던 수준에서 ‘그게 뭔지’ 대략적으로나마 이해할 수 있는 수준이 되었다.
빈도확률과 주관적 확률
도박사의 파산 문제
조건부확률
변호사의 오류
중심극한정리
(통계 개념어로서) 변동
통계적 가설검정
귀무가설과 대립가설
평균으로의 회귀
임의보행
브라운 운동
과적합 문제
차원의 저주
포획-재포획
다중비교의 오류
출판 편이 (publication bias)
모라벡의 역설
다양한 사례와 역사적인 사실을 읽으면서 통계학과 데이터과학에서 다루는 여러 가지 문제와 개념에 대해 쉽게 이해할 수 있었다. 통계 전공자라면 너무 쉬운 내용일 것 같고, 배경지식 없는 나 같은 사람이 읽기에 좋은 책이었다.