3일 만에 끝내는 코딩+ 통계
박준석, 3일 만에 끝내는 코딩+ 통계, 사회평론아카데미, 2021.
현대사회에서 발생하는 문제들은 점점 확률과 통계학적 사고 능력을 필요로 하는 경우가 많아지고 있습니다.
비록 책 제목과 같이 3일 만에 끝내지는 못했지만 만약 집중해서 읽고 코딩하면 진짜 3일 만에 끝낼 수 있는 책이다. 다른 일과를 핑계로 며칠이 더 걸렸지만 기초적인 통계학을 공부하는데 꼭 한 번 읽으면 좋은 책이라고 생각된다. 이유는 매우 단순하다. 이런 류의 책이 없었기 때문이다. 통계학과 데이터 분석을 오래 공부해 오고 있지만 여전히 어렵고 이 책으로도 이해되지 않는 부분들이 있다. 이것은 순전히 나의 능력 부족이라고 생각된다. 접근법이 다르기 때문에 통계학과 코딩, 그리고 R에 대해 흥미롭게 공부하는 계기가 되었다.
이 책은 R 코딩을 기본으로 제공하고 있다. 통계를 이론으로 배우는 것이 아니라 코딩을 통해 왜 그렇게 되는지를 이해시키려고 한다. 비유를 든다면 컴퓨터 모니터에서 나타나는 결과가 얻어지는 이면의 작업을 직접 코딩을 하면서 통계학과 데이터 분석과 R 랭귀지를 함께 공부하는 것이다. 통계학에서 공부해야 하는 기초적이고 중요한 내용인 순열과 조합, 확률, 조건부 확률, 확률분포, 통계적 추정, 그리고 부트스트랩까지 개념을 잡을 수 있다.
저자는 "통계학 이론을 충분히 이해하지 못한 상태에서 편리한 통계 분석 도구(Excel, SAS, SPSS, STATA 등)로 결과를 얻는 데만 익숙해지면, 스스로 무엇을 하는지조차 정확히 이해하지 못한 채 기계적으로 통계 절차를 적용하고 생각 없이 결과를 해석하게 될 수 있습니다."라고 경고하고 있다. 개인적인 경험이 하나 있다. 박사학위 논문 심사를 받으며 내가 분석한 정준상관관계 분석(SPSS)의 결과물에 대해 왜 그런 결과가 나오는지에 대한 질문을 받고 제대로 설명을 못하는 부끄럽고 긴장된 순간이 있었다. 당시 논문 심사위원장이셨던 임종원 교수님께서 통계분석 결과가 왜 그렇게 나올 수밖에 없는지 그 이면의 알고리즘을 바탕으로 설명해주셨다. 당시 분석 결과가 무의미해서 연구모델을 대대적으로 수정하고 1개월 휴가를 내며 고군분투하여 구조방정식모형(Amos)으로 논문을 마무리하여 박사학위를 취득했었다. 그때부터 제대로 통계를 공부해 보고자 했으나 아직도 헤매고 있는 중이다. 이 책에서는 이런 문제를 해결하기 위한 공부방법으로 "프로그래밍 언어로 소위 ‘밑바닥’부터 직접 코드를 짜보며 통계학을 이해"하는 접근법을 제시하고 있다.
마지막 장에 통계학을 공부해야 하는 이유와 추가적으로 좀 더 깊이 있게 공부하는 방법까지 제시하고 있어서 통계학과 데이터 분석 입문서로 손색이 없다. 다만 코딩과 R 랭귀지를 접해보지 못한 사람은 앞부분에서 큰 장벽에 직면할 수 있는데 이 부분은 어쩔 수 없는 선택이라고 생각된다. 이 기회에 코딩과 R 프로그래밍을 제대로 공부하고 싶은 욕구가 생길 수도 있다. 그리고 데이터 과학자인 저자의 여러 관점을 엿볼 수 있다. 통계학과 데이터 과학, 빈도주의 통계학과 베이즈 통계학 등 여러 이슈에 대해 짧게나마 하나의 관점을 제시해 준 점을 높이 사고 싶다. 각 장 마지막에 박스로 추가 설명 및 에피소드를 이야기 형식으로 풀어준 부분은 재미와 흥미를 더해 주었다.
p.4. 여기저기에서 데이터 분석과 통계학을 배우지 않으면 남들보다 뒤처질 것처럼 이야기를 하다 보니 왠지 배워야 할 것 같습니다.
p.16. 파이선Python을 사용하면 데이터 분석뿐 아니라 웹 애플리케이션, 애니메이션, 게임 등 매우 다양한 것들을 개발할 수 있습니다.
p.17. R을 사용하면 각종 통계 분석과 확률 시뮬레이션을 손쉽게 할 수 있습니다. 현존하는 프로그래밍 언어들 중 R이 이런 기능을 가장 잘 지원한다고 해도 과언이 아닙니다.
p.24. 통계학 이론을 충분히 이해하지 못한 상태에서 편리한 통계 분석 도구(Excel, SAS, SPSS, STATA 등)로 결과를 얻는 데만 익숙해지면, 스스로 무엇을 하는지조차 정확히 이해하지 못한 채 기계적으로 통계 절차를 적용하고 생각 없이 결과를 해석하게 될 수 있습니다.
p.24. 프로그래밍 언어로 소위 ‘밑바닥’부터 직접 코드를 짜보며 통계학을 이해하면 그런 위험(기계적으로 통계 절차를 적용하고 생각 없이 결과를 해석하는)을 줄일 수 있습니다.
p.165. 통계학이나 데이터 분석에서 코딩이 강조되는 정도가 예전에 비해 비약적으로 높아졌습니다. 날이 갈수록 일상에서의 문제를 해결하는 데 학문 간 경계는 무너지고 서로의 힘을 합쳐 더 나은 방법을 찾는 경향이 각광받고 있습니다. 앞으로 이런 경향은 날이 갈수록 심화될 것입니다.
p.180. 통계학은 궁극적으로는 불확실성을 확률론의 언어로 계량하는 학문이라고 할 수 있고 이는 데이터 과학에서 통계학이 가장 잘할 수 있는 작업이기도 합니다.
p.181. 빅데이터의 시대라고 해서 모든 데이터의 크기가 크다고 생각하면 오산입니다. 분석 현장에서 맞닥뜨리는 자료는 꽤 작습니다.
p.184. 현대사회에서 발생하는 문제들은 점점 확률과 통계학적 사고 능력을 필요로 하는 경우가 많아지고 있습니다.
숫자에 약한 사람들을 위한 통계학 수업 : 데이터에서 세상을 읽어내는 법, 데이비드 스피겔할터 저, 권혜승, 김영훈 역, 웅진지식하우스, 2020. 원제 : The Art of Statistics.
수학의 쓸모 :불확실한 미래에서 보통 사람들도 답을 얻는 방법, 닉 폴슨, 제임스 스콧 저, 노태복 역, 더퀘스트, 2020. 원제 : AIQ.
데이터 과학을 위한 통계, 피터 브루스, 앤드루 브루스, 피터 게데크 저, 이준용 역, 한빛미디어, 2021. 원제 : Practical Statistics for Data Scientists.