brunch

You can make anything
by writing

C.S.Lewis

by 밸류닥터 구자룡 Jan 26. 2022

나도 3일 만에 코딩과 통계를 끝낼 수 있을까?

3일 만에 끝내는 코딩+ 통계

박준석, 3일 만에 끝내는 코딩+ 통계, 사회평론아카데미, 2021.


<훔치고 싶은 한 문장>

현대사회에서 발생하는 문제들은 점점 확률과 통계학적 사고 능력을 필요로 하는 경우가 많아지고 있습니다.


<리뷰>

비록 책 제목과 같이 3일 만에 끝내지는 못했지만 만약 집중해서 읽고 코딩하면 진짜 3일 만에 끝낼 수 있는 책이다. 다른 일과를 핑계로 며칠이 더 걸렸지만 기초적인 통계학을 공부하는데 꼭 한 번 읽으면 좋은 책이라고 생각된다. 이유는 매우 단순하다. 이런 류의 책이 없었기 때문이다. 통계학과 데이터 분석을 오래 공부해 오고 있지만 여전히 어렵고 이 책으로도 이해되지 않는 부분들이 있다. 이것은 순전히 나의 능력 부족이라고 생각된다. 접근법이 다르기 때문에 통계학과 코딩, 그리고 R에 대해 흥미롭게 공부하는 계기가 되었다.


이 책은 R 코딩을 기본으로 제공하고 있다. 통계를 이론으로 배우는 것이 아니라 코딩을 통해 왜 그렇게 되는지를 이해시키려고 한다. 비유를 든다면 컴퓨터 모니터에서 나타나는 결과가 얻어지는 이면의 작업을 직접 코딩을 하면서 통계학과 데이터 분석과 R 랭귀지를 함께 공부하는 것이다. 통계학에서 공부해야 하는 기초적이고 중요한 내용인 순열과 조합, 확률, 조건부 확률, 확률분포, 통계적 추정, 그리고 부트스트랩까지 개념을 잡을 수 있다.


저자는 "통계학 이론을 충분히 이해하지 못한 상태에서 편리한 통계 분석 도구(Excel, SAS, SPSS, STATA ) 결과를 얻는 데만 익숙해지면, 스스로 무엇을 하는지조차 정확히 이해하지 못한  기계적으로 통계 절차를 적용하고 생각 없이 결과를 해석하게   있습니다."라고 경고하고 있다. 개인적인 경험이 하나 있다. 박사학위 논문 심사를 받으며 내가 분석한 정준상관관계 분석(SPSS) 결과물에 대해  그런 결과가 나오는지에 대한 질문을 받고 제대로 설명을 못하는 부끄럽고 긴장된 순간이 있었다. 당시 논문 심사위원이셨던 임종원 교수님께서 통계분석 결과가  그렇게 나올 수밖에 없는지  이면의 알고리즘을 바탕으로 설명해주셨다. 당시 분석 결과가 무의미해서 연구모델을 대대적으로 수정하고 1개월 휴가를 내며 고군분투하여 구조방정식모형(Amos)으로 논문을 마무리하여 박사학위를 취득했었다. 그때부터 제대로 통계를 공부해 보고자 했으나 아직도 헤매고 있는 중이다.  책에서는 이런 문제를 해결하기 위한 공부방법으로 "프로그래밍 언어로 소위 ‘밑바닥부터 직접 코드를 짜보며 통계학을 이해"하는 접근법을 제시하고 있다.


마지막 장에 통계학을 공부해야 하는 이유와 추가적으로 좀 더 깊이 있게 공부하는 방법까지 제시하고 있어서 통계학과 데이터 분석 입문서로 손색이 없다. 다만 코딩과 R 랭귀지를 접해보지 못한 사람은 앞부분에서 큰 장벽에 직면할 수 있는데 이 부분은 어쩔 수 없는 선택이라고 생각된다. 이 기회에 코딩과 R 프로그래밍을 제대로 공부하고 싶은 욕구가 생길 수도 있다. 그리고 데이터 과학자인 저자의 여러 관점을 엿볼 수 있다. 통계학과 데이터 과학, 빈도주의 통계학과 베이즈 통계학 등 여러 이슈에 대해 짧게나마 하나의 관점을 제시해 준 점을 높이 사고 싶다. 각 장 마지막에 박스로 추가 설명 및 에피소드를 이야기 형식으로 풀어준 부분은 재미와 흥미를 더해 주었다.



<기억하고 싶은 문장>

p.4. 여기저기에서 데이터 분석과 통계학을 배우지 않으면 남들보다 뒤처질 것처럼 이야기를 하다 보니 왠지 배워야 할 것 같습니다.

p.16. 파이선Python을 사용하면 데이터 분석뿐 아니라 웹 애플리케이션, 애니메이션, 게임 등 매우 다양한 것들을 개발할 수 있습니다.

p.17. R을 사용하면 각종 통계 분석과 확률 시뮬레이션을 손쉽게 할 수 있습니다. 현존하는 프로그래밍 언어들 중 R이 이런 기능을 가장 잘 지원한다고 해도 과언이 아닙니다.

p.24. 통계학 이론을 충분히 이해하지 못한 상태에서 편리한 통계 분석 도구(Excel, SAS, SPSS, STATA 등)로 결과를 얻는 데만 익숙해지면, 스스로 무엇을 하는지조차 정확히 이해하지 못한 채 기계적으로 통계 절차를 적용하고 생각 없이 결과를 해석하게 될 수 있습니다.

p.24. 프로그래밍 언어로 소위 ‘밑바닥’부터 직접 코드를 짜보며 통계학을 이해하면 그런 위험(기계적으로 통계 절차를 적용하고 생각 없이 결과를 해석하는)을 줄일 수 있습니다.

p.165. 통계학이나 데이터 분석에서 코딩이 강조되는 정도가 예전에 비해 비약적으로 높아졌습니다. 날이 갈수록 일상에서의 문제를 해결하는 데 학문 간 경계는 무너지고 서로의 힘을 합쳐 더 나은 방법을 찾는 경향이 각광받고 있습니다. 앞으로 이런 경향은 날이 갈수록 심화될 것입니다.

p.180. 통계학은 궁극적으로는 불확실성을 확률론의 언어로 계량하는 학문이라고 할 수 있고 이는 데이터 과학에서 통계학이 가장 잘할 수 있는 작업이기도 합니다.

p.181. 빅데이터의 시대라고 해서 모든 데이터의 크기가 크다고 생각하면 오산입니다. 분석 현장에서 맞닥뜨리는 자료는 꽤 작습니다.

p.184. 현대사회에서 발생하는 문제들은 점점 확률과 통계학적 사고 능력을 필요로 하는 경우가 많아지고 있습니다.


<함께 읽으면 좋은 문헌>   

숫자에 약한 사람들을 위한 통계학 수업 : 데이터에서 세상을 읽어내는 법, 데이비드 스피겔할터 저, 권혜승, 김영훈 역, 웅진지식하우스, 2020. 원제 : The Art of Statistics.

수학의 쓸모 :불확실한 미래에서 보통 사람들도 답을 얻는 방법, 닉 폴슨, 제임스 스콧 저, 노태복 역, 더퀘스트, 2020. 원제 : AIQ.

데이터 과학을 위한 통계, 피터 브루스, 앤드루 브루스, 피터 게데크 저, 이준용 역, 한빛미디어, 2021. 원제 : Practical Statistics for Data Scientists.

매거진의 이전글 사람들의 솔직한 생각을 어떻게 하면 읽을 수 있을까?
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari