데이터 분석을 공부하다 보면 통계학 공부 외에도 시니어 데이터 사이언티스트들(저는 주로 인터넷에서 접하기 때문에 대부분 외국인입니다)이 추천하는 것들이 있습니다. 그중 하나가 책을 읽는 것입니다. 그중에서도 중복되게 나타나는 저자의 이름이 나심 탈렙과 네이트 실버입니다. 특히 네이트 실버는 굉장히 유명한 사람이지만, 이 분의 책이라 하면 사실상 신호와 소음을 의미합니다. 700장 이상 분량에 레퍼런스만 100장 정도 되는 책이라 아껴두다 드디어 읽었습니다. 한 줄로 평가하자면 '왜 꼭 읽어보라 하는지 알겠다'입니다. 그 이유는 분석하는 사람의 태도를 형성해주기 때문입니다. 분석은 스킬로만 하는 것은 아닐 것입니다. 그렇지만 이런 태도, 마음가짐 같은 것은 수업이나 교과서에서 다루지 않죠.
명저로 불리는 많은 외국 대중 서적들이 그러하듯 이 책도 수많은 예시로 구성되어 있습니다. 유익한 예시와 본인이 인터뷰한 내용들을 적절히 녹여내면서 본인이 하고자 하는 핵심을 계속해서 얘기합니다 (사실 이것 때문에 질리기도 함). 많은 내용이 있지만 제가 생각하는 이 책의 핵심은 단 하나, "베이지안"입니다. 제 기억으로는 베이즈 정리 자체는 고등학교 때도 배웠던 것 같은 느낌이 있습니다. 대중서인만큼 이 책에서 저자의 의도도 베이즈 정리를 이해시키는 것 같습니다. 공부하는 입장에서 난이도 있는 베이지안 내용은 정말 어렵지만 이 책에서는 좀 더 그 정신에 입각해서 주장합니다. 베이지안적 접근은 내가 지금은 틀릴 수 있지만 계속해서 정보를 받아들이고 그에 맞춰 판단을 조정하고 더 발전한다는 정신을 가졌습니다. 책에 나온 예시와 비슷하게 상황을 하나 만들어내자면 축구 경기를 볼 때, 내가 돈을 건 팀의 선수가 부상으로 교체가 된다면 배팅액을 낮추고, 골을 넣었다면 배팅액을 높이는 식으로 정보를 받으면 그에 맞게 행동도 바꾸는 것이죠. 이런 내기를 해본 적이 없어서 일반적으로 내기가 어떻게 진행되는지는 잘 모르겠지만, 가능하다면 추가적인 정보를 계속 예측에 사용하라는 것입니다. 이런 건 포커 게임에도 사용되고, 선거 결과 예측에도 사용할 수 있습니다. 6개월 전 지지율과 선거 2일 전 지지율은 결과와의 상관 정도가 굉장히 다르겠죠. 추가적으로 저자는 선거 결과 예측에 있어 다른 방송사의 결과 예측을 활용하기도 했다는데 앙상블 개념도 생각나고 실용적이라는 생각이 들었습니다.
베이즈 주의는 빈도 주의와 반대의 관점을 가진 접근법입니다. 제가 생각하는 베이즈 주의의 장점은 계속해서 업데이트하는 것이 크게 어렵지 않다는 점과 사전 확률을 가지게 할 수 있다는 점입니다. 또한 더 나아가 이 책은 베이지안적 태도를 강조하는 만큼, 사용하는 데이터만이 아니라 사용하는 모델 자체를 꾸준히 업데이트했던 얘기도 다루고 있습니다.
다루는 주제의 범위도 넓고 이야기 식으로 되어있어 책이 두껍지만 하고자 하는 말은 베이즈 주의 하나라고 생각돼서 리뷰가 짧게 끝나게 되었습니다. 마지막으로 책에서도 나온 "고슴도치와 여우" 비유를 얘기하고 끝내겠습니다. "여우는 많은 것을 알고, 고슴도치는 큰 것 하나를 안다"라는 라틴어 격언이 있다고 합니다. 누가 더 좋은가는 개인마다 견해 차이가 있어 다르지만, 한결같은 주장을 펼친 저자는 분석에 있어 고슴도치보다 여우가 더 좋다고 하네요. 소위 말하는 빅데이터 시대에, 고슴도치에게 많은 정보는 독이 될 수 있지만 여우에게 많은 정보는 힘이 될 수 있을 것입니다.
* 베이지안 얘기를 주로 하지만 통계를 다루는 다른 책에서 많이 경고하는 평균의 함정이나, 휴리스틱(데이터로 보지 않고 직관과 자기 생각에 의존해서 판단하는 것), 멱 법칙 등을 다루고 있어 재밌게 읽을 수 있습니다.