신호와 소음
빅 데이터에 대한 정의나 활용, 마케터에게 어떤 의미가 있는지는 많은 분들이 알고 계실 것 같다. 그래서, Big data라는 새로운 키워드가 우리에게 친근해지기 시작한 지 10여 년이 흐른 지금, 좀 더 비판적인 시각으로 빅데이터를 바라보고 있는 책을 소개하려고 한다.
책의 제목은 <신호와 소음(The Signal and the noise)>, 저자는 네이버 실버라는 사람이다. 저자는 특이한 이력의 소유자이다. 시카고 대학에서 경제학을 전공하였고 회계 컨설팅 회사인 KPMG에 입사하지만 포커판에서 큰돈을 벌어 퇴사를 한다. 퇴사 후에 선거 결과를 예측하는 블로그(Fivethirtyeight.com)를 개설하고 대선 결과를 예측하는 활동을 한다. 그는 2008년 대선과 총선에서 거의 모든 주의 선거 결과를 맞춘다. 이를 계기로 유명세를 타기 시작했고 그의 통계학과 예측에 대한 생각과 철학이 담긴 이 <신호와 소음>이 덩달아 베스트셀러가 되었다.
우리나라에서도 출간이 되고 어느 날부터 ‘신호’와 ‘소음’이라는 비유가 생겼고 많은 이들이 이 책을 읽기 시작했다. 필자는 이 책의 서문과 1장만 2-3번 읽은 것 같다. 구매한 후 읽기를 몇 번 시도했으나 끝맺기를 못했던 것이다. 총 600페이지가 넘는 두꺼운 책이다. 읽기를 작정했다면 끈기와 인내가 필요하다는 정보를 드리면서 내 게으름을 반성한다.
이 책은 ‘예측’에 관한 책이다. 데이터를 가지고 예측을 한다는 것은 빅데이터에 의한 경영혁신 단계 중에서 상위 해당되는 활동이다. 하지만 이 책은 그동안 공부해 왔던 책에서 빅데이터의 핑크빛 그림에 대해서만 얘기하지 않는다. 데이터로 만들어 내는 예측에 대한 이야기이지만 오히려 우리 삶의 주요 영역에서 예측이 적중하지 않은 사례와 그 이유에 대해서 이야기한다.
전반부에서는 미국의 집 값 버블로 인한 경제 붕괴를 예상하지 못한 이유와 배경으로 시작하여 , 본인 미국 선거에서 예측을 적중시킨 사건, 야구가 예측의 모델이 된 이유로 마무리한다. 그리고 움직이는 과녁에 활을 쏘는 것처럼, 허리케인과 신종 플루 등 변화하는 생태계 변종 출연의 예측이 적중하지 못한 배경과 원인 등을 소개하고 있다. 또한 허리케인이나 조류 독감 같은 전염병 같은 재앙을 예측하지 못해 얼마나 많은 사회적 비용이 들었는지 설명하고 있다.
예측에 임하는 태도를 다음과 같이 두 가지 동물로 비유하고 있고 저자는 여우처럼 예측하는 방법을 추천하고 있다 (이해가 쉽지만 이 동물 선정은 너무 이해가 안 간다). 저자의 메시지는 예측에 실패할 수 있다고 생각하면서 조심스럽게 데이터나 예측에 접근해야 한다는 것이다. 여우의 태도는 복잡성에 관대하고 조심스럽게 생각하고 고려할 수 있는 모든 변인을 점검한다. 따라서 관찰 지향적이다. 반연 고슴도치는 대범하게 생각하고 자신감이 넘치는 태도이고 이론에 충실하다. 어쩜 일상생활과 반대되는 결론이지만, 데이터를 다루는 예측은 여우의 태도가 정확한 예측을 할 가능성이 높다는 것이다.-본인의 예측이 무엇이든 맞 출 수 있다고 생각하지 마라. 자신의 신념이나 주장에 근거하지 말고 숫자, 확률에 근거해야 한다
영화 <머니볼>을 통해 빅데이터를 통한 예측, 즉 다음 시즌에 선수들의 Performance를 예측하는 과정은 우리에게 너무나 친숙하다. 머니볼에서 보인 것처럼 여전히 직관에 의존하는 스카우터와 방대한 데이터로 무장한 컨설턴트들의 대립은 여전하다. 그렇지만 잘 나가는 구단일수록 통계자료에 의존하는 그룹과 그들의 직관에 의존하는 스카우터들이 서로의 예측을 존중하는 혼합형 방법을 소개하고 있다. 여기에 한 가지 덧붙여 야구계는 스카우터들이 고려하는 보이지 않고 계량화 할 수 없지만 주의 깊게 고려해야 할 선수들을 평가하는 요소들을 존중하고 있다고 한다. 아래 내용은 얼핏 보아도 야구뿐만 아니라, 우리의 일상생활에서 사람에 관련된 무엇인가를 결정할 때도 동일하게 고려해야 할 항목인 것 같다. 따라서 많은 이들이 이 과정을 타당하게 받아들인 것이다.
준비성과 노동윤리
집중과 초점
경쟁심과 자신감
스트레스 관리와 겸손
적응력과 학습능력
저자가 반복적으로 이야기하는 정확한 예측이 어려운 이유로 <알려지지 않는 미지의 것>, <아는 것과 안다고 생각하는 것 사이의 갭>이다. ‘알려지지 않는 미지의 것’ ‘ 아는 것과 안다고 생각하는 것 사이의 갭’으로 우리의 예측이 엇나가고 질병이 확산되고 홍수가 범람하게 되는 것이다. 우리는 미지의 것, 그러니까 낯선 것은 일어나지 않을 것으로 치부해 버리는 경향을 모두 가지고 있는 이걸 버려야 한다니 어려운 과제이다. 이 세 가지 개념은 요약본으로 이해하기 불가능한 개념이다.
정보량이 기하급수적으로 늘어나고 있다. 이 빅데이터 내의 유용한 데이터는 적다. 소음의 비율이 점점 커지고 있다. 중요한 것은 ‘우리가 아는 것’이 아니라 ‘우리가 아는 것과 우리가 안다고 생각하는 것 사이의 차이다. 이러고 이들의 간극을 좁히는 것이 설루션이기도 하다. 이러한 간극을 어떻게 좁힐까? 궁금했다.
저자가 제시하는 솔루션은 베이즈 주의적 세계관이다. 기존의 통계학이 멈춰 있는 과녁을 맞히는 것이라면 베이즈 주의 통계학은 움직이는 과녁을 맞히는 것이다. 맞히기 위해 유연성을 가져야 하고 끊임없이 시도해야 한다는 것이다. 가장 중요한 불확실성도 인정하고 소음을 걷어내면서 신호를 분석해 나가는 것이다. 이것이 정확한 예측을 위한 노력이다.
빅데이터의 유용성은 모두가 인정하는 내용이지만, 더 효용성을 높이기 위해서는 소음을 제거하고 신호를 분석하는 능력인데 여기에는 더 많고, 다양하고, 더 빠른 데이터 확보뿐만 아니라 사람이 일을 대하는 특성들이 (겸손, 끈기, 통합 등등) 같이 작용해야 한다는 결론이다.
소음과 신호는 어려운 책은 아니지만 방대한 양만큼 생각을 많이 하게 하는 책인 것 같다. 데이터와 예측에 관한 책이기도 하지만 매일매일 끊임없이 의사결정을 해나가면서 살고 있는 우리에게 의미 있는 메시지를 던지고 있다.