속지 않기 위해 배우자
수학의 여러 분야에서 어떤 분야가 가장 실용적일까? 사칙연산을 제외하면 아마 통계가 가장 실용적이라는데 많은 이들이 동의할 것이다. 통계는 현재 상황을 파악하는데 큰 도움을 준다. 누구나 학창 시절 시험 성적표에서 평균점수를 받아봤을 텐데, 평균이라는 개념이 통계의 기본 개념 중 하나이다. 스포츠에서도 평균값이 널리 활용되는데, 야구에서 투수의 실력을 평가하기 위해 방어율이, 타자가 얼마나 공을 잘 치는지 평가하기 위해 타율을 계산한다.
통계가 어느 정도 정확하다면 현 상황에 대한 판단을 내리고, 심지어 앞으로 어떻게 행동할지 결정할 수도 있을 것이다. 해외여행을 많이 다녀본 이들은 좌석 수보다 더 많은 승객이 비행기를 탑승하려는 경우를 경험한 적 있을 것이다. 이런 일이 생기는 이유는 승객들의 일부가 여행 직전에 비행기 티켓을 취소하기 때문에 항공사가 일부러 더 많은 예약을 받기 때문이다. 비행기 좌석을 비우고 가는 것보다 일부 승객에게 여행 일정을 조정하도록 권유하는 것이 더 싸게 먹히므로, 선착순으로 티켓을 포기하는 승객에게 상품권(바우처)을 뿌리는 것이다. 얼마나 더 많은 승객을 받을지는 과거의 통계를 활용하면 결정할 수 있다.
어떤 데이터든 많이 모이면 통계를 적용할 수 있고, 적어도 값 사이의 상관관계를 알 수 있다. 그래서 연구자들이 데이터를 모으고, 상관관계를 알아낸 후, 인과관계를 밝히기 위해 노력하는 것이다. 건강검진 결과 역시 많이 모으면 어떤 요소가 건강에 안 좋은지 알아낼 수 있다. 요새는 개인의 유전자 염기 서열을 손쉽게 확인할 수 있어서 특정 유전자를 가진 사람들의 발병률까지 예측하는 수준이다.
그러나 통계를 절대적으로 믿어서는 안 된다. 여론조사가 대표적이다. 여론조사에서는 신뢰 수준과 표본오차를 이야기한다. 예를 들어 95퍼센트 신뢰 수준에 ±4.4% 표본오차와 같이 말이다. 이렇게 적어주는 이유는 우리가 여론조사를 할 때 전수조사를 할 수 없기 때문이다. 특정 성향을 가진 이들이 과표집될 수 있어서 항상 오차가 존재한다. 물론 표본의 수가 많으면 많을수록 오차가 줄어들지만, 그러려면 돈이 많이 들어 힘들다. 미국에서도 트럼프의 당선을 2번이나 맞추지 못하지 않았나? 그래서 여론조사는 대체로 참고자료로써 활용하는 편이 낫다.
데이터에 노이즈가 많을 때 이동평균선이라는 개념 역시 널리 활용된다. 예를 들어 A라는 주식회사의 주가를 지난 5일 동안 평균 낸다고 해보자. 이렇게 하면 지난 5일간의 단기적인 변동성은 크게 완화된다. 이렇게 매일같이 계산하면 5일선을 얻게 된다. 범위를 더 넓히면 20일선, 120일선 등을 얻을 수 있다. 주가가 갑자기 오르면 주가가 이동평균선보다 높을 것이고, 갑자기 내리면 반대로 주가가 이동평균선보다 낮아질 것이다. 이처럼 단기 이동평균선이 장기 이동평균선을 상향 돌파하는 경우에는 매수 신호로 해석하고, 하향 돌파하는 경우는 매도 신호로 해석하기도 한다.