통계를 보는 흔한 오해
같은 것을 하더라도 항상 같지는 않다.
'같은 방법을 써서 나온 결과가 항상 같은 의미를 갖지 않는다'
통계가 가지고 있는 이 특성은 통계를 통해 얻은 결과를 해석할 때 나타나는 흔한 오해다. 통계가 아닌 영역에서는 같은 것을 했다면 같은 의미를 가지는 것이 당연하기 때문에 이 차이는 노력해서 의식하지 않는 한 우리를 쉽게 오해의 길로 이끈다. 중학교 때 한 번씩 배우게 되는 근의 공식은 항상 주어진 이차방정식의 근을 이끌어낸다. 근의 공식에서 얻은 해를 방정식의 미지수에 대입하면 그 이차방정식이 성립하는 것, 이것이 근의 공식이 갖는 의미이다. 그리고 이 의미는 이차방정식이라면 언제나 성립한다. 그러나 통계에서는 가장 기본적인 것, 기댓값조차 다 같은 기댓값이 아니다.
여기 복권이 하나 있다. 이 복권은 아주 단순한데, 1% 확률로 1,000,000원의 당첨금을 준다. 나머지 99% 확률은 꽝인데, 이때는 아무것도 주어지지 않는다. 그리고 당신은 이 복권을 아주아주 많이 가지고 있다. 예를 들어, 10,000장 가지고 있다고 생각해보자. 복권을 가진 당신은 궁금할 것이다,
'내가 가진 복권을 가지고 얼마 정도의 돈을 얻을 수 있을까?'
이때 가장 도움이 되는 통계적 방법, 혹은 통계량은 '기댓값'이다. 기댓값은 복잡하지 않다. 확률로 가중 평균한 것을 우리는 기댓값이라고 부르는데, 1%의 확률로 100만 원을 받을 수 있으며, 그 외의 확률로는 0원을 받기 때문에 이 복권의 기댓값은 1만 원이다. 기댓값은 당신에게 이렇게 이야기한다,
'이 10,000장의 복권을 통해 당신은 평균적으로, 혹은 1장당 1만 원 정도의 결과를 얻을 수 있을 것이다.'
그리고 이 말은 틀리지 않았다. 정확히 1만 원은 아니겠지만, 당신이 10,000장의 복권을 통해 얻은 총당첨금을 10,000장으로 나눴을 때 아마 그 결과는 1만 원에 꽤 가까울 것이다. 물론 운이 좋지 않아 1만 원에 가깝지 않은 결과를 얻었을 수도 있다. 하지만 10,000장의 복권은 이렇게 불운한 경우가 발생하는 것을 쉽게 허용하지 않는다. 혹은 복권이 더 많았다면 기댓값의 의미는 더욱 확실해진다. 간단히 말해, 당신은 1만 원이라는 결과를 기대할 수 있다.
자 이제, 상황이 조금 달라졌다. 당신은 같은 복권을 가지고 있지만 이번에는 1장이다. 그리고 당신에게는 똑같은 궁금증, 이 복권으로 얼마 정도의 돈을 얻을 수 있을까에 대한 질문이 떠오른다. 이번에도 도움이 될 만한 통계적 개념은 기댓값뿐이다. 그래서 당신은 자연스럽게 기댓값을 계산한다. 복권의 당첨금이나 당첨 확률은 변하지 않았기 때문에 이 복권이 가진 기댓값도 변하지 않는다. 여전히 10,000원이다. 그러나 기댓값은 더 이상 당신에게 같은 의미를 주지 못한다. 당신의 복권은 1만 원이라는 결과를 가져오지 않는다. 0원이나 1,000,000원이라는 결과를 가져올 뿐이다. 당신은 1만 원이라는 결과를 기대할 수 없다.
분명히 우리가 두 상황에서 사용한 개념은 동일하다. 복권의 결과가 확률적으로 나타나기 때문에 그 결과를 예측하기 위해 기댓값을 계산했다. 그러나 기댓값의 의미는 동일하지 않았다. 아주아주 많은 복권을 가지고 있는 경우에 기댓값은 자신의 이름이 직관적으로 부여하는 의미인 '기대하는 값'에 부합했지만 한 장의 복권을 가지고 있는 경우에는 그렇지 못했다.
통계적인 개념은 상당히 직관적인 것처럼 들린다. 기댓값이 얼마이고, 표본 오차는 얼마이고, 신뢰도가 얼마이다 라고 이야기하면 그 이름에서 느껴지는 의미가 우리에게 고스란히 전달된다. 기댓값과 같은 결과가 나올 것 같고, 신뢰도가 높다고 하면 믿을만한 결과라는 의미를 주고 있는 것처럼 느껴진다. 하지만 통계가 가지고 있는 함정은 통계적인 개념이 직관적인 것처럼 들린다는데서 온다. 통계는 전혀 직관적이지 않다. 같은 것을 하더라도 데이터의 개수, 동질성, 데이터가 만들어지는 과정에 따라 전혀 다른 결과를 의미하는 것이 통계다. 통계라는 학문이 우리에게 첫 번째로 알려주는 것은 결과보다 과정이 중요하다는 것이다.
'과정이 엄격한 조건을 만족하면 만족할수록 통계적인 결과는 당신이 원하는 의미를 갖게 된다. 그러나 그 과정이 미흡하다면, 같은 것은 같은 의미를 갖지 못한다.'
여론조사부터 누군가의 실험 결과, 사회적인 현상의 분석, 그 외의 수많은 것들이 통계적인 과정을 통해 나온 결과라고 하며 우리에게 주어진다. 통계적인 결과라는 딱지는 그들에게 거부할 수 없는 권위를 부여하고 우리는 주어진 결과를 의심하지 않고 받아들이는 경우가 많다. 그러나 아이러니하게도 통계는 우리에게 그 결과를 잠시 거부하라고 이야기하고 있다. 통계는 결과의 학문이 아니다. 과정의 학문이다.