통계학이란 무엇인가

Jun 14. 2017

0. 통계학을 한마디로 정의하면 무엇인가

제가 면접에서 종종 물어보는 질문이 하나 있습니다. 바로 '통계학을 한마디로 말하면 무엇이라고 생각하느냐?' 입니다. 그러면 다양한 대답이 돌아옵니다. '예측을 하는 학문이다', '자료에서 정보를 얻는 학문이다', '확률을 실생활에 적용할 수 있게 해주는 응용 학문이다' 등등... 아 얼마 전에는 '숫자 놀음'이라는 답변도 들었습니다.

누가 제게 똑같은 질문을 한다면 전 '통계학은 오차의 과학이다' 라고 답변하겠습니다. 전 이 답변이 스스로 생각하기에 꽤 괜찮은 답변이라고 생각합니다. 왜 그런지 좀 더 자세히 설명해 보죠.

어떤 대상을 잘 정의했는지를 판단할 때 저는 아래 두 가지 기준으로 판단합니다.

1) 대상이 갖고 있는 특징을 충분히 담고 있는가?

2) 그 정의가 충분히 다른 대상과 차별성이 있는가?

'예측을 하는 학문' 이라는 정의는 1)번 기준에서 생각해 볼 때 좋은 정의가 아닙니다. 왜냐하면 통계학은 '예측'만 하는 학문이 아니기 때문입니다. 가령, 회귀 분석만 하더라도 예측을 위해 모델을 만들기도 하지만 어떤 결과에 대한 요인과 그 영향력을 분석할 때도 사용합니다. 물론 이것도 결국 요인들의 영향력을 예측하는 것 아니냐고 반박할 수 있겠습니다만 이런 식으로 예측이라는 말의 정의를 확대해 나가면 대부분의 학문을 모두 예측하는 학문으로 정의할 수 있게 됩니다(예를 들어 물리학은 어떤 물체의 운동에 영향을 주는 요인을 찾아 운동식을 정의하고 이를 토대로 물체의 향후 움직임을 예측합니다). 그러면 이번엔 2)번 기준에 걸리게 되죠.

'확률을 실생활에 적용'한다거나 '숫자 놀음' 이라는 정의 역시 2)번 기준으로 볼 때 좋은 정의가 아닙니다. 이공계에서 숫자 놀음이 아닌 학문이 있던가요? 확률을 실생활에 적용하는 것 역시 마찬가지입니다. 게다가 '실생활'이라거나 '적용'이라는 용어도 다소 모호합니다. '자료에서 정보를 뽑아내는 학문'이라고 정의하는 것도 봤는데 이것 역시 광범위한 정의입니다. 요즘 시대에 자료에서 정보를 뽑아내지 않는 학문이 어디있나요?

그럼 '오차의 과학'이라는 정의는 위 두 기준을 모두 만족하고 있는건가요? 전 그렇다고 생각합니다. 그 이유에 대해서 하나씩 살펴 보겠습니다.

1. 통계학은 오차를 연구하는 학문이다

먼저 통계학에서 오차를 다루지 않는 세부 분야가 있는지 생각해 보죠. 음...제가 모든 통계학 분야를 아는 건 아니니 단정할 수는 없지만 적어도 제가 아는 한 없습니다.

예를 들어, 선형 회귀 분석은 내가 만든 모델과 실제 데이터 사이의 오차가 정규 분포가 되도록 모델을 만드는 데이터 분석 기법이고 분산 분석은 표본 집단 사이의 차이가 우연한 오차인지 아니면 어떤 요인에 의한 차이인지를 검정하는 분석 기법이죠. 통계학을 공부하면 항상 빠지지 않고 등장하는 p value는 어떤가요? 이것 역시 어떤 가정 하에 만든 모델과 실제 관측된 데이터 사이의 차이와 관련된 확률 아닌가요?

통계학의 근간이 되는 원리 중 하나인 '중심 극한 정리'는 모집단 평균과 표본 집단 평균 사이의 오차에 대한 원리입니다. 표본 집단 평균은 모집단 평균을 중심으로 하는 정규 분포에 근접한다는 원리인데 이건 다시 말해 표본 집단 평균과 모집단 평균 사이의 차이(오차)는 0을 평균으로 하는 정규 분포에 근접한다는 뜻입니다.

반대로 생각해보면 이런 오차가 없는 상황에서 통계학은 아무런 힘을 발휘하지 못합니다. 예를 들어, 내가 알아야 할 정보가 우리반 학생들의 키와 몸무게라면 그건 그냥 신체 검사를 하고 그 결과를 집계하면 됩니다. 이것 역시 자료에서 정보를 뽑아내는 행위이지만 통계학의 영역은 아닙니다. 즉, 뭔가 미지의 영역이 있고 그래서 오차가 존재할 가능성이 있는 자료를 다룰 때만 통계학이 가치를 발휘합니다. 모집단을 모두 관측할 수 있는 (그래서 어떤 불확실성도 없는) 상황에서의 데이터 분석이라면 통계학이 들어갈 자리는 없습니다.

이런 이유로 인해 누군가는 빅데이터 세상에서는 모집단을 직접 다루기 때문에 표본 데이터를 이용하는 것을 가정하는 통계학이 설 자리는 없다고 얘기하기도 합니다. 언젠가 SNS에서 누군가 '우리 회사는 하둡 시스템으로 모든 고객 정보를 저장하고 처리하기 때문에 통계학이 필요없다.' 라고 쓴 글을 본 적이 있습니다. 이건 모집단의 뜻을 잘못 이해한 것입니다. 하둡 시스템에서 저장된 모든 고객 정보는 '현재 시점'의 모든 고객 정보일 뿐입니다. 또한 모든 정보를 담고 있지도 않습니다. 하둡에 저장된 정보는 고객의 모든 정보 중에서 수집이 가능한 정보만 담고 있는 것이죠.

더 나아가 대부분의 자료에는 측정이나 표현 과정에서 생기는 오차가 있습니다. 가령 A, B, C가 각각 1987년 12월, 1988년 1월, 1988년 12월에 태어났다고 했을 때, 고객의 나이는 보통 1년 단위로 집계되기 때문에 신체적 나이는 A와 B가 더 가깝지만 나이는 B와 C가 같다고 처리됩니다. 또한 (이 글을 작성한 2017년을 기준으로 볼 때) B와 C는 20대인 반면 A는 30대 고객으로 처리될 것입니다. 심지어 어쩌면 B와 C는 10~20대 청년 그룹으로 A는 30~40대 장년 그룹으로 분류될 수도 있죠. 불과 1개월의 차이로 A와 B는 인구 통계학적으로 볼 때 매우 다른 고객 그룹으로 분류되는 오차가 발생합니다.

이렇듯 세상에는 수많은 오차가 존재합니다. 자료 분석에 통계학을 사용하는 이유는 통계학이 이런 오차들을 다루는 학문이기 때문입니다.

그럼 2)번 기준에서 생각해 보죠. 통계학 이전에 다른 학문들은 오차를 다루지 않았던 걸까요?

2. 통계학 이전에 사람들은 오차를 어떻게 다루었나

통계학은 역사가 매우 짧은 학문입니다. 통계학의 근간이 되는 확률은 보통 파스칼과 페르마 사이의 논의에서 시작한 것으로 보니 아무리 길게 잡아도 500년이 채 되지 않으며, 현대 통계학의 기초를 닦은 골튼이나 피어슨, 피셔 등의 학자들이 활동한 지는 고작 100년도 채 되지 않습니다.

물론 그 이전에도 자료를 수집하고 집계하는 작업은 꾸준히 있었습니다. 측량이나 기상 관측, 인구 통계 등은 국가나 도시와 같은 큰 조직 사회를 운영함에 있어 필수적이었고 물리학이나 화학과 같은 분야에서도 자료를 관측하고 정리하는 것은 매우 중요한 작업이었습니다. 그럼에도 불구하고 통계학 이전과 이후를 구분하는 가장 결정적인 차이는 바로 자료에 존재하는 오차를 어떻게 다루느냐에 대한 인식의 차이였습니다.

통계학 이전에 사람들은 오차를 수정해야 할 실수 내지는 무시해야 할 예외 정도로 취급했습니다. 과학 분야에서는 이런 오차를 최소화하기 위해 엄격한 실험 환경을 갖추거나 세심한 관찰을 통해 가설을 검증해왔습니다. 어쩔 수 없이 오차가 생기면 여러 번 실험을 해 본 후 가장 잘맞는 다수의 실험 결과만 취하고 맞지 않는 소수의 자료는 버리거나 아니면 오차를 없애기 위해 더 세심한 실험을 설계하거나 이것도 아니면 이런 차이를 모두 포함하는 새로운 가설을 만들려고 노력했습니다.

또한 사람들은 오차가 있는 자료들을 결합하면 오차가 더 커진다라고 생각했습니다. 심지어 그 유명한 오일러마저도 천체 관측을 통해 나온 자료를 기초로 한 연립 방정식을 풀 때 불일치하는 방정식을 버리려고만 했지 이들을 결합하여 오차를 상쇄시키려는 발상은 하지 못했습니다.

그런데 르장드르나 드 무아브르, 라플라스 등의 여러 수학자나 과학자들의 노력에 의해 자료들을 더하면 오차들이 서로 상쇄되어 줄어든다는 것을 발견하고 수학적으로 증명하면서 오차를 다루는 방식에 대해 사람들의 인식이 바뀌기 시작했고 이에 따라 통계학이 생겨나게 되었습니다. 이제 과학자들은 실험 결과에서 나타나는 불일치들을 통계적으로 처리하게 되면서 정밀도의 한계를 극복할 수 있게 되었습니다.

이렇듯 통계학이 보편화되기 이전에 오차는 버리거나 무시해야할 대상이었지 학문적으로 다루는 대상이 아니었습니다. 통계학을 통해 오차는 처리해야 할 대상이 되었습니다. 아니 정확히 말하자면, 오차를 학문적으로 다루게 되면서 통계학이란 분야가 생겨난 것이죠.

3. 오차의 중요성

사실 '통계학은 오차의 과학이다' 라는 정의는 사전적인 의미로 사용하기에는 적절하지 않다고 생각합니다. 통계학을 모르는 사람이 이해하기에는 너무 내포된 의미가 많기 때문에 부가적인 설명이 없이는 직관적으로 와 닿지 않는 정의입니다. 그럼에도 이런 글을 쓰는 이유는 그만큼 통계를 이용한 데이터 분석을 할 때 오차를 중요하게 다뤄야 한다는 점을 강조하기 위함입니다.

많은 경우 데이터 분석을 할 때 데이터에 포함된 오차를 망각하곤 합니다. 예를 들어 제 경험상 많은 사람들이 예측 모델링을 할 때 모델의 통계량이나 RMSE같은 오차합만 살펴보지 모델과 데이터 사이의 오차(잔차)가 어떤 특징을 갖고 있는지에 대해선 생각하지 않습니다. 예전에 '회귀 모델에서 회귀란 무엇인가?' 라는 글에서도 썼듯이 잔차의 생김새나 특성을 살펴 보는 것은 매우 중요합니다.

또한 데이터의 분포와 오차의 분포를 혼동하는 사람들도 많습니다. 제가 본 어떤 글에서는 통계학에서는 데이터가 정규 분포임을 가정하기 때문에 분석하기 전에 먼저 히스토그램이나 Q-Q plot 등을 이용해 분포를 확인해 본 후 정규 분포가 아니면 로그 변환 등을 통해 정규 분포 형태로 만들어 줘야 한다고 설명합니다. 이건 큰 오해입니다. 분포를 확인해야 할 것은 오차이지 데이터 자체가 아닙니다. 물론 데이터의 분포와 오차의 분포가 같은 경우도 있습니다. 예를 들어 두 그룹 간의 평균 차이를 보기 위해 분산 분석을 할 때는 데이터의 분포가 오차의 분포와 같습니다. 하지만 이것은 분석하는 대상이 평균이기 때문입니다.

정리하자면 올바른 데이터 분석을 위해선 분석 대상이 갖고 있는 오차를 인지하고 분석하는 것이 중요합니다. 통계학은 오차를 다루는 학문이기 때문입니다.

keyword

gimmesilver

팔로워 1,243

회귀 모델에서 '회귀'란 무엇인가?매거진의 다음글