brunch

You can make anything
by writing

C.S.Lewis

by 별더하기 May 12. 2020

근대 수리 통계학의 아버지-칼 피어슨과 상관분석

http://www.yes24.com/Product/Goods/71859635?scode=032&OzSrank=1


데이터 분석과 이에 기본이 되는 통계는 넓은 의미로 인류의 역사와 함께 한다고 해도 과언이 아니다. 동양의 사주팔자와 주역, 서양의 타로 등 점을 치는 행위 역시 데이터 분석의 하나라 할 수 있다.


일반적으로 통계는(여기서 통계는 수학적 근거에 기반을 둔 수리 통계를 지칭한다) 학문적으로 수학이나 통계학 관련 전공에서 깊이 다루지만, 대부분의 학문에서도 필수로 익히고 학습해야 하는 중요한 분야다. 특히 연구를 목적으로 하거나 기업에서 데이터를 전문적으로 분석한다면 필수 불가결의 요소다.

이러한 수리 통계학의 기초를 다진 사람은 영국의 유명한 수학자 칼피어슨(Karl Pearson, 1857~1936)이다. 피어슨은 1911년 유니버시티 칼리지 런던에 세계 최초의 통계학과인 응용통계학과Department of Applied Statistics)를 설립하고 첫 번째 교수가 됐다. 이런 것만 봐도 그가 통계학에 미친 영향력을 충분히 알 수있다. 또한, 피어슨은 통계학의 기초를 정립한 수학자이기 이전에 다양한 분야를 두루 경험하고 공부한 다재다능한 인물이었다.


유전적인 현상을 설명함에 있어 통계는 더없이 좋은 도구다. 데이터 분석의 핵심 기법으로 인식되는 회귀분석에서 회귀(regression)라는 용어를 최초로 사용한 사람은 앞서 살펴봤듯이 프란시스 골턴이었다. 골턴은 유전학(정확하게는 우생학을 창시했다)을 연구하며 회귀의 개념을정립했다. 그런데 왜 다시 골턴 이야기로 돌아갈까?

골턴은 회귀의 개념을 정립하며 영향을 주는 요인과 영향을 받는 요인(독립변수와 종속변수) 사이에 대칭관계가 있음을 발견하고 이를 상관(correlation)이라고 이름을 붙였다(회귀분석에서 독립변수와 종속변수의 관계는매우 중요하다).

여기서 문제가 생겼다. 회귀분석에서는 독립변수와 종속변수가 서로 관련이 있어야 분석이 의미가 있다. 따라서 두 요인의 관련성을 확인할 값이 필요한데, 골턴이 구한 상관관계의 값은 한쪽이 높으면 함께 높아지고 한쪽이 낮으면 함께 낮아지는 값(양의 상관관계, 0~1 사이의 양수 값만을 가짐)만 도출됐다. 그러나 모든 독립변수와 종속변수가 양의 상관관계인 것만은 아니다. 물론 골턴이 분석한 독립변수와 종속변수가 모두 양의 상관관계를 보였을 수도 있다.

왜 골턴의 분석에서는 이처럼 양의 상관관계만 도출된 것일까? 아마도 골턴은 통계학자가 아닌 유전학자에 더 가까웠기 때문일 것이다. 통계를 기반으로 유전적 현상을 설명해야 했는데, 두 요인이 서로 관련이 없다는 설명을 하기가 부담스러웠을 것이었다. 본인의 이론은 유전적 영향력에 대한 것이기 때문에 음의 상관관계가 도출돼 유전적으로 관련이 없다는 결론을 내리기가 쉽지 않았을 것이다. 그래서 골턴은 자신의 고민을 수학에 일가견이 있으면서 유전학에도 조예가 깊은 사람에게 던지기로 했다. 바로 칼 피어슨이다. 골턴은 피어슨을 찾아가 좀 더 구체적인 상관계수를 뽑아달라고 부탁했다(이해를 돕기 위해필자가 각색한 이야기임을 밝힌다).

피어슨은 한마디로 거절했지만, 골턴은 이에 굴하지 않았다. 몇 번의 요청과 거절이 오간 후 마침내 피어슨은 이를 증명해 보기로 결심하고 골턴의 요청을 수락했다. 이렇게 해서 탄생한 것이 데이터 분석에 두루 활용하는 피어슨 상관계수(Pearson correlation coefficient)다.

피어슨 상관계수는 -1에서 +1 사이의 값을 취한다. 0을 기준으로 값이 0보다 작은 음수는 음의 상관관계라고 하며 값이 양수면 양의 상관관계라고 하고, 음이든 양이든 두 변인 간에 관계가 있다는 의미다. -1에 가까울수록 강한 음의 상관관계를, +1에 가까울수록 강한 양의 상관관계를 나타낸다.

이러한 상관분석은 ‘연봉과 소비는 관련이 있을까? 키와 몸무게는 관련이 있을까?’처럼 두 변수 간의 관계와 연관 정도를 설명한다. ‘연봉이 높으니 소비가 많을 것이다. 키가 커서 몸무게가 무거울 것이다.’라는 말은 상관분석으로는 설명할 수 없다. 이 부분이 매우 중요하다. 정리하면 상관분석은 두 변수의 관계만을 설명하지, 두 변수 간의 원인과 결과를 나타내는 인과관계는 설명하지 않는다.

그러나 연관성이 있어야 원인과 결과가 도출되기에 인과관계를 찾아 분석할 때는 변인 간의 상관관계가 반드시 있어야 한다. 담뱃값과 흡연율의 관계, 신제품과 매출의 관계, 혈압과 당뇨의 관계 등 우리 주변에는 관련성을 판단해야 하는 일이 매우 많다.


매거진의 이전글 나 돌아갈래-프랜시스 골턴과 회귀
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari