brunch

You can make anything
by writing

C.S.Lewis

by 별더하기 Apr 22. 2020

나 돌아갈래-프랜시스 골턴과 회귀

베르나르 베르베르의 잡학 서적 『상상력 사전(열린책들, 2011)』은 인류의 자존심이 상하는 세 가지 사건을 언급한다. 

첫 번째 사건은 니콜라우스 코페르니쿠스 (Nicolaus Copernicus, 1473~1543)가 주장한 지동설이다. 그는 지구가 우주의 중심이며 모든 천체가 지구를 중심으로 돈다는 진리를 보기 좋게 무시했다. 

두 번째 사건은 인간의 모든 행위는 자아를 뛰어 넘는 고상한 업적이 아닌 단순히 이성을 유혹하고자 하는 욕망의 그림자일 뿐이라는 지그문트 프로이트(Sigmund Freud,1856~1939)의 주장이다. 

마지막 세 번째 사건은 찰스 다윈(Charles Robert Darwin, 1809~1882) 의 진화론이다. 인간은 조물주가 만든 유일무이한 피조물이 아닌 다른 동물에서 진화된 하나의 개체일 뿐이라는 주장이다. 여기서 세번째 사건인 찰스 다윈과 관련된 다음 이야기를 살펴보자.


찰스 다윈에게는 그만큼이나 독특한 사상으로 무장한 사촌 동생 프랜시스 골턴 (Francis Galton, 

1822~1911)이 있었다. 두 사람은 서로를 존경하며 각자의 위치에서 자신의 연구 분야를 공고히 했다.

골턴은 그의 사촌 형인 다윈에게서 많은 영향을 받았는데, 하루는 다윈의 『종의 기원』을 읽고 유전자라는 어마어마한 영향력을 가진세계를 접하게 됐다. 그리고 유전자가 중요하며 우월한 집안에서 우월한 유전자가 나온다는 결론에 도달했다.

골턴은 훌륭한 사람은 그가 처한 환경보다 유전자에 많은 영향을 받는다고 확신했다(우생학). 그래서 이러한 유전적 우월성을 구체적으로증명하기 위해 그의 사촌 형 다윈처럼 주변 사람들의 키를 전수 조사하러 다녔다.

골턴의 주장은 아버지의 키가 크면 자식도 아버지만큼 키가 크는 유전자를 물려받는다는 것이었다. 골턴이 조사해 보니 아버지가 키가큰 아이들이 또래보다 키가 크다는 사실을 알게 됐다. 

그러나 뭔가 의심쩍은 부분을 발견했다. 키가 큰 아버지의 자식들이 또래보다 키가 크긴 했지만 아버지만큼 크지는 못한다는 사실이었다.

골턴은 키가 큰 사람의 자식이 부모보다 더 커지면 키 큰 유전자를 물려받는 자손은 끝도 없이 자랄 것이고, 반대로 키가 작은 집안의 자손들은 계속 작아지게 될 테니 적정 수준까지 큰다고 보았다. 그리고 사람들이 얼마까지 크는가를 고민했다.

조사 결과를 살펴보던 골턴은 놀라운 사실을 발견했다. 그가 조사한 대상 세대별 평균 키를 구하고 전체 대상의 키를 해당 평균을 기준으로 점을 찍어 분포를 확인했더니 아버지의 키가 아무리 커도 자식의 키는 평균보다는 크지만 해당 세대 평균에 가깝게 분포했다(중심극한정리). 즉, 키가 큰 아버지는 그보다 조금 작은 자식을, 키가 작은 아버지는 그보다 조금 큰 자식을 갖게 된다는 결과였다. 골턴은 이 놀라운 발견을 평균으로의 회귀(regression toward mean)라는 이름으로 공표했다.


이처럼 모든 현상이 평균으로 회귀하려는 사실에 기초한 분석이 바로 회귀분석regression analysis이다. 회귀분석은 두 요인 간의 인과관계를 파악해 미래를 예측하고 설명하는 대표적인 데이터 분석 기법이다.

여기서 두 요인이란 독립변수와 종속변수를 의미하는데, 독립변수란 예측하고자 하는 결과의 원인으로 가정한 변수를 의미한다. 따라서 아버지의 키가 큰 것을 보고 아들의 키가 클 것이라고 예측했다면 아버지의 키는 아들의 키가 클 것이라고 예측한 원인이 독립변수가 된다. 종속변수는 독립변수가 원인이 돼 예측할 수 있는 결괏값을 말한다. 따라서 아버지의 키에 영향을 받은 아들의 키가 종속변수다.


광고비를 늘리면 매출이 상승할까? 담뱃값을 올리면 흡연율이 줄어들까? 연봉이 높아지면 소비가 늘어날까?처럼 우리 주변에는 인과관계로 설명하는 많은 이야깃거리가 있다. 여기서 광고비, 담뱃값, 연봉은 독립변수이고 매출, 흡연율, 소비는 예측 가능한 종속변수다. 

그러나 많은 것을 예측하고 설명하는 강력한 회귀분석에는 한 가지간과해서는 안 될 것이 있다. 바로 독립변수와 종속변수의 관계다. 전혀 관련 없는 두 변수를 독립변수와 종속변수로 결정해 예측하면 전혀의미 없는 분석이 되고 만다. 회귀분석으로 예측하려면 독립변수와 종속변수의 상관관계가 명확해야 예측 결과가 유의미해진다.


http://www.yes24.com/Product/Goods/71859635?scode=032&OzSrank=1


매거진의 이전글 T-분포의 발견, 윌리엄 고셋

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari