유문정 작가님의 여행에세이에서 발췌.
어느 순간, 점들로 시작했던 일들이 선으로써 연결되어, 결과를 만들어내었다.
남들이 보기에 전혀 일관되지 않은 어떤 일들이 연결되는 경험은 신비롭다.
생각을 초월한 직관을 바탕으로 무언가를 만들어 낸 것이기 때문이다.
하지만, 결과를 만들어 내기까지 인고의 시간을 기다려야 한다.
눈에 보이지 않기 때문이다.
만약 예측이 가능하다면 우리는 비난이란 고통으로부터 좀 덜 괴로울 것이다.
실험 방법에 이와 같은 방법이 있는데, 회귀 분석이다.
회귀 분석은 두 개의 변수 사이의 관계를 분석하는 통계적 방법이다.
이를 통해 추세선을 그릴 수 있으며, 다른 변수의 값을 예측하는 것이 가능하다.
지난 시간에 지표를 만들어 볼 것을 권장했다.
오늘은 회귀 분석을 통해 지표를 예측하는 방법을 설명하고자 한다.
하나의 독립변수를 가지고 있는 경우는 단순 선형 회귀,
두 개 이상의 독립변수를 가지고 있는 경우는 다중 선형 회귀 라고 한다.
이 밖에도 여러 종류가 있다.
19세기에 프랜시스 골턴(Francis Galton)이라는 연구자가 있었다.
그는 부모와 자식 간의 신장 관계를 연구하면서 회귀의 개념을 도입했다.
당시에는 통계적 계산과 수작업을 통해서 발생하는 오류 등으로 어려운 일이었다.
하지만 우리는 엑셀을 통해 간단하고 직관적으로 만들어 볼 수 있다.
먼저 엑셀에 데이터를 입력한다.
예를 들어, 공부시간과 점수에 대한 관계를 확인하기 위해서는 아래와 같이 표를 작성할 수 있다.
위의 데이터를 엑셀 시트에 입력한 후, 모든 데이터를 선택한다.
상단 메뉴에서 삽입 탭을 선택하고, 차트 그룹에서 산점도(Scatter) 차트를 선택한다.
그러면 선택한 데이터 범위를 기반으로 산점도 차트가 만들어진다.
생성된 산점도 차트를 클릭하여 선택한다.
차트에서 데이터 포인트 중 하나를 오른쪽 클릭한 후, 추세선 추가 옵션을 선택한다.
추세선 형식 창이 열리면, 선형(Linear)을 선택한다.
차트에 R-제곱 값을 표시합니다를 체크한다.
이는 회귀 모델의 적합도를 나타낸다.
추세선이 산점도 차트에 추가 됐다.
이제 기울기를 확인한다.
기울기가 양수인 경우 공부시간이 늘어날 수 록 성적이 증가한다는 뜻이다.
기울기가 음수인 경우 공부시간이 늘어날 수 록 성적이 감소한다는 뜻이다.
기울기가 0인 경우 공부시간과 성적 간의 관계가 없음을 의미한다.
추세선 옵션에서 차트에 수식 표시를 체크하면,
추세선이 그려지며 차트에 수식이 표시된다.
위에 표를 이용하면 Y = 2.5X + 45라는 수식이 생긴다.
이를 통해, 공부 시간이 늘수록 성적이 증가한다는 결과를 확인할 수 있다.
그러므로 80점을 얻기 위해서는 14시간의 공부가 필요하다고 예측할 수 있다.
표본이 충분히 크지 않은 경우 예외가 존재할 가능성이 높아진다.
또한 다른 외부 요인들이 존재할 경우에도 영향을 미칠 것이다.
한계가 있는 경우 역시 한계점 이후에 적용은 불가능하다.
예를 들면, 물의 온도와 부피의 관계이다.
물은 0~100°C에서만 액체상태이다.
그러므로 이를 기준으로 만든 추세선으로
-5 °C에서 물의 부피를 예측해서는 안된다.