데이터 분석의 Frame
우리 모두는 "일(業)"을 하면서 살아가고 있다. 학생, 회사, 의사, 개인사업 등등 모두 형태는 다르지만 무엇인가에 몰두하면서 일상을 보내고 있다.
일의 모습을 아주 단순하게 표현한다면 Y = F(X) + Error의 세상이라고 할 수 있을 것 같다.
여기서 Y는 내가 하고 있는 일의 결과를 말한다. 모든 사람은 어떤 형태든 Y를 가지고 있을 것이다. 왜냐하면 Y는 결국 우리가 평가받는 사항, 우리가 원하는 모습이기 때문이다. 우리 모두는 원하는 결과를 얻기 위해서 최선을 다해서 일상을 보내고 있다.
우리가 원하는 결과를 얻기 위해서는 어떻게 해야 할까?
잘 생각해 보면 원하는 결과는 그 자체를 건드릴 수 없다는 것을 알 수 있다. 원하는 부를 쌓는 것도, 회사의 이익을 높이는 것도 소위 목표는 우리의 의지대로 세울 수 있지만 결과는 적절한 "수단"을 통해서만 얻을 수 있다. 따라서, Y를 수학에서는 종속 변수라고 한다. 결과는 혼자서 독립적으로 움직일 수가 없고 수단에 종속되어 있기 때문이다.
원하는 결과를 얻기 위한 적절한 수단은 무엇일까?
그것은 결과에 큰 영향을 주는 원인(X)과, 원인이 결과에 어떻게 영향을 주는 지를 알고 실행할 수 있는 방법이라고 할 수 있을 것이다.
하지만, 원하는 결과에 100% 영향을 주는 원인은 존재하기 어렵기 때문에, 통제할 수 없는 여러 가지 원인들로 인해 결과에 영향을 주는 오차(Error)로 존재한다.
원인은 우리가 독립적으로 선택할 수 있는 자유가 있기 때문에 이를 독립변수라고 한다.
따라서, 원하는 결과(Y)는 결과에 큰 영향을 주는 원인(X)의 힘과 통제하지 못하는 원인(Error)의 힘으로 단순화할 수 있다. (수단의 힘 + Error의 힘)
. Y = 결과 . X = 결과에 영향을 주는 원인 . F = 원인과 결과의 메커니즘
. Error = 통제 못하는 원인
. 결과의 변화 = 통제하는 원인으로 인한 결과의 변화 + 통제 못하는 원인으로 인한 결과의 변화
통계에서 분석이란 Error를 최소화하고 결과에 영향을 주는 원인과 F(X)를 찾아내는 것이라고 할 수 있다.