예측(Prediction)과 추론(Inference)의 차이
우리는 앞서 가장 유명하면서도, 현실에서 가장 빈번하게 무시되는 경고인 "상관관계는 인과관계가 아니다(Correlation does not imply causation)"*라는 명제에 대해서 이야기를 나눴습니다.
그렇다면 우리는 언제나 엄격한 인과관계를 찾아내야만 할까요? 여기서 통계적 모델링의 갈림길이 등장합니다. 우리가 Y = f(X) + e라는 식을 세우는 목적이 무엇이냐에 따라, 상관관계만으로 충분할 수도 있고, 반드시 인과관계를 밝혀야 할 수도 있습니다. 바로 예측(Prediction)과 추론(Inference)의 차이입니다.
당신이 넷플릭스(Netflix)의 데이터 과학자라고 가정해 봅시다. 당신의 목표(Y)는 '사용자가 이 영화를 클릭할 확률'을 맞추는 것입니다. 이때 사용할 수 있는 변수(X)는 무수히 많습니다. 사용자의 시청 이력, 나이, 심지어 영화 포스터의 색감까지 포함될 수 있습니다.
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.