brunch

맞추면 장땡 VS 이유가 중요해

예측(Prediction)과 추론(Inference)의 차이

by 김응석

결과만 맞으면 될까? 이유를 알아야 할까?


우리는 앞서 가장 유명하면서도, 현실에서 가장 빈번하게 무시되는 경고인 "상관관계는 인과관계가 아니다(Correlation does not imply causation)"*라는 명제에 대해서 이야기를 나눴습니다.


그렇다면 우리는 언제나 엄격한 인과관계를 찾아내야만 할까요? 여기서 통계적 모델링의 갈림길이 등장합니다. 우리가 Y = f(X) + e라는 식을 세우는 목적이 무엇이냐에 따라, 상관관계만으로 충분할 수도 있고, 반드시 인과관계를 밝혀야 할 수도 있습니다. 바로 예측(Prediction)과 추론(Inference)의 차이입니다.

10장_1.png


'맞추는 것'이 목표인 세상: 예측(Prediction)

당신이 넷플릭스(Netflix)의 데이터 과학자라고 가정해 봅시다. 당신의 목표(Y)는 '사용자가 이 영화를 클릭할 확률'을 맞추는 것입니다. 이때 사용할 수 있는 변수(X)는 무수히 많습니다. 사용자의 시청 이력, 나이, 심지어 영화 포스터의 색감까지 포함될 수 있습니다.

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
김응석작가님의 멤버십을 시작해 보세요!

데이터 사이언티스 김응석의 브런치입니다.

134 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 7개의 멤버십 콘텐츠 발행
  • 총 7개의 혜택 콘텐츠
최신 발행글 더보기
작가의 이전글X의 홍수와 차원의 저주