10화 – 이상치는 무섭지 않아

진짜 무서운 건, 내가 이상치를 모르는 거야

by 라이브러리 파파

그날도 평범한 발표였어.
SPSS로 만든 산점도 그래프 하나,
회귀선도 깔끔했고,
결과도 그럴싸했지.

나는 설명했다.
“리더십 점수와 몰입도 간의 선형 관계가 뚜렷하게…”

그때 교수님이 조용히 말했다.

“그 오른쪽 위,
저거 이상치 아닌가요?”


나는 멈췄어.

그래프를 다시 봤지.
진짜 딱 하나,
혼자 튀어나와 있는 점.

맞다. 이상치였다.


근데 나는
그걸 못 봤던 거야.


아니, 솔직히 말하면
봤지만 그냥 무시했어.
“그냥 데이터 하나쯤이야…”

그게 문제였던 거지.


형이 그날 배운 건 이거야.

이상치는 숫자보다 먼저,
태도의 문제라는 것.


이상치는 왜 무섭냐고?

1. 전체 평균을 바꾸고
2. 회귀선을 왜곡하고
3. 결과 해석을 흔들어.


근데 더 무서운 건,
그걸 보고도 모르는 나 자신이야.

형은 그 이후로
데이터를 돌리기 전에

산점도(scatterplot)를 그려.

p값보다 먼저 그래프.
표보다 먼저 시각화.


왜냐면
눈으로 보면 데이터가 말하거든.

그리고 이상치를 발견하면
바로 지우는 게 아니라
이렇게 스스로에게 묻는 거야.

“이 값은 입력 오류인가?”

“진짜 현상일 가능성은 없나?”

“이 점 하나가 전체 분석을 얼마나 흔드는가?”


이 질문 없이
그냥 삭제하면,
그건 통계가 아니라
감정적 편집이야.


형이 실수했던 점은
이상치를 ‘방해물’로만 봤던 거야.

근데 그게
진짜 메시지일 수도 있어.

예전에 내가 봤던 사례.


직장 만족도 10점 만점에
모두가 6~8점대였는데
한 명만 1점.


나는 그걸 그냥 오류라고 생각했어.

근데 알고 보니까

그 사람은 이직 직전이었어.

그러니까 이상치는
문제가 아니라 신호일 수도 있어.

우리가 들으려고만 한다면.

형이 너한테 꼭 말해주고 싶은 건 이거야.

데이터에서 이상한 게 보여도
그게 틀렸다고 단정하지 마.


가끔은
그게 제일 중요한 말일 수도 있어.

그리고 마지막으로,
진짜 무서운 건
이상치가 아니라
내가 그걸 모른다는 사실이야.


다음 화 예고

11화 – 변수 선택이 반이다
좋은 모형은 복잡한 게 아니라,
의미 있는 변수로 만든다



keyword
매거진의 이전글9화 – 설명력도 허세를 벗어야 보인다