(노트북을 닫고 다시 열기까지 3주가 걸렸다)
그날도 평범했어.
3교시 수업, 강의실, 커피 한 잔.
교수님이 칠판에 적었지.
“정규성 검정”
나는 순간 얼어붙었어.
정규… 뭐요?
정규직? 정규분포?
뭔가 알 것 같으면서도
완전히 모르는 그 느낌.
분명히 고등학교 때 배운 것 같긴 한데,
왜 이렇게 낯설지?
수업은 계속 흘러가고,
화면엔 Shapiro-Wilk Test, Kolmogorov-Smirnov…
이건 이름이야? 주문이야?
애들은 다들 끄덕이고 있는데,
나만 정지 상태.
교수님이 말했지.
“데이터를 분석하기 전에,
분포를 확인하는 과정입니다.”
그제야 조금 감이 왔어.
‘아, 이걸 그냥 쓰면 안 되는 거구나.’
나는 그동안
데이터는 그냥 ‘있는 거니까 쓰는 거’라고 생각했거든.
근데 아니었어.
정규성 검정은 말하자면 이거야.
“이 데이터, 괜찮은 애인가요?”
분석해도 될지 물어보는 일종의 면접 같은 거.
정규분포를 따른다는 가정을 세워야
우리가 흔히 쓰는 t-test, 회귀분석, ANOVA 이런 거
'제대로' 돌아간다는 거야.
그 가정을 먼저 확인하는 게 정규성 검정.
근데 그걸 그날 처음 들었단 말이야.
그래서 나는 노트북을 닫았고,
그 상태로 3주 동안 아무것도 못 했지.
그 3주 동안 나는
네이버에 ‘정규성 검정 뜻’ 검색하고,
SPSS를 켰다 껐다 반복하고,
유튜브로 통계 강의 1.25배속으로 돌려봤어.
결국 진짜 이해하게 된 건,
직접 내 데이터를 돌려본 그날이었어.
Shapiro-Wilk Test 결과가 나왔고,
p값이 0.034
교수님은 한마디 하시더라.
“정규성 없네요.”
처음엔 이게 나쁜 건가 싶었는데,
이제는 알아.
그냥 ‘당신의 데이터는 조금 삐뚤어진 친구네요’
정도 되는 거더라고.
중요한 건 이거야.
정규성 검정은 개념이 아니고
논문을 위한 최소한의 예의라는 거.
초면에 반말하면 안 되듯이,
데이터도 아무 말 없이 분석하면 안 되는 거지.
형이 말하는 진짜 팁 하나.
머리로 이해하려 하지 말고,
그냥 손으로 직접 SPSS 돌려봐.
처음엔 무슨 말인지 몰라도
자꾸 하다 보면,
언젠간 네 데이터가 말 걸어올 거야.
“나, 정규야. 분석해도 돼.”
그때부터 논문이 굴러가기 시작하더라.
2화 – 평균은 친근한데, 표준편차는
왜 이렇게 싸늘할까?
데이터가 아무리 착해 보여도,
표준편차 보면 성격이 다 나온다.