12화 – 분석보다 먼저먼지부터 털어야 했다

(데이터는 항상 깨끗하지 않다)

by 라이브러리 파파

너도 알겠지만

SPSS를 켠다고 바로 분석이 되진 않아.


형은 예전에 그걸 몰랐어.


분석 메뉴까지는 갔는데,

“Missing Value Detected”

이 메시지 하나에

2시간이 날아갔다.




그날 나는

딱 5분 만에 분석을 시작하려 했고,

딱 5초 만에 막혔다.





누락값,

중복 항목,

‘모름’, ‘응답 안 함’,

띄어쓰기 다름,

영문 혼용,

남/Nam/Male/1 이런 혼돈.




그제야 깨달았지.

분석은 깨끗한 데이터에서만 가능하다는 걸.


그리고

데이터는 절대 먼저 정리돼 있지 않다는 걸.




형이 분석을 배우고 나서

진짜로 시간 제일

많이 쓰는 영역은 이거였어.


데이터 청소.

Cleaning.


이게 안 되면

아무 분석도 안 돼.

그럴듯한 그래프도 다 틀려.




형이 주로 하는 사전 점검 리스트 알려줄게.


1. 누락값(Missing) 있는가?


2. 이상값(Outlier) 논리적으로 타당한가?


3. 변수 이름 정리되어 있는가?


4. 범주값(Categorical) 통일돼 있는가?


5. 텍스트 혼용 문제 있는가?


6. 숫자인데 문자로 저장돼 있지 않은가?




이걸 못 보면

분석 결과가 말이 안 되는데,

왜 그런지 몰라서 더 멘붕 와.


형은 그때

p값이 이상하게 나와서 한참 고민했거든.

나중에 보니까

빈 셀이 숫자로 인식돼 있던 거였어.




그러니까 너도

분석 잘하려면

먼저 “깨끗하게 만드는 기술”

부터 익혀야 해.




SPSS도 R도 Python도

정리 안 된 데이터 앞에선

그저 오류 내는 기계일 뿐이야.


결국

분석 실력은

데이터를 어떻게 다루느냐에서 판가름 나.




형이 말해주고 싶은 결론.


통계는 숫자 다루는 일이 아니라

숫자가 되기 전의 혼란을 다루는 일이다.




다음 화 예고


13화 – 독립이냐 종속이냐,

변수 하나 잘못 넣으면

모형은 엉뚱한 말을 시작한다

keyword
매거진의 이전글11화-좋은 모형많이넣는게아니라,잘넣는데서 시작한다