소설이 아닌 연구를 위해
분야마다 다르겠지만 자연계 전공이라면 피할 수 없는 “통계”
피하고 싶은 존재이지만 피할 수 없다.
우리의 실험값들은 대부분 방대한 양의 숫자들로 나타낼 수 있다.
이 숫자들을 바탕으로 우린 결론을 내야 한다.
‘증가하는 경향이 있다’, ‘유의미한 차이가 있다 (또는 없다)’ 등…
결국 숫자를 해석해 패턴을 찾아야 한다.
그런데 이 경향을 단순히 그래프의 추세만으로 판단한다면?
그건 사실, 소설이다.
보고서 수준이라면 그 정도 해석이 허용될 수 있다.
(사실 보고서에도 대부분 요구된다)
하지만 학술 논문에 기재해야 할 결론이라면,
그 경향을 판단한 ‘근거’가 있어야 한다.
그 근거는 통계적 검정, 다시 말해 ‘통계 기반’으로 도출되어야 한다.
통계적 기반 없이 단순한 수치 비교나 직관으로 내린 결론은,
그저 ‘의견’ 혹은 ‘가설’에 지나지 않는다.
그건 과학이 아니라 주장이다.
참고로 이 글은 통계에 대한 정보성 글이 아니다.
우리에게 통계가 왜 필요한지에 대한 중요성을 알리기 위해 작성해 본다.
자연계 분야에서 실험은 재현성, 신뢰성, 객관성을 중시한다.
그런데 대부분의 실험은 환경 변수, 기기 편차, 실험자에 따라 미세한 차이를 피할 수 없다.
이때 필요한 것이 통계적 처리이다.
통계는 단순히 데이터를 계산하는 기술이 아니다.
예시로 들어보자.
A라는 시료를 썼더니 평균 10.2, B는 평균 11.0이 나왔다.
B가 더 좋은 것일까? 그럴 수도 있고 아닐 수도 있다.
그 차이가 ‘우연’인지 ‘의미 있는 차이’인지를 알려주는 게 바로 통계이다.
“차이는 있다”와 “유의미한 차이가 있다”는 다르다
이 말은 대학원에 들어오면 귀에 못이 박히도록 듣게 된다.
“차이가 있네” → 평균이나 그래프의 모양만 보고 말하는 것
“통계적으로 유의미한 차이가 있네” → 검정을 통해 p-value < 기준값(보통 0.05)
여기서 중요한 건, 통계가 차이를 만들지 않는다.
차이는 이미 존재한다. 통계는 그 차이가 진짜로 믿을 만한지를 판단해 주는 도구일 뿐이다.
(1) 잘못된 결론
평균값만 보고 “효과가 있다”라고 주장하는 논문이 많다.
하지만 실제로는 분산이 크거나, p-value는 유의 수준이 아닐 수 있다.
이 경우, “효과가 있다"라는 해석은 설득력을 잃는다.
(2) 잘못된 실험설계
통계를 모르면 실험군/대조군의 수, 샘플 수, 반복 횟수 등을 결정할 수 없다.
통계는 실험 결과 해석에만 적용되는 것이 아니라, 실험설계에서부터 고려되어야 할 부분이다.
(3) 억지스러운 주장
논문에서 통계처리를 하지 않고 시각적 추세만 강조할 경우, 신뢰도가 급격히 떨어진다.
리뷰어들에게 논문이 리젝트 및 추가수정이 요구되는 주요 사유 중 하나다.
모든 수학적 원리를 외워야 한다는 말은 아니다.
실제로 대학원생이 실험 연구에 필요한 통계는 분야마다 어느 정도 정해져 있다.
내가 그동안 실제로 사용해 봤던 통계는 이 정도였다.
특히 학술지 투고논문을 쓰면 통계를 많이 사용하게 되는데,
그게 아니라면 생각보다 쓸 일이 없을 수도 있다.
그동안 사용한 통계들(개인적 경험)
평균, 표준편차, 표준오차, 신뢰구간
정규성 검정 (Shapiro-Wilk, Kolmogorov-Smirnov 등)
분산 동질성 검정 (Levene’s test 등)
t-test (paired, unpaired)
ANOVA + 사후검정 (Bonferroni, Tukey 등)
비모수 검정(Kruskal-Wallis 등)
상관분석 (Pearson, Spearman)
회귀분석 (단순, 다중회귀)
다변량 ANOVA
상호작용 분석 (Interaction)
로지스틱 회귀분석
통계적 power, 샘플 수 결정 (G*Power 사용법)
사실 아무리 자연계라 하더라도,
통계 관련 전공과목을 학부과정, 석사과정에서 한번 이상은 수강을 할 것이다.
그때 당시는 이걸 왜 하나 싶었지만 의미 없는 수업은 없다.
그러니 기억이 안 날지라도 수업을 어느 정도 성실히 수강했다면 기본지식은 내 머릿속 어딘가에 있을 것이다.
통계에서 가장 큰 진입장벽은 통계 프로그램을 활용하는 방법 때문일 것이다.
통계 프로그램은 SPSS, R, SAS, Python 등 다양하다.
다행히도
요즘은 어떤 기법을 사용해야 하는지, 툴을 어떻게 사용해야 하는지
AI에 물어보면 대부분 해결이 된다.
그러니 툴 사용법에 지레 겁먹지 말고
내 실험에 어떤 기법을 사용해야 하는지 논리적으로 접근하려는 노력을 해보자.
본인의 데이터를 실제로 분석해 보는 것
논문에서 사용된 통계 방법을 따라 해 보는 것
왜 이 검정을 썼는지를 이해해 보는 것
"p-value를 0.05 밑으로 만들기 위한 실험"은 과학이 아니다.
의미 없는 반복과 뒷북 실험은 데이터 조작과 다를 바 없다.
실험 설계 단계에서부터
통계적으로 유효한 반복수
적절한 비교군
타당한 가설 설정을 고민해야 한다.
통계결과가 내가 예상한 결과가 아니더라도 억지로 원하는 값을 인위적으로 도출하려 하지 말자.
물론 사후검정 방법에 따라 같은 결과값이 유의적일 수도 있고, 아닐 수도 있다.
제대로 실험설계가 된 실험이라는 가정하에
이를 내가 원하는 결과에 맞게 통계기법을 선택하는 것 정도는 내가 통계를 잘 활용하는 것이라 생각한다.
조심해야 하는 건 이렇게 선택할 수 있는 모든 경우의 수를 적용해 봐도 내가 예상한 결과가 안 나올 때
억지로 수치를 맞추려 하지는 말자.
그건 그냥 내 가설이 틀린 것이다.
데이터를 억지로 만질 생각하지 말고
이게 왜 이런 결과가 나왔는지에 대한 다른 논문을 기반으로 근거를 찾기 위한 노력을 하자
통계는 결론을 내리기 위한 최소한의 ‘신뢰 기반’이라는 것을 잊지 말자
통계는 모든 것을 결정해 주는 마법의 도구가 아니다.
하지만 우리의 실험이 정량적이고 신뢰할 수 있는 결과를 갖고 있다는 최소한의 논리적 기반을 제공해 준다.
숫자는 거짓말하지 않는다.
하지만 숫자를 해석하는 사람은 얼마든지 거짓말을 할 수 있다.
그래서 우리는 통계를 배워야 한다.
그래야만 ‘정직한 해석’을 할 수 있다.