검지와 약지의 길이 차이가 큰 여성일수록 딸을 낳을 확률이 높다는 연구결과가 있다. 가천대 길병원과 서울대병원 공동연구팀이 508명을 대상으로 조사한 결과, 손가락 길이 비율 중간값 0.95를 기준으로 그 미만인 여성은 아들을 가질 확률이 13.8% 더 높았다. 국제학술지 PLOS ONE에 실렸다.
흥미로운 결과다. 그리고 거의 확실히 틀렸다.
자녀의 성별은 수정 시 아버지의 X 또는 Y 정자가 결합하느냐로 결정된다. 이것은 확립된 생물학이다. 어머니의 손가락 길이가 그 결과에 영향을 미친다는 주장은 메커니즘이 없다.
굳이 경로를 추측하면, 태아기 호르몬 환경이 손가락 비율에도 영향을 미치고 나중에 자궁 내 환경에도 영향을 미쳐 X/Y 정자의 생존에 차이를 만든다는 식인데, 이건 상당히 먼 추론이다. 가설로서도 억지스럽다.
그보다 훨씬 가능성 높은 설명이 있다. 다중비교의 산물이라는 것.
손가락 길이 비율 하나를 가지고도 종속변수를 여러 개 만들 수 있다. 자녀 수, 아들 수, 딸 수, 성비, 첫째 성별, 둘째 성별. 독립변수도 마찬가지다. 오른손, 왼손, 양손 평균, 좌우 차이. 이것들을 조합하면 검정 횟수가 금방 수십 개로 늘어난다.
유의수준 0.05로 20번 검정하면, 모든 변수가 완전히 무관하더라도 하나쯤 "통계적으로 유의한" 결과가 나올 확률은 64%다. 40번이면 87%. 이것은 속임수가 아니라 확률의 산술이다.
연구자가 의도적으로 속이는 것이 아닐 수도 있다. 여러 분석을 탐색하다가 유의한 결과가 나온 것만 보고하는 것 — 이것을 p-hacking이라 부른다. 연구자 자신도 모르게 할 수 있다. 유의하지 않은 결과는 "아직 제대로 된 분석을 못 한 것"이라 생각하고, 유의한 결과가 나오면 "드디어 찾았다"고 느끼니까.
하버드 법대생 Tyler Vigen은 이 원리를 극단까지 밀어붙였다. 25,000개 이상의 변수를 서로 비교하는 소프트웨어를 만들어 돌린 것이다. 6억 개가 넘는 조합에서 "통계적으로 유의한" 상관관계를 찾아냈다.
니콜라스 케이지 출연 영화 수와 수영장 익사 사고 수. 상관계수 0.67. 마가린 소비량과 메인 주 이혼율. 치즈 소비량과 침대 시트에 얽혀 사망한 수.
웃기지만, 이것이 정확히 같은 구조다. 변수를 충분히 많이 비교하면 인상적인 상관관계는 반드시 나온다. 손가락 길이와 자녀 성비 사이의 상관도, 니콜라스 케이지와 익사 사고 사이의 상관도, 통계적으로는 같은 메커니즘에서 태어난다.
PLOS ONE은 방법론에 큰 결함이 없으면 결과의 참신성과 무관하게 게재하는 편집 방침을 가진 학술지다. 전통적 학술지보다 탐색적 결과가 통과하기 쉽다. "국제학술지에 실렸다"는 사실이 연구의 신뢰성을 자동으로 보장하지는 않는다.
여기에 출판편향이 겹친다. "손가락 길이와 자녀 성비는 관련이 없다"는 결과는 논문이 되지 않는다. 뉴스가 되지 않는다. 관련이 있다는 결과만 세상에 나온다. 그래서 우리 눈에 보이는 것은 양성 결과뿐이고, 같은 주제로 시도했다가 아무것도 안 나온 수십 건의 연구는 서랍 속에 잠들어 있다.
통계학을 37년 가르치면서 학생들에게 반복한 말이 있다. "놀라운 결과일수록 의심하라." 의심의 순서는 이렇다.
몇 번 검정했는가. 표본은 어디서 왔는가. 효과의 크기는 얼마나 되는가. 독립적인 표본에서 재현되었는가. 메커니즘에 대한 설명이 있는가.
이 다섯 가지를 물으면, 대부분의 "놀라운 발견"은 조용히 사라진다. 남는 것이 진짜다.