숫자의 함정 ③ 평균의 강에서 익사하다

by 한경수

평균 수심 1.2미터인 강이 있다. 건너도 될까?

안 된다. 강의 절반은 수심 30센티미터이고, 나머지 절반은 수심 2.1미터일 수 있다. 평균이 현실을 대표하지 못하는 가장 단순한 사례다. 그런데 이 단순한 함정에 국가 정책이 빠지고, 대학이 빠지고, 병원이 빠진다.


남녀 임금 격차는 존재하는가

한국의 남녀 임금 격차는 OECD 최하위권이다. 여성의 평균 임금은 남성의 약 69% 수준. 숫자는 명확하다. 그런데 이 숫자를 어떻게 읽을 것인가에서 논쟁이 시작된다.

"같은 일을 하는데 31%를 덜 받는다"는 해석이 있고, "같은 직종, 같은 경력, 같은 근속연수를 통제하면 격차가 크게 줄어든다"는 해석이 있다. 둘 다 맞는 말이다. 그리고 둘 다 불완전한 말이다.

전체 평균은 구조를 숨긴다. 여성이 저임금 직종에 집중되어 있다는 것, 경력 단절이 빈번하다는 것, 관리직 비율이 낮다는 것 — 이런 구조적 요인이 평균 안에 녹아 있다. 평균만 보면 "차별"로 읽히고, 변수를 통제하면 "선택의 차이"로 읽힌다. 같은 데이터가 정반대 결론을 낸다.

문제는 평균 자체가 아니라, 평균 하나로 복잡한 구조를 대표하려는 태도에 있다.


심슨의 역설 — 부분에서는 이기고 전체에서는 진다

1973년, 버클리 대학교 대학원 입학 데이터에서 이상한 일이 발견되었다. 전체 합격률을 보면 남성 44%, 여성 35%. 여성 차별이 명백해 보였다.

그런데 학과별로 나눠보면 이야기가 달라졌다. 대부분의 개별 학과에서 여성 합격률이 남성과 같거나 오히려 높았다. 어떻게 부분에서는 이기면서 전체에서는 질 수 있는가?

답은 지원 패턴에 있었다. 여성 지원자가 경쟁률이 높은 학과(합격률이 낮은 학과)에 집중적으로 지원했다. 남성은 상대적으로 합격률이 높은 학과에 많이 지원했다. 학과별로 보면 차별이 없는데, 지원 분포의 차이가 전체 합격률에서 격차를 만들어낸 것이다.

이것이 심슨의 역설이다. 하위 집단에서 성립하는 관계가 집단을 합치면 뒤집히는 현상. 수학적으로 완벽하게 성립한다. 직관적으로는 거의 이해 불가능하다.


더 좋은 병원에서 더 많이 죽는다

심슨의 역설은 교과서 속 퍼즐이 아니다. 생사가 걸린 현실에서 작동한다.

병원 A의 수술 사망률이 3%이고, 병원 B의 사망률이 5%라고 하자. 어디서 수술받겠는가? 당연히 A다.

그런데 환자를 중증과 경증으로 나눠보면 이렇다. 경증 환자 사망률은 A가 2%, B가 1%. 중증 환자 사망률은 A가 10%, B가 7%. 두 집단 모두 B가 낫다.

어떻게 부분에서 다 지는 병원이 전체에서 이기는가? 병원 A는 경증 환자를 많이 받고, 병원 B는 중증 환자를 많이 받기 때문이다. 실력 좋은 병원에 어려운 환자가 몰리고, 어려운 환자가 몰리니까 전체 사망률이 올라간다. 전체 평균만 보고 병원을 고르면, 더 못하는 병원을 선택하게 된다.


그래프가 거짓말하는 법

평균이 구조를 숨기는 것처럼, 그래프도 거짓말한다. 정확히는, 같은 데이터를 놓고 정반대 인상을 만들 수 있다.

가장 흔한 수법은 Y축 조작이다. 매출이 100에서 102로 올랐다고 하자. Y축을 0에서 시작하면 거의 변화 없는 평평한 선이다. Y축을 99에서 시작하면 급격한 상승 곡선이 된다. 같은 데이터, 같은 시간 범위, 같은 숫자. 축의 시작점만 바꿨다.

선거 전 여론조사 보도에서 자주 쓰인다. 지지율 1%포인트 차이를 거대한 격차처럼 보여주고 싶으면 Y축을 좁히면 된다. 반대로 격차를 축소하고 싶으면 Y축을 넓히면 된다. 어느 쪽이든 "데이터를 조작한 것"은 아니다. 표현 방식만 바꾼 것이다. 그래서 더 교묘하다.

두 번째 수법은 이중 Y축이다. Tyler Vigen의 니콜라스 케이지-익사 사고 그래프가 정확히 이 방식이다. 두 개의 서로 다른 척도를 하나의 그래프에 겹쳐 놓고, 각각의 Y축 범위를 조절해서 두 곡선이 겹쳐 보이게 만든다. 어떤 두 시계열이든, Y축 스케일을 적절히 맞추면 겹쳐 보이게 만들 수 있다.


숫자 뒤의 구조를 보라

1편에서는 물었다. 몇 번 검정했는가. 2편에서는 물었다. 빠져 있는 데이터는 무엇인가. 이번에는 이것이다.

평균 뒤에 어떤 분포가 있는가. 전체 뒤에 어떤 하위 집단이 있는가. 그래프 뒤에 어떤 축 설정이 있는가.

숫자는 하나의 답을 주는 것 같지만, 사실 질문을 요구한다. 이 평균은 누구의 평균인가. 이 합격률은 어떤 조건에서의 합격률인가. 이 그래프의 Y축은 어디서 시작하는가.


질문을 멈추면 숫자가 결론이 된다. 질문을 계속하면 숫자가 출발점이 된다.

매거진의 이전글숫자의 함정 ④ 황새가 아기를 데려온다