모수와 비모수

by 전익진

Feb 6. 2021

누군가 “통계가 무엇입니까?”라는 질문을 던진다면 이제는 이렇게 대답할 수 있습니다.

“통계는 확률입니다.”

확률을 표현한, 대표적인 연속확률분포이며, 세상의 모든 현상을 설명하는 정규분포를 대표하는 값은 평균과 분산입니다.

이 평균과 분산을 통계에서는 모수parameter라 부릅니다.

만약 관찰 결과가 정규분포를 따르지 않는다면 이는 수집된 데이터가 부족하기 때문입니다.

여기에 추가로 수집된 데이터의 환경이 서로 다를 수도 있습니다.

이를 바탕으로 모수가 되기 위한 충분 조건은 다음과 같이 설명할 수 있습니다.

첫째, 데이터가 정규분포를 따른다.

둘째, 데이터가 정규분포로 표현될 만큼 표본 수가 많다.

셋째, 데이터가 같은 환경에 있다.

하지만 세상의 모든 현상이 음과 양의 조화를 이루듯 모수의 개념과 반대 개념 역시 존재합니다.

이를 비모수non-parameter라고 합니다.

비모수는 데이터가 정규분포가 아니며 데이터의 표본 수가 적거나 부족하고 데이터가 서로 독립적인 경우입니다.

쉽게 모수는 연속된 값, 비모수는 연속되지 않은 값이라고 이해해도 됩니다.

그러면 비모수 데이터에는 어떤 것이 있을까요?

매출액과 영업이익을 기준으로 높은 순으로 순위를 부여하고 비교해서 영업성과 평가를 진행한다고 가정해 봅니다.

매출액과 영업이익을 정리하고 매출액 대비 순위와 영업이익 대비 순위를 작성합니다.

매출과 영업이익을 뽑고 순위를 부여하는 작업은 어렵지 않습니다.

문제는 두 순위 간에 어떤 상관관계가 있는지를 검정하는 부분입니다.

단순하게 금액으로 비교하면 두 개의 그룹이 각각 정규분포를 따르므로 문제가 없습니다.

그러나 순위를 뽑고 비교한다면 두 그룹 간 순위가 반드시 정규분포를 따른다고 볼 수 없습니다.

예를 들어 1~30위까지의 표준편차에 따른 분포 그래프를 그리면 다음과 같이 나타납니다.

그러면 순위가 아닌 단순 매출액과 영업이익은 왜 정규분포를 따르는지를 설명해 보겠습니다.

정규분포는 연속확률분포입니다.

연속확률분포는 몸무게와 같이 값이 연속되는 분포를 의미합니다.

매출이 100과 200이라고 가정한다면 100에서 200이라는 매출 사이에는 수없이 많은 매출액이 있을 수 있습니다.

영업이익도 마찬가지죠.

그런데 매출액을 기준으로 매긴 순위는 연속적인 값이 될 수 없습니다.

가정한 매출액 100과 200이 각각 2와 1의 순위라면 2위와 1위 사이에 다른 순위가 존재할 수 없습니다.

따라서 단순 금액 비교일 때는 피어슨 상관분석을 수행하면 되지만, 정규분포를 따르지 않는 비모수일 때는 피어슨 상관분석을 수행하기 곤란합니다.

이 경우 비모수적 검정 기법인 스피어만 상관분석으로 매출액에 따른 순위와 영업이익에 따른 순위를 비교해야 합니다.

모수적 검정 기법은 모집단으로부터 추출한 표본 간 평균 차이를 중심으로 분석합니다.

단순한 평균 비교부터 분산을 통한 분석까지 다양합니다.

하지만 비모수적 검정 기법은 평균이 아닌 서열(순위, rank) 또는 특정 기준 값(평균 또는 중앙값, 대체로 중앙값을 사용한다)을 중심으로 한 부호sign에 무게를 두고 분석한합니다.

따라서 비모수적 검정 기법에서는 데이터의 값이 극단적이더라도 영향을 덜 받습니다.

수집된 데이터의 값 중 특정 데이터 값이 아무리 커도 순위에 차이가 있을 뿐 평균의 차이와는 관련이 없기 때문이죠.

예를 들어 앞서 영업성과 비교에서 사원별 거래처 매출액을 나열해 보니 A사원 100, B사원 170, C사원 50, D사원 210, E사원 220이고, 평균은 150입니다.

그리고 순위를 거래처 매출액에 따라 정리하면 A사원 4위, B사원 3위, C사원 5위, D사원 2위, E사원 1위입니다.

그래서 매출액 평균 150을 평가 기준으로 잡고 기준 미만은 미달성, 기준 이상은 달성으로 처리합니다.

미달성한 사원은 A와 C죠.

그런데 다시 확인해 보니 D사원의 매출액이 210이 아닌 400이었습니다.

그러면 평균이 188이 돼 B사원 역시 미달성이 됩니다.

평균이 이동해 기준이 달라진 것인데, 순위는 D사원과 E사원만 바뀔 뿐이죠.

이것은 순위에 변동이 생겼지만 그 결과는 평균과 무관하다는 의미입니다.

다시 말해 매출액과 같은 연속확률분포는 평균의 차이가 매우 중요하지만, 이산확률분포에서는 평균 차이와 관계없이 순위 차이를 기준으로 분석한다는 얘기입니다.

그래서 극단적인 값이 존재해도 순위 차이만 있을 뿐 극단적인 값에는 영향을 덜 받는 것이죠.

모수적 검정 기법과 비모수적 검정 기법의 선택은 어느 쪽이 우월하고 어느 쪽이 정확도가 높은지가 아니라 상황에 적절한 검정 기법을 선택하는 문제입니다.

그러면 어떤 경우에 비모수적 검정 기법을 사용하면 좋을까요?

정규분포를 매번 가정하거나 데이터가 충분히 적을 때 일까요?

데이터 분석을 하는 사람이 모두 다 그렇지는 않지만 나의 경우를 비추어 보면 다음과 같은 상황에서 비모수적 검정 기법을 주로 사용합니다.

일단 데이터가 적은 상황은 배제합니다.

데이터 홍수의 시대에 데이터가 적은 상황은 그리 흔치 않기 때문이죠.

그래서 모든 분석에 앞서 충분히 데이터가 확보된다고 가정하고 모수적 검정을 수행합니다.

그렇게 해서 나온 분석 결과를 2차 데이터로 재활용해 분석할 때, 데이터가 반드시 정규분포를 따른다고 가정할 수 없으므로 비모수적 분석을 수행합니다.

그러나 1차 분석에서 관측이나 실험의 결과가 서로 다른 환경에서의 독립된 표본이라면 당연히 비모수적 검정을 수행해야 합니다.

서열과 부호를 기준으로 한 비모수적 검정은 수학적 깊이나 특별한 통계적 지식을 요구하는 경우가 적습니다.

또한 순위가 명확하므로 잘못된 분석결과를 도출할 가능성이 적습니다.

하지만 비모수적 검정은 정규분포를 가정해 나타내지 않기 때문에 표본이 모집단을 대변한다 하기에는 부족합니다.

또한, 분석 대상이 정규분포를 따르지 않으면 심각한 오류를 범하게 된다고 오랫동안 믿어 왔기 때문에 비모수적 검정은 모수적 검정보다 개발된 방법론이 극히 적습니다.

keyword

매거진의 이전글독립변수, 종속변수 그리고 분산분석스피어만 상관계수 1매거진의 다음글