심슨의 역설에서부터 왜 평균의 평균은 전체 평균과 다를까?에 대한 고찰
뭐? 우리학교가 소송에 걸렸다고?
1973년 미국 캘리포니아 버클리 대학교는 대학원 입학에서 성차별 혐의로 소송을 당했습니다. 남성 지원자 8,442명 중 44%가 합격했지만, 여성 지원자 4,351명 중 35% 만이 합격했다는 것이 이유였습니다. 처음에는 전체 지원자 관점에서 비교했을 때, “남녀 합격률에 차이가 있다” 라는 유의미한 통계수치가 나왔습니다.
하지만 학과별로 비교해보니 더 많은 과에서 여성의 합격률이 높았습니다. 이는 특정학과에 여성 지원자가 많았기 때문입니다. 이처럼 데이터를 남녀 평균으로 바라보았을때와 부분으로 나눠서 들여다봤을 때는 정반대 결과를 나타냈습니다. 이것이 바로 데이터를 올바르게 봐야 하는 이유입니다.
데이터는 우리의 생활과 결정에 큰 영향을 미칩니다. 그래서 이 데이터를 올바르게 이해하고 활용하는 것은 중요한 기술입니다. 그 중에서 특히 평균은 데이터를 요약하고 해석하는데 가장 흔하게 사용되는 방법 중 하나이기 때문입니다. 오늘 우리는 데이터 분석의 흥미로운 부분 중 하나인 "평균"에 대한 심도 있는 토론을 시작하려고 합니다.
데이터가 우리의 직관을 속인다?
앞서 예로 든 심슨의 역설은 데이터가 우리의 직관을 어떻게 속일 수 있는지를 보여주는 흥미로운 사례 중 하나입니다. 이 사례는 데이터를 부분집합으로 나눌 때 나타나는 현상으로, 전체 데이터와 부분집합 간의 상관관계가 반대로 바뀌는 현상을 말합니다.
다른 예를 드는 것도 어렵지 않습니다. 예를 들어, 어떤 약의 효과를 조사하고 있다고 상상해보세요. 전체 환자 그룹에서는 약이 효과적으로 작용하지 않는 것처럼 보일 수 있지만, 노인 또는 어린이와 같이 특정 하위 그룹에서는 약이 효과적으로 작용하는 것을 발견할 수 있습니다. 이런 역설은 데이터 분석에서 주의 깊게 고려해야 할 중요한 측면 중 하나입니다. 이것은 데이터 과학, 통계학, 경제학, 의학, 사회과학 및 다른 많은 분야에서 중요한 개념으로 여러분들의 업무와 일상에서의 활용도가 높으리라 확신합니다.
회사 때려치고 편의점이나 해볼까?
여러분, 회사 때려치고 편의점이나 해볼까? 라는 생각 해본 적 있지 않으신가요? 이런 생각을 품고 생기는 편의점 덕분에 서울에 있는 편의점수만 해도, 최근 15년 동안 4배가 증가했습니다.
(2006년 2,139개 -> 2021년 8,439개)
우선 편의점 경영이 얼마나 어려운지 문제는 뒤로 하고, 편의점이 평균적으로 얼마나 버는지 궁금하시죠? 여기 그것에 관한 통계 데이터 있습니다. 우리나라의 대표인 서울지역을 살펴보시죠. 2023년 공정거래위원회 가맹사업거래 데이터를 보면, G 편의점의 서울지역 점포당 평균 매출액은 6억 8,210만원으로 나타났습니다. 마찬가지로 C 편의점도 6억 7,835만원 수준입니다.
그렇다면 각 브랜드별 점포 수는 얼마나 많을까요? G 편의점의 점포수는 2022년 말 기준 16,377개 점포로, 2023년 전국에 약 17,000여 점포가 있다고 합니다.
여기서 문제가 있습니다.
점포당 평균 매출액을 어떻게 구할까요?
두 가지 방법이 있을 것 같은데요.
방법 ①
하나는 지역(구)별 편의점 평균 매출액을 구한 다음,
이 구별 평균 매출액들을 모두 더해서,
구의 개수로 나눠서 평균을 구할 수 있죠.
방법 ②
다른 방법은 그냥 서울 전체 편의점에서 판매된 매출액의 총합을
서울에 있는 편의점 수로 나눠서 평균값을 구해주는 겁니다.
먼저 쉬운 질문부터 드려볼게요. 서울에는 몇 개의 구가 있을까요? 아시는 분?
네, 서울에는 2023년 기준 25개의 구, 522개 동으로 구성되어 있습니다.
그럼 이제 필요한 정보들은 다 모았습니다.
어떤 집단에 대해 말할 때, 우리는 그 집단을 대표하는 값 하나로 표현하죠. 가장 많이 쓰는 대표값이 바로 "평균" 입니다. 학교 다닐 때 평균은 하도 많이 배워서 그 계산 방법은 익히 아실 거예요. 하나 하나 개별 값 들을 모두 더하고, 값의 개수로 나눠 주면 바로 계산되죠.
네, 기억하실 지 모르겠지만 이것을 조금 어려운 말로 “산술 평균” 이라고 했습니다.
좀 더 중학생 수준으로 올라가 보면, 산술평균은 "어떤 집단의 데이터 합을 데이터의 개수로 나눠서 구한다. " 라고 표현할 수 있죠.
고등학교에 가면 이것을 수식으로 표현합니다.
시그마 k=1 부터 n 까지 X_k 라고 쓸수 있죠.
다시 편의점 문제로 돌아가서 서울에 편의점이 10개만 있다고 가정해 볼께요.
첫번째 편의점은 연매출 1억, 두번째 편의점은 연매출 2억, 세번째 편의점은 연매출 3억원입니다….10번째는 10억원이죠. 그러면 1+2+3+4+5..+10 = 55/10 = 5.5억원 입니다. 이 경우 서울 편의점의 평균 매출액은 5.5억원입니다. 실제와 많이 비슷하네요.
그럼 아까 말한 평균의 평균을 구해볼까요? 이번에는 서울에 구가 5개만 있다고 가정해보겠습니다.
괄호 안의 숫자는 편의점의 개수입니다.
강동구(3), 강서구(3), 강남구(2), 강북구(1), 종로구(1)
이번에는 구별로 평균을 구해서 다시 이들의 평균을 계산해 보겠습니다.
강동구에는 3개 편의점이 있습니다.
이들의 평균은 1+2+3 = 6/3 = 2억원 입니다.
강서구에도 3개 편의점이 있습니다.
이들의 평균은 4 + 5+6 = 15/3 = 5억원 입니다.
강남구에는 2개 편의점이 있습니다.
이들의 평균은 7+8 = 15/2 = 7.5억원 입니다.
그리고 강북구 편의점이 하나밖에 없습니다.
평균은 그냥 9/1 = 9억원입니다.
마지막 종로구도 하나의 편의점으로 10/1=10억원입니다.
그러면 이제 강동구, 강서구, 강남구, 강북구,종로구 편의점의 평균을 구해보겠습니다.
2+5+7.5+9+10 = 33.5/5 = 6.7억원이 되었습니다.
5.5억원 vs 6.7 억원
기억하시나요? 서울에 있는 10개 편의점 매출의 총합을 편의점 개수인 10으로 나눴을때는 5.5억원이었는데, 5개 구별 평균을 구해서 다시 평균을 구했더니 갑자기 6.7억원이 되었습니다.
아니 도대체 어떻게 이렇게 큰 차이가 발생한거죠??? 네??
좀 이상하니 다시 한번 해보겠습니다.
이번에는 강동구, 강서구, 강남구, 강북구, 종로구에 있는 편의점이 모두 2개로 동일하다고 가정해보겠습니다.
강동구 = (1+2) /2 = 3/2 = 1.5
강서구 = (3+4) /2 = 7/2 = 3.5
강남구 = (5+6) /2 = 11/2 = 5.5
강북구 = (7+8) /2 = 15/2 = 7.5
종로구 = (9+10) /2 = 19/2 = 9.5
1.5+3.5+5.5+7.5+9.5 = 27.5/5 = 5.5
5.5억원 = 5.5 억원
눈치 채셨나요? 앞의 두번의 계산에서 각 구에 있는 편의점의 개수가 서로 달랐을때는 산술평균과 평균의 평균값이 서로 달랐고, 구별 편의점의 개수가 동일 할 때는 산술 평균과 평균의 평균값은 같았습니다.
다시 말해 나눠지는 수인 분모가 서로 다르다면 우리가 수학시간에 배운 평균값을 계산하는 방식의 값에도 오류가 생긴다는 결론에 도달하게 됩니다. 평균의 정확한 의미에 대해 기술한 부분을 잘 읽고 데이터 정의와 한계점에 대해 인식이 필요합니다.
아래는 실제 정보공개서와 정부기관 보고서에서 나타난 데이터 정의와 한계점에 대한 부분입니다. 명확히 서술된 내용을 잘 살펴보는 것으로 평균 데이터에 대한 이해를 마무리 하고자 합니다.
연평균 매출액이 883만원 ~
43억원 사이에 있다?
이 실수는 다양한 판매점포나 생산현장이 많은 대기업에서 데이터 분석시에 가장 범하기 쉬운 오류입니다. 실제 데이터 분석가들도 이런 실수에 대해 인지하지 못하고 넘어가는 경우가 많습니다. 따라서 이러한 오류에 대해 왜 발생하는지 정확히 이해하고 데이터를 분석해야 합니다. 또한 데이터가 주는 한계 그리고 잘못된 방법으로 데이터 전처리 프로세스를 접근하다보면 이렇게 잘못 파생된 값으로 또 다른 계산을 하고 있을 수 있다는 점을 명확히 하고 싶습니다. 보다 많은 사람들이 데이터로부터 동등한 기회를 갖을 수 있도록 계속해서 쉽게 글과 콘텐츠를 이어나가고 보도록 하겠습니다.
아울러 공정거래위원회는 가맹사업법에 의거하여, 앞서 살펴본 편의점, 제과점, 아이스크림점 등 프랜차이즈 가맹점에 가맹점수, 평균매출액, 개점/폐점수, 광고비 및 판촉비 등을 매년 법적으로 공개하도록 되어 있습니다. 편의점 등 프랜차이즈 창업에 관심이 있으신 분은 아래 정보를 열람하시면 좋겠습니다.
다음 콘텐츠는 음악과 수학, 인공지능의 만남이라는 주제입니다. 이렇게 데이터에 대한 올바른 이해가 수반된다면, 앞으로 인공지능에 대한 활용부터 설계까지 기회를 넓혀 나갈 것이라고 생각됩니다. 감사합니다.