통계학 공부(4)

왜도/첨도/자료분할 표와 그래프

by 김학준

데이터세트 구조

분포의 형태

많은 통계분석 방법에서는 모집단이 중심위치를 기준으로 대칭(symmetric)이라고 가정

- 분석방법의 적절성은 가정한 조건을 자료가 얼마나 만족하고 있는지에 따라 영향을 받음

자료의 분포 형태에 대한 측도

- 자료가 모집단의 가정을 만족하는지에 확인

왜도(skewness)

자료가 대칭적으로 분포되어 있는지 한쪽으로 기울어져 있는지에 대한 측도

왜도: 피어슨(Karl Pearson) 제안

피어슨 왜도.png


평균보다 작으면 음수 크면 양수

- 평균에서 멀어질수록 큰 음수나 큰 양수가 됨

좌우가 비슷한 형태를 가진다면 음수와 양수가 상쇄되어 0 근처 → 대칭

두터운 꼬리(heavy tail): 꼬리가 길게 분포

오른쪽 꼬리가 김 → 큰 양수값을 가짐 → 양의 왜도(positive skewness), skewed to the right

왼쪽 꼬리가 김 → 큰 음수값을 가짐 → 음의 왜도(negative skewness skewed to the left)

첨도(kurtosis)

양쪽꼬리가 얼마나 두터운지를 나타내는 값

첨도.png


평균에서 멀어질수록 큰 값

분포의 중심보다는 꼬리 부분이 얼마나 두터운지에 따라 영향을 많이 받음

정규분포의 경우 이론적으로 첨도는 3

평균 58.77, 표준편차 15.542

평균을 뺀 값에 3승을 함 = -60882.76

평균을 뺀 값에 4승을 함 = 7432115


왜도 = -60882.76/표본 개수(n-1) x 표준편차의 3승 = -0.396

첨도 = 7432115/표본 개수(n-1) x 표준편차의 4승 = 3.107

표본개수에서 표준편차를 곱하고 왜도와 첨도를 나누는 이유는 *표준화하기 위해서

표준화 = 데이터-평균/표준편차


왜도 & 첨도의 활용

- 자료 분포의 형태를 나타내는 측도

- 심한 왜도나 큰 첨도를 가지는 경우

→ 자료에 이상점이 있을 가능성이 높아짐

- 이런 경우는 평균을 기반으로 한 분석 방법은 상당히 위험할 수 있음



*정규성 검정

왜도 - 0, 첨도 = 3 → 왜도가 0, 첨도가 3이 아니면?

jacque-Bera 검정

자크베라 검정.png

값이 높을수록 정규분포에서 멀어진다.


분할표와 그래프

변수(자료)형태.png

분석목적 *

비교: X에 따라 Y에 차이가 있는가?

관계: X와 Y가 관련이 있는가? X가 Y에 영향을 주는가?

분류: X에 따라 Y를 분류할 수 있는가?

X, Y가 비슷한 것끼리 묶을 수 있는가?


분할표(cotingency table)

두 개 이상의 변수를 동시에 고려하여 각각의 범주에 관측개체의 빈도를 정리한 교차표

예] 성별(남녀)과 혈액형(A, B, AB, O) 간에 관계

성별(남녀)과 혈액형(A,B,AB,O)간에 관계.png

- 칸(cell): 각 범주에 교차되는 부분

세 가지 스마트폰모델에 대한 남녀별로 선호도 비교

남자 76명과 여자 70명을 대상으로 세 가지 모델(A, B, C) 중 가장 마음에 드는 모델을 선택

데이터세트 구조

데이터세트 구조.png

남자 중 모델 A는 35, B는 23, C는 18명이 선택하고

여자 중 A는 17명, B는 33, C는 20명이 선택

스마트폰 모델에 대한 남녀별 선호도 비교.png

Q. 비율표시는? *

비율(상대도수) 표시

- 분모

성별 합계(76, 70)

스마트폰 모델별 합계(56, 56, 38)

전체 합(146)


비율은 분석 목적 또는 자료가 어떻게 수집되었는지에 따라 다르게 표시 *

- 분석목적: 선호도에서 남녀 간 차이여부

→ 남자 중 각각의 모델을 선호한 비율과 여자 중 각각의 모델을 선호한 비율을 비교


- 비교를 위한 비율표시

비교를 위한 비율표시.png

- 만약 146명을 무작위로 조사한 경우

만약 146명을 무작위로 조사한 경우.png

- 성별과 스마트폰 선호도 간 관련성 여부

- 차이 또는 관련 여부 확인 → 통계학의 이해 2편에서


수치자료를 범주화(순서자료로 작성)하고 분할표 작성

부자의 신장: 165, 170, 175, 180을 기준으로 범주화

부자의 신장 범주화.png

표자체에서 경향성 파악을 위해 가로는 오름차순으로 세로는 내림차순으로 표현하면 좋음


K차원 분할표(K-dimensional contingency table)

k개 범주형 변수에 대한 분할표

타이타닉호 생존자와 사망자 수

변수 : 생존여부, 성별(어린이), 객실등급(승무원)

타이타닉호 생존와 사망자수.png
타이타닉호 생존와 사망자수_2.png

성별, 생존여부, 등급 총 3개로 나눴기 때문에 3차원 분할표다!


생존율

- 1등실:62.2%, 2등실:41.4%, 3등실:25.2%, 승무원:23.3%, 전체:31.9%

- 여기까지만 보면 승무원이 타이타닉호에서 가장 많은 희생을 했다고 볼 수 있지만 이것은 조금 잘못됐다.

- 남자: 20.0%, 여자 74.4%, 어린이:51.4%


그래프를 이용한 자료정리

원도표(pie chart)

- 비교 그룹별로 파이차트 작성

막대그래프(Bar chart)

분석목적과 자료형태에 맞게 빈도/비율 중 선택

타이타닉호 생존율

- 등실과 성별에 따른 생존율(%)

등실과 성별에 따른 생존율.png

승무원에 생존율이 가장 낮았음에도 불구하고 남자들끼리 비교했을 때 승무원이 두 번째로 높고, 여자들끼리 비교했을 때도 여전히 승무원이 두 번째로 높다.!

그리고 남자는 2등실에 생존율이 매우 낮음을 알 수 있음

생존율

- 1등실:62.2%, 2등실:41.4%, 3등실:25.2%, 승무원:23.3%, 전체:31.9%

- 남자: 20.0%, 여자 74.4%, 어린이:51.4%

남녀로 구분했을 때, 승무원의 생존율은 1등실을 제외한 나머지 등식의 승객보다 생존율이 높음

남성비율

- 1등실 54.9%, 2등실 64.4%, 3등실 73.7%, 승무원 97.5%

- 남성의 생존율은 여성보다 낮은데 승무원 중 남성의 비율이 97%가 됐기에 승무원의 생존율이 낮아 보였던 것

- 이외 같이 전체자료를 분석한 결과와 그것을 세부적으로 쪼갰을 때 분석한 결과가 상반되게 나오는 경우가 있는데 이걸 심슨의 패러독스


심슨의 패러독스

채찍피티의 설명

두 병원이 있는데, A 병원과 B 병원의 환자들이 수술을 받았다고 가정해 봅시다. 두 병원의 수술 성공률을 비교해 환자들이 어디서 수술을 받아야 더 좋은지 판단하려고 합니다.


병원별 수술 성공률:

A 병원: 100명 중 78명 성공 → 성공률 78%

B 병원: 100명 중 83명 성공 → 성공률 83%


단순히 전체 데이터를 보면, B 병원이 A 병원보다 더 높은 성공률을 보이고 있습니다. 따라서, B 병원이 더 나은 병원처럼 보일 수 있습니다.

그러나, 이를 환자의 상태에 따라 두 그룹으로 나눠서 분석해 보겠습니다. 두 그룹은 각각 중증 환자와 경증 환자로 나눌 수 있습니다.


그룹별 세부 데이터:

중증 환자

A 병원: 80명 중 60명 성공 → 성공률 75%

B 병원: 20명 중 16명 성공 → 성공률 80%


경증 환자

A 병원: 20명 중 18명 성공 → 성공률 90%

B 병원: 80명 중 67명 성공 → 성공률 83.75%


해석:

중증 환자만 보면, B 병원의 성공률이 A 병원보다 높습니다 (80% vs 75%).

경증 환자만 보면, A 병원의 성공률이 B 병원보다 높습니다 (90% vs 83.75%).


즉, 중증 환자와 경증 환자로 나누어서 보면 A 병원이 더 좋은 성공률을 보이지만, 전체적인 데이터를 보면 B 병원이 더 나은 병원처럼 보입니다.


왜 이런 일이 발생할까요?

이 상황은 **혼란 변수(confounding variable)**에 의해 발생합니다. 여기서 중요한 혼란 변수는 병원에 오는 환자의 상태입니다. A 병원은 중증 환자를 더 많이 치료한 반면, B 병원은 경증 환자를 더 많이 치료했기 때문에 전체 데이터를 보면 B 병원이 더 나은 것처럼 보입니다. 그러나 환자의 상태에 따라 구분해서 보면, A 병원의 성공률이 더 높다는 것을 알 수 있습니다.


수학적 설명:

심슨의 패러독스는 확률과 관련이 있습니다. 각각의 하위 그룹에서 나오는 결과와, 전체 데이터를 통합했을 때의 결과가 다를 수 있다는 점이 바로 이 패러독스의 핵심입니다. 병원의 환자 분포가 달라서, 중증 환자를 더 많이 받은 A 병원은 전체 성공률이 낮아 보이지만, **같은 조건(중증 환자 또는 경증 환자)**에서는 A 병원이 더 나은 성과를 보일 수 있습니다.


결론:

심슨의 패러독스는 데이터를 단순하게 집계해서 보는 것만으로는 결론을 내리기 어렵다는 것을 보여줍니다. 데이터 분석 시 전체적인 결과뿐만 아니라 하위 그룹별로도 분석해야 하는 이유를 명확히 보여주는 사례입니다.


좀 더 친절한 글이 되기로

추석연휴에 글쓰기 모임에 가서 내 글에 대한 피드백을 받았다.

글 쓰는 게 일이 되는 게 싫어서 아무도 안 봐도 되는 글을 쓰는 게 목표였었지만 이젠 독자를 배려해서 읽기에 편하고 설명도 쉽게 알려주는 글을 쓰려고 한다.


이 글의 목적 : 보는 사람으로 하여금 쉽게 알려주자(중학생도 이해할 수 있을 정도로)

남에게 쉽게 알려주려면 높은 수준으로 이해를 해야 한다. 나는 어려운 건 쉽게 바꾸려는 하려는 습관이 있어서 어려운 문제를 보면 우선 문제를 이해하는 건 뒤로 미루고 왕도부터 찾는 것 같다는 생각을 스스로 하고 있었는데 이참에 이런 습관들도 조금씩 고쳐봐야겠다.


왜도(skuwness)

왜도란 데이터의 분포가 어디에 치우 져있는가를 말한다.


왜도(설명).png 왜도가 0일 때에 모습

왜도가 음수로 가면 왼쪽으로 기울어져 있는 형태

왜도가 양수로 가면 오른쪽으로 기울어져 있는 형태라고 보면 된다.


더 이해하기 쉽게 표현하기 위해

왜도를 액셀로 시뮬레이션해봤음 ^^


임의의 값을 10개를 만들어서 히스토그램으로 만든다면 차트로 다시 표현해 봤음

음의왜도.png x축은 계급 y축은 빈도

표본의 수가 10개라 곡선이 완만하진 않지만 표본수가 많아지면 곡선도 위에 그림처럼 완만해질 것이다.


데이터 해석

이번달 구매전환율 평균이 0.53% 나왔는데 이게 좋은 걸까? 안 좋은 걸까? 물론 전월 대비 증감률을 보면 오르고 있는지 내리고 있는지 알 수 있지만 단순히 산술평균으로 구했다면 평균의 함정에 빠져서 낮은 쪽 분포가 많았는데 이상값(위에 데이터로 치면 1% 이상)의 값들이 평균을 끌어올려서 0.53%가 됐을 수도 있다.

위 데이터는 구매전환율이 이니까 매출에 영향을 주기 때문에 분명 평균은 똑같은데 매출은 왜 내려갔을까?라는 고민이 있었을 수 있다.


분포를 평균과 중앙값 만으로 알 수 있다고 저번에 말했던 것 같은데 극단값이 있는 경우 평균을 낮출 수 있기 때문에 꼭 그렇지만은 않을 수 있다.(위에서 평균은 0.53%인데 중앙값은 0.58%이 나왔다. 이는 오른쪽 꼬리가 긴 분포형태를 뜻해야 하지만 매우 낮은 극단값에 의해 오른쪽 꼬리가 긴 분포가 나왔음)


그런 고민을 해결하려면 최소한 데이터의 왜도만이라도 체크를 하도록 하자


첨도(krutosis)

첨도랑 데이터의 분포가 얼마나 뾰족한가를 말한다라고 알고 있었는데

실은 양쪽 꼬리가 얼마나 두터운가를 말함


첨도 진짜 최종.png

데이터 해석

이번달 구매전환율 평균이 0.53%인데 이상값과 평균의 차이가 얼마나 많이 나는지 전환율이 얼마나 변동성이 큰지를 알 수 있다.


첨도가 높다면 중앙값 근처의 값들이 자주 나타남과 동시에 극단값과의 차이와 발생빈도 또한 많아진다는 뜻이고

첨도가 낮다면 중앙값 근처의 값들과 극단값들과의 차이가 적어지며 극단값들의 발생빈도 또한 적어진다는 듯이다.


즉 첨도가 높다면 고객이 어떤 변수에 의해서 구매의사가 많이 변한다는 뜻이고 첨도가 낮다면 고객들이 다른 변수들에 의해 영향을 덜 받는다라고 할 수 있겠다.


분할표

위에 분할표는 정말 실무에서 액셀로 많이 쓸법한 예시이다.

처음에 비즈니스의 핵심 raw데이터를 만들 때도

보고서를 쓸 때 raw를 가공할 때도 유용하게 쓰일 것 같다. 비교, 관계, 분류를 꼭 기억해 뒀다가 필요할 때 서 먹도록 하자


분할표_상관관계

x축은 오름차순으로 정렬 y축은 내림차순으로 정렬 이것도 정말 꿑팁인듯

두 변수의 경향성을 조사해서 한눈에 표현하고 싶을 때 써먹도록 하자


심슨의 패러독스

이번에 처음 알게 됐는데 자세한 상황은 기억이 잘 나지 않지만 저런 오류를 누구나 겪어 볼 법하다.

핵심은 전체 데이터와 세분화된 데이터에 경향성에는 차이가 있다는 점

위에 예시는 중요도에 따라 가중치만 설정하면 해결할 수 있는 문제처럼 보인다.


음 실무에서 비슷하게 겪을만한 상황을 예를 들면 광고 소재에 대한 남성과 여성의 클릭률 변화 A/B테스트 실험결과 데이터가 있다고 가정하면


1주 차 남성 1% p상승 여성 2% p상승

2주 차 남성 2% p 상승 여성 0.5% 상승


여기에서 남성이 2주 차에 여성보다 오르는 폭이 더 컸으니 남성이 이번 소재는 남성이 더 많이 반응하는 소재였다.라고 할 수도 있지만 우리 비즈니스에선 여성 구매자 비율이 60%이라면 가중치를 곱해봤을 땐 더해봤을 땐 또 의미가 다를 수 있고 우리의 목표는 4% p 개선이었는데 이번 결과는 큰 의미 없는 수치라고 생각할 수 도 있고

암튼 그렇다. 원래 분석은 관점이 전부다.


공부를 하다 보니 통계를 모르면 나도 모르는 오류를 참 많이 범하게 된다. 중요한 건 이게 오류인지를 알면 개선하면 되지만 오류인지도 모르게 믿게 된다는 점. 왜냐하면 통계는 팩트 기반이고 수학적으로도 증명이 가능하기에 누구나 믿기 쉽기 때문 그만큼 옳은 통계를 내는 것은 어려운 것 같다.


앞으로는 더 넓은 관점을 제시할 수 있는 사람이 돼야지

keyword
이전 03화통계학 공부(3)