brunch

You can make anything
by writing

C.S.Lewis

by 강한별 May 23. 2016

통계의 힘 실무활용편

빅데이터를 지배하는 통계의 힘 : 실무활용 편 -

니시우치 히로무 지음, 신현호 옮김, 홍종선 감수/비전비엔피(비전코리아,애플북스)


추천 대상 : 통계를 비지니스에 활용하는 더 자세한 방법을 알고 싶은 통계학 초심자

추천 정도 : ★ ★ ★  ★ ★

추천 사유 :  1권은 정말 기본기라면 2번은 좀 더 업그레이드 되었다. 어떠한 이유 때문에 이러한 방법론을 이렇게 사용한다고 확실히 실무에 밀착하여 친절하게 알려주는 식. 하지만 통계학 전공자라면 이 책을 읽을 필요가 없을 것 같고 나 같은 초심자가 통계학에 대한 전문서적을 읽기 전에 트레이닝 느낌으로 보기 좋을 듯. 통계학 기초를 쌓을 수 있는 수학의 정석 같은 느낌을 책을 한 권 보고 나서 이 책을 다시 보면 더 좋을 것 같다고 느꼈다. 그런데 웬만한 책은 사실 내가 정리한 요약본만 봐도 이해가 가능할 거라고 생각하는데 이번 책은 요약을 잘 했는지 자신이 없다. 출판사의 미래를 위해 사서 읽으세요. (다른 책도)

그나저나 개인적으로는 저자의 호쾌한 태도가 굉장히 맘에 든다. "이 책에서는 다른 책처럼 상관 관계는 인과 관계와 다르다는 식으로 얼렁뚱땅 넘어갈 생각이 없다"는 문장이 재밌었다. 난 이런 사람을 좋아한다.

아무튼 좋은 책을 추천해주신 하용호님 매번 감사합니다.


P.S 나는 통계학 초심자 오브 초심자이다! 하는 분은 통계의 힘 입문편을 먼저 보시는 걸 추천.


발췌


경제학과 심리학 등 어느 분야에 쓰이느냐에 따라 통계책의 내용은 큰 차이가 난다


통계학 교과서를 보면 '상관관계와 인과관계'를 혼동하지 않도록 주의' 같은 표현이 자주 눈에 띄지만, 임의화 비교실험을 하면 매우 정확하게 인과관계를 알 수 있다는 말은 좀처럼 찾아보기 힘들다


제1장 통계학의 실천은 기본부터

1) 평균과 비율 등 통계 지표의 본질적인 의미 이해

2) 데이터를 점이 아닌 구간으로 이해

3) '무슨 값을 어떻게 정리해야 하는지' 아는 지혜


평균과 비율은 기본적으로 완전히 동일한 개념. 숫자로 표현되는 정보(양적변수)는 '평균'으로 성별이나 직업, 상품 분류같이 문자로 표현되는 정보(질적 정보)는 '비율'로 정리


비율과 평균은 전혀 다른 계산방법이 존재하는 게 아니라, 수의 형태로 표현할 수 없는 질적변수에 대해서는 각 분류마다 1이나 0이라는 형태로 '해당하는 정도'라는 양적변수를 생각하여 평균을 계산


이항변수 : 0과 1의 두개의 값만 가지는 변수. 양적 변수와 질적 변수 양쪽의 특징을 모두  가짐


- 데이터가 존재하는 '구간'이 중요

평균과 비율 계산은 물체를 떠받치는 한 지점의 중심을 구하는 것과 같음. (중략) '데이터는 대체로 어디에서 어디까지의 범위에 속해 있는가' 하는 식의 구간으로 파악하는 방법을 고안


- 결과와 원인을 압축하라

인과관계의 통찰에 가장 중요

인과관계의 통찰, 즉 최종적으로 조절하고 싶은 결과(outcome, 성과지표)와 영향을 미칠 수 있는 원인(explanatory variable, 설명변수) 제공이 대상자(후보군) 안에서 데이터 분석을 해야 함


비지니스에서도 가치 있는 데이터 분석은 '최대화하거나 최소화해야 하는 항목'이 무엇인지 알아내는 것


- 설명 변수의 우선순위 매기기

인과관계가 '너무 당연한 것'이어서는 안 된다 : 고객이 많아지면 매출이 오른다거나 고객 1인당 사용금액이 늘어나면 매출이 오른다는 말 같은 누구라도 생각할 수 있는 것에 일부러 시간을 들일 필요가 없다는 뜻

아웃컴에 미치는 영향이 명백하더라도 조절이 가능해야 함 : 이 원인을 바꾸기만 하면 매출을 늘릴 수도 있다라는 결과를 얻었는데 바꾸기가 불가능하다면 결국 탁상공론으로 끌날 뿐

지금까지 그다지 주목 받지 않고 분석된 적이 별로 없어야 함 : 인과관계가 당연하지는 않더라도 조절 가능한 것이라면 '관계가 있는지 없는지 모르는 항목'일수록 설명 변수로 분석하는 편이 새로운 발견으로 이어질지도 모른다는 뜻


대표값 : 데이터 전체를 파악하기 위한 값

중앙값 : 정중앙의 위치에 있는 값

최빈값 : 가장 빈도가 높은 값, 즉 데이터 수가 가장 많은 값


평균은 최소제곱법에 기초하여 측정값에 포함되어 있는 차이를 가장 적게 만드는 뛰어난 추정값


- 평균이 중앙값보다 유용한 이유

인과관계의 통찰이라는 관점에서 볼 때 평균값이 중앙값보다 관심이 있는 것에 직접적인 대답이 되는 경우가 많음. 즉 인과관계를 통찰할 때는 어떤 결과를 나타내는 값의 총량을 최대화하거나 최소화하는 쪽으로 관심이 쏠리게 마련인데 '뭔가의 요인을 바꾸면 결과값의 총량이 어떻게 변하는가' 하는 부분에 중앙값은 속 시원한 대답을 해주지 않음. (중략) 매출 증가가 일부의 극단적인 사람에게만 편중돼 있다 하더라도, 전체적으로 매출이 얼마나 변했는가 하는 증감을 아는 데는 평균이 더 적합함. '중앙값이 100엔 늘었다'는 결과가 얻어졌어도 총량에 미치는 영향이 어떻게 되는가는 계산할 수 없음.

데이터의 불규칙성이 정규 분포를 따르고 있으면 최소제곱법이 가장 좋은 추정방법이고, 그 결과 평귭값이 가장 좋은 추정값이 됨. (중략) 데이터 자체의 불규칙성을 파악하고자 하는 것이 아니라 데이터 배후의 찹값에 흥미가 있다면 평균값 사용이 좋다


정규분포 : 좌우대칭인 종 모양의 매끄러운 곡선으로 표현되는 데이터의 불규칙성


중심극한 정리 : 대다수 데이터가 정규분포를 따른다는 사실을 넘어 어떤 데이터가 정규분포를 따르지 않는다고 해도 데이터 값을 거듭 추가할수록 정규분초에 수렴하기 마련. (중략) 원시 데이터가 비대칭 불규칙성을 내포하고 있더라도 모두 더해나가는 동안 평균값보다 작은 데이터의 특징과 큰 쪽 데이터의 특징은 뒤섞여서 차츰 좌우대친에 가까운 모습으로 바뀌어감


어찌 되었든 '고객이 어떤 집단인가' 하는 현상 파악이 아니라 '어떻게 해야 어느 정도의 매출이 오르는가' 따위의 인과관계를 통찰하고자 할 때 마땅히 알아야 할 참값은 어떤 행동을 취했을 경우와 그렇지 않은 경우에 나타나는 매출 차이


사분위점 : 덜 극단적인 위치에 자리 잡은 것. 25%점, 75%점, 중앙값을 모두 포함한 것. 10%와 90%점, 5%과 95%점도 사용. 평균과 함께 제시하여 최대값이나 최솟값에 휘둘리지 않고 '이 범위 부근에 데이터가 존재한다'를 나타냄


분산 : '벗어난 값의 제곱합 대신 '벗어난 값의 제곱 평균'을 사용하여 데이터에 내포된 불규칙성을 표현

표준편차 : 분산을 감각적으로 알기 쉽게 표현한 것. 분산에 루트를 씌워 얻은 값. SD라 표현


데이터의 불규칙성이 어떠하든 평균값-2SD(표준편차의 2배)~평균값+2SD까지의 범위에 반드시 전체의 4분의 3이상의 데이터가 존재하는 것이 증명됨. 정규분포를 따르는 데이터라면 '4분의 3이상' 이라는 양은 훨씬 커지고 평균값-2SD~평균값+2SD의 범위에 95%의 데이터가 존재


평균값 플러스 마이너스 2SD라는 범위가 그룹 간에 겹치는 일이 없다는 것은, 한쪽 그룹의 '대략 이 주변 어딘가 데이터가 존재하는 범위'에 다른 그룹의 데이터가 존재하는 것은 '당연한 일이 아니다' 라는 상태다


제2장 통계학이 '최강'인 또 하나의 이유


데이터 자체에 불규칙성이 있는 이상, 둘로 나눈 그룹 사이에 평균 또는 비율이 매번 일치하기란 쉽지 않다. 즉 가끔 어느 한쪽이 조금씩 높아지는 경우는 늘 일어날 수 있는 일이다. 그렇지만 그 차이가 표준편차 2배 이상 이 될 만큼 크다면 이야기는 달라진다. 한쪽 그룹에서 '보통'으로 생각되는 값이 다른 쪽 그룹에서는 '보통이라 할 수 없다'는 값이 될 만큼 차이가 크다면 그 차이는 데이터의 불규칙성에 의해 우연히 만들어졌다고 생각하기보다 어쩌면 양그룹 간에 본래 뭔지 몰랐던 차이가 존재했다고 여기는 편이 훨씬 자연스럽다. 이런 우연한 불규칙성 때문에 생겼다고 생각하기 어려운 차이를 유의한 차이, 유의차라고 부른다. (중략) 표준편차 2배보다는 적지만 현실적인 의미가 있고 통계학적으로 유의한 차이를 최소한의 데이터 안에서 어떻게 찾아낼 수 있는가, 즉 검정력을 크게 높일 수 있는가 하는 부분이 통계학에서 매우 중요한 포인트


검정력 : 어떤 차이가 존재하고 있다는 가설이 올바를 때 정확히 유의차라고 말할 수 있는 확률


제1종 오류 : 아무 차이가 없는데도 차이가 있는 것으로 인식 시키는 실수

제2종 오류 : 차이가 존재하는데도 그것을 못 보고 놓쳐버리는 실수


유의 수준 : 5%나 1%라는 제1종 오류 허용 수준을 가리킴

최강력 검정 : 설정된 유의수준에서 가장 검정력이 높은 분석 방법


통계학에서 '오차범위'는 데이터 수나 불규칙성(즉 분산이나 표준편차)을 바탕으로 정확히 계산해야 함


한정된 데이터를 통해 얻어진 평균 또는 비율이 '참값'으로부터 어떤 확률과 정도로 벗어나 있는지를 나타내는 것. 어느 정도 벗어날 수 있는가 하는 부분에는 데이터 수 이외에 원시 데이터의 불규칙성 크기가 관계. (중략) 원시 데이터의 불규칙성이 크면 클수록 동일한 건수의 데이터로부터 언어지는 평균값이라도 대단이 큰 차이를 보임


표준오차 : 평균의 표준오차 = 원시 데이터의 표준편차/평균값 계산에 사용한 데이터의 수의 루트값

'마땅히 얻어지는 값'의 분포에서의 표준편차


표준편차 : 원시 데이터 그 자체의 불규칙성을 나타냄


다수의 데이터에서 얻어진 평균값의 불규칙성(표준오차)은 반드시 원시 데이터의 불규칙성(표준편차)보다 작기 마련. 또 값을 구하기 위해 사용한 데이터 수, 즉 표본 크기가 커지면 커질수록 표준오차는 작아짐


표본 크기 설계 : 다음 조사에서 어느 정도의 표준오차로 하기 위해 어느 정도의 데이터 수가 필요한가를 예측


비율의 표준오차 : (비율 x (1-비율)/표분크기)


귀무가설 : 우선적으로 생각한 자신의 주장을 완전히 뒤엎는 가설. 주장하고 싶은 것을 무로 돌려보낸다는 뜻

p값 : 귀무가설이 성립한다는 가정 아래 실제 제이터 또는 그 이상으로 귀무가설에 반하는 데이터가 얻어지는 확률을 p-값이라고 함. 대략 5% 미만이면 '그 귀무가설은 존재할 수 없다'고 생각하는 편이 자연스러움.


신뢰구간 : '존재할 수 없는 귀무가설'과 '부정할 수 없는 귀무가설'의 경계선이 어디부터 어디까지라는 범위를 나타내는 것. 즉 p값이 5%를 밑도는지 어떤지 하는 지점에서 가설을 판단한다면 '97.1~100%까지의 가설은 모두 부정할 수 없다'


데이터의 수집 범위를 정하거나 용어의 정의를 내릴 때는 토론 상대나 분석 결과를 공유할 상대가 가설에 대해 어떤 이미지를 갖고 있는지 신중하게 듣고 언어화하는 방식을 취해야 함


95% 신뢰구간 : 이 비율과 평균값 플러스마이너스 2SE라는 가장 자주 사용되는 신뢰구간. 5%의 유의 수준이고 부정할 수 없는 가설 범위. 지나치게 큰 경우 2.5%와 지나칙 작은 2.5%의 양끝을 합친 것. 유의 수준은 양쪽 5% 혹은 유의 수준 5%의 양측 검정이라고 함. 크든 작든 한쪽 5%만 기각하는 방식은 단측 검정


어떤 불규칙성을 지닌 데이터에서 뭔가의 값을 산출하는 한 거기에는 반드시 표준오차가 존재한다


비율이란 어떤 상태를 취하는가(1) 취하지 않는가(0) 하는 이항 변수의 평균이라는 생각에 근거하면 이항변수의 분산은 비율x(1-비율)로 구해짐


'분산의 가법성'이라는 성질로 표준 오차를 계산


분산의 가법성 : a의 비율과 b의 비율을 더한 것의 분산은 a의 분산과 b의 분산을 더한 것으로  구함. 이것으로 분산끼리의 차도 구할 수 있음


z검정 : 비율이나 평균, 그것들의 차이는 표본크기가 큰 경우 정규분포를 따른다는 점을 이용하고, 우연한 데이터의 불규칙성에 의해 생기는 것인지 아닌지 생각하기 위한 방법. z검정에서 사용하는  z변환은 평균과 비율 혹은 그 차이가 본래부터 어떤 값이든 '평균값에서 표준 오차가 얼마만큼 벗어나 있는가' 라는 값으로 변환하는 것


평균값 차이의 표준 오차 : 표준편차를 인원수의 √로 나눈 것이 각 그룹 평균값의 표준 오차


현재 평균값 차이가 의미 있는지 아닌지 생각하는 경우 일반적으로 z검정이 아닌 t검정 사용. 데이터 수가 많은 상황을 위한 분석방법인 z검정을 단 스무 건의 데이터에 적용하는 것은 적절하지 않을 때도 있지만 반대로 수천 건의 데이터에 t검정을 하는 것은 문제 되지 않음. 그러므로 우선 t검정을 사용


z 검정이든 t검정이든 평균값 차이가 평균값 차이의 표준오차의 몇 배가 되는가 하는 값이 확률적으로 얼마만큼 존재할 수 없는지를 나타내는 p 값을 구할 수 있음


카이제곱분포 : 평균값이 0 분산이 1(즉 표준편차도 1)의 정규 분포를 따르는 x라는 변수를 생각했을 때 이 변수의 제곱을 전부 더한 것


t 분포 : 카이제곱분포의 성질에 근거하여 데이터 수에 의해 혹은 카이제곱분포의 자유도별로 '평균값 차이'가 '평균값 차이의 표준오차'의 몇 배 이내로 수용될 확률이 몇 %인지 계산하기 위한 분포


두 그룹이 어느 상태를 취하는지의 비율에 차이가 없다는 귀무가설의 상황에서 '그룹별 ' x '어느 상태를 취할까 말까' 라는 분할표를 만들 경우 어떤 칸에도 가급적 10최저 5이상의 숫자가 들어가는 경우는 z검정을 해도 문제가 없다는 것이 관례적 기준임


피셔의 정확 검정(피셔의 직접확률 검정) : 그룹에 해당하는 표본 크기가 작을 때 사용하는 방법. 정확한 확률 계산을 사용하여 p값을 산출


- t 검정에 대해서 알아두어야 할 최소한의 것

1) t검정에 의하면 수십 건 정도의 데이터로도 정확하게 z검정을 할 수 있으며, 수백에서 수천 건의 데이터가 있을 경우 t검정과 z검정의 결과는 일치함

2) t검정은 z검정과 같이 평균값 차이가 평균값 차이의 표준 오차의 몇 배인가를 생각하고 그것이 어느 정도 존재하기 어려운지를 밝히기 위해 p값을 구함

3) 피셔의 정확 검정은 '조합의 수'를 사용하여 수십 건 정도의 데이터로도 정확하게 비율의 차이에 의미가 있는지를 알기 위해 p값을 구함


세 그룹 이상을 비교할 때 : 피셔의 분산분석


하지만 분산분석과 카이제곱검정은 비지니스에서는 별로 사용되지 않음. 분산분석에 의해 검정할 수 있는 귀무가설은 '모든 그룹 간 평균값 차이가 전혀 없거나' 혹은 '모든 그룹 평균값은 사실상 완전히 동일한 것'이므로 비지니스에 별 도움이 되지 않음. 여러번 분산 분석을 하게 되면 일의 양도 늘뿐더러 오류 확률도 증가하게 됨(p값 증가)


여러 그룹 이상을 비교하기 위한 방법 :

1) 본페로니 방법

여러 가설 검정을 한 다음 최종적으로 '덜렁이 리스크'를 5% 유지하기 위해 상응하는 통계 분석 방법을 사용하는 접근법. p값 별로 유의인가 아닌가 판단 기준으로 '5%라는 유의 수준을 검정한 횟수로 나눈 값'을 사용하는 것. 5회 검정하면 각각의 p 값이 1% 미만이어야 하는 식

2) 기준 카테고리를 하나 정한 다음 비교

기준이 되는 그룹을 하나 정한 다음 비교하는 방식

보통 그룹, 즉 데이터 전체에서 차지하는 비율이 높고 누구에게나 이미지가 떠오르기 쉬운 집단을 선택할 것

3) 탐색적 p값과 검정적 p값을 적절히 사용

가장 중요한 방식. p 값을 기준 삼아 이익으로 연결될 만한 새로운 아이디어를 탐색하려는 목적과 그 결과로 얻어진 아이디어는 진정 이익을 창출할 수 있는지 검정해야 함

실마리를 찾는 시점에서는 어디까지나 '탐색'이라는 마음가짐으로 무조건 p값이 5% 미만인, 단지 우연이라며 기각하기 힘든 관계성을 찾음. 적어도 이 시점에 p값을 사용하면 단지 우연일 수밖에 없는 평균과 비율의 차이를 믿음으로써 생기는 덜렁이 리스크만큼은 없앨 수 있음. 그리고 얻어진 결과 중 '이렇다 할 만한 것이 있으면' 그것을 검정함


제3장 통찰의 왕이 되는 분석방법들

양적 설명변수를 늘리는 게 좋은지 줄이는 게 좋은지 혹은 믈려도 줄여도 상관없는지를 알면 설명변수를 늘리거나 줄이너가 혹은 신경 쓰지 않는 등의 행동을 할 수 있다


- 산포도와 회귀직선으로 경향을 파악함

- 회귀분석으로 '잘 보이지 않는 관계성'의 분석이 가능함 : 가우스의 최소 제곱법에는 없으면서 골턴과 피어슨의 회귀분석에는 존재하는 가장 큰 차이점은 '잘 보이지 않는 관계성을 분석할 수 있다'는 데 있음


회귀계수 : 설명변수 (x)가 1 늘면 아웃컴(y)이 몇 단위 늘어나고 줄어드는지를 나타낸 기울기


최소제곱법을 사용하여 회귀직선을 구할 때 어떤 '제곱합을 최소화'하는가 하면, 각각의 점에 대해 '실제의 아웃컴(Y)의 값'과 'X값과 회귀식에서 구해지는 아웃컴(Y)의 예측값'의 세로축 방향 차이의 제곱합을 최소화함. 이 잔차 제곱함이 가장 작아질 때 최량의 회귀직선으로 생각함


z검정이나 t검정에서는 평균값 차이의 표준오차(SE)를 생각했지만 회귀분석에서는 회귀계수의 표준오차를 생각


회귀계수에서도 원시 데이터가 그 무엇이든 모두 더하면 정규분포에 가까워진다는 중심극한정리가 작용


회귀계수의 표준오차 :

1) 아웃컴의 예측값과 실제 값의 차이를 제곱한 합을 데이터 수로 나눈 잔차제곱합을 사용

2) (데이터가 수백~수천 건 이상일 때) √잔차제곱함/설명변수의 편차제곱함x데이터 수

평균제곱잔차 : 잔차제곱함을 데이터 수로 나눔


회귀분석은 그룹 간의 평균값을 비교할 때는 필요가 없었던 요소인 '설명변수의 불규칙성 크기'를 고려해야 함. (중략) 회귀계수의 표준오차 크기를 생각할 경우 '아웃컴(Y)'의 예측값과 실제값이 평균적으로 어느 정도 벗어나 있는가 라는 크기를, 설명변수(X)가 어느 정도 불규칙한지의 크기에 대한 대율로 상대적인 판단을 할 필요가 있음


정규분포와 현실에 응용해야 하는 t분포 아래서의 계산결과가 한정된 수(수백 건 미만)의 데이터만 있는 상황에서는 반드시 일치하지는 않음


- 다중 회귀분석

하나의 설명변수와 하나의 아웃컴 간의 관계성만 분석하면 간과하고 있었던 다른 요인에 의해 결과가 왜곡되는 경우가 종종 생김

-> 서브그룹해석(각각 분할된 그룹 별로 관계성 분석)은 오차를 유발하기 때문에 다중회귀분석을 함


다중 회귀분석 아래서는 '방문횟수가 동일하더라도 계약 건수가 다르다'는 문제에 대해 '구체적으로 얼마나 달라지는가' 하는 값을 추정하고 그 값으로 저장함으로써 정확한 관련성을 찾으려고 함


'기타 설명변수의 조건이 같다면 이 설명변수가 1 변할 때마다 아웃컴은 얼마나 늘어나는가/줄어드는가'를 나타내는 회귀계수가 각각 산출됨. 질적인 설명변수를 이항변수로 변환하는데, 이때 질적인 설명변수를 표현하기 위한 이항변수를 더미변수라 함


카테고리가 셋 이상인 질적변수에서의 더미변수화 :

기준 카테고리를 선택하여 각각의 질적 변수에 1와 0을 대입


업무에서 설명변수의 후보가 대량인 데이터가 있다면 우선 모든 설명변수를 다중회귀분석에 적용하여 p값이 작고 회귀계수가 큰 것을 탐색하는 방식을 압도적으로 선호


로지스틱 회귀분석 : 이항논리에 관한 아웃컴을 분석하는 회귀분석. 로지스틱 회귀분석은 질적인 아웃컴에 대해 단순회귀분석인지 다중회귀분석인지 구별하지 않으며 설명변수가 1개이든 여러 개이든 관계 없이 기본적으로는 로지스틱 회귀분석이라고 함. (중략) '어느 일정 지점까지는 거의 제로를 유지하다가 차츰 아웃컴이 1이 되는 확률로 상승하고, 다시 어느 일정 지점을 지나면 대다수 아웃컴이 1'이 되는 곡선의 그래프로 설명하는 것이 훨씬 자연스러움.로짓 or 로그오즈비라는 변환을 사용


오즈 : 해당자의 비율이 낮은 질적 아웃컴에 대해 그 확률을 좌우할 가능성이 있는 요인을 조사할 때 중요한 의미를 가짐


케이스 컨트롤 : 조건이 동일한데도 병에 걸린 사람과 걸리지 않은 사람 사이에 어떤 차이를 살펴보는 것이 케이스 컨트롤 조사의 취지. 우선 인원수가 적은 '케이스'를 가급적 한 데 모음


로지스틱 회귀분석에서 회귀계수의 추정은 회귀식과의 오차가 전규분포를 거의 따른다고 가정하면 가중최소제곱법이라는 최소제곱법의 응용방법을 통해서도 계산 가능. 그러나 현재 그런 가정이 일반적으로 성립하지 않는 경우일지라도 최고가능도법(최우추정법)이라는 방식에 따르면 가장 그럴싸한 회귀계수값을 추정하는 작업 가능


업무상 다루고 싶은 아웃컴은 흔히 크기를 알 수 있도록 숫자 형태로 된 것이 아니라 '이 사람은 한 번이라도 내점한 적이 있는가 없는가', '이 회원은 이미 탈퇴했는가 아닌가'처럼 0과 1로 표현된 것들이 대다수다. 그러므로 로지스틱 회귀분석은 경우에 따라서 다중 회귀분석 이상으로 편리할지도 모른다


t검정, z검정, 단순회귀분석에 대해서 '설명변수가 이항인가 양적인가의 차이가 있을 뿐 그 어느 것도 거기에서 벗어난 값의 제곱합이 최소화되는 직선을 생각한다'면 완전히 같은 의미라고 말했는데 이것이 선형모형


지금까지 소개한 분석방법의 '일반화 선형모형' 정리

전부 기억하기 힘들다면 질적 설명변수와 아웃컴을 모두 이항변수와 변환하여 '양적 아웃컴은 다중회귀분석, 이항 아웃컴은 로지스틱 회귀분석을 사용한다'는 원칙만 알아둘 것


- 아웃컴이 셋 이상의 카테고리로 나뉘는 경우

현실적으로 '매우 불만족(0점)'과 '약간 불만족(1점)' 사이에서 느끼는 고객의 불만족 차이는 크고, '약간 만족(2점)'과 '매우 만족(3점)' 사이에는 조금의 차이만 존재할 수도 있음. 반대로 상당하다고 느낄 정도의 감동이 없으면 절대로 '매우 만족(3점)'이라 응답하지 않는 식의 커다랑 간격이 도사리고 있을 수도 있음. 이들을 모두 동일하게 1점 차이라 생각하는 경우, 자신이나 해석 결과를 공유하는 상대가 과연 납득해줄지는 해석 전에 꼭 검토해둘 필요가 있음. (중략) '만족도의 항목에서 무엇을 알고 싶은가'를 생각하고 이항변수화하면 됨. 만족도 조사에서 '매우 불만'으로 응답한 고객을 줄이고 이탈 방지와 클레임 대책에 반영하고 싶은가, 아니면 '약간 만족', '매우 만족'으로 응답한 고객을 늘리고 브랜드 파워나 SNS를 활용하여 입소문을 퍼뜨리고 싶은가에 따라 방법이 달라짐.

전자라면 '전혀 만족할 수 없다'인가(1) 아닌가(0)라는 이항의 아웃컴을 설정하고 '전혀 만족할 수 없다'는 상태가 되는 리스크와 무엇이 관련 있는지 분석해야 함. 후자라면 '약간 만족 또는 매우 만족'인가(1) 혹은 약간 불만족 또는 매우 불만족'의 이항아웃컴을 생각하여 분석해야 함. 양측이 모두 중요하다면 둘 다 분석하고 회귀계수(오즈비) 중 어디가 같고 다른지도 고찰


- 순서성의 유무와 카테고리 수가 포인트

카테고리 수가 너무 많을 떄는 의미가 유사한 카테고리를 정리할 필요가 있지만 무슨 형태로든 '어느 카테고리(1)와 그 외의 카테고리(0)'라는 이항변수를 만들고 로지스틱 회귀분석을 해야 함


- 설명변수와 아웃컴의 관계성이 직선이 아니라면(물리학 or 계량경제학)

양적인 설명변수를 양적인 상태 그대로 분석하는 것이 좋은지, 아니면 질적인 설명변수로 다루는 것이 좋은지 구별하기 어려운 경우. 즉 설명변수와 아웃컴의 관계성이 우상향의 직선 또는 우햐향의 직선이 아닌 경우 어떻게 해야 하는가?

물리학이나 자연과학에서의 통계학이나 계량경제학 분야에서는 흔히 '제곱항'의 회귀계수를 생각하라는 조언을 들을 때가 많음. 본래의 설명변수를 제곱한 새로운 설명변수(제곱항)를 구한 다음 본래의 설명 변수와 제곱항을 모두 설명변수로 갖는 다중회귀분석을 하면 회귀직선은 직선이 아니라 고등학교에서 배우는 2차 함수의 포물선 모양의 '회귀곡선'이 됨


- 설명변수와 아웃컴의 관계성이 직선이 아니라면(의학 연구 or 비즈니스)

질문에 대한 답이 중요하다면 나이를 10대/20대/30대 등으로 분류하고 질적인 설명변수처럼 기준을 정하여 더미 변수를 설정. 이런 방식은 앞의 아웃컴에 대해 '0점과 1점 사이의 차이와 2점과 3점 사이의 차이는 똑같은 1점일까?' 라고 생각했듯이 양적인 설명변수에 대해서도 '열아홉 살부터 스무 살 사이의 한 살 차이와 서른 아홉살부터 마흔 살 사이의 한 살 차이는 똑같은 한 살의 증가라는 형태로 아웃컴에 영향을 미치는 것일까?' 라는 점을 깊이 생각하는 것이 중요

반드시 나이로 구분하지 않아도 된다. 또 똑같은 간격으로 해야 한다는 원칙도 없다. 학생 그룹, 독신 사회인 그룹으로 나눠도 무방하다. 그룹별로 해당 데이터 수가 너무 적은 카테고리가 생기지 않으면 됨


'어떤 설명 변수를 몇 개 정도 사용하여 분석해야 하는가?' 라는 투입 면과 '나온 결과에서 어떤 의미를 찾아내고 어떻게 해석하여 어떤 행동을 취하는가'


-과적합을 피하는 방법

과적합 : 적합의 정도가 지나침. 상관 없는 설명변수로 무리하게 아웃컴을 설명하는 위험성이 있음

의미 있는 설명변수가 포함하기 위해 변수선택법 사용


변수 선택법 :

1) 전진선택법 : 우선 후보가 되는 설명변수 모두에 대해 단순 회귀분석을 하고 그 결과 가장 회귀계수의 p값이 작았던 설명변수를 첫번째 설명변수로 선택. 그 다음 첫번째 설명변수와 그 외의 설명변수를 하나씩 조합하여 2개의 설명변수를 포함하는 다중회귀모형을 분석. 여러 다중 회귀모형 중에서 두번째 추가되는 설명변수의 회귀계수에 대응하는 p-값이 가장 작은 설명변수를 채택하고 이 변수를 두번째 회귀모형에 추가시킴. 추가된 설명변수에 대응하는 p값이 일정 기준 이내라면 이 과정을 계속하여 최종적으로 얻ㄷ어진 것을 타당한 회귀식으로 생각

2) 후진 제거법 : 처음에 모든 설명 변수를 포함하는 회귀식을 계산하고 대응하는 p값의 가장 큰 설명변수부터 차례대로 제외한 다음 모든 설명변수가 일정기준 이내가 되면 종류

3) 단계적 선택법 : 가장 많이 쓰임. 전진선택법과 마찬가지로 p값이 작은 설명변수를 하나씩 추가. 어느 일정 기준 이상(0.1이 자주 사용)의 p값을 나타낸 설명변수가 발생하면 전 단계에서 추가되었다 하더라도 제거함

4) AIC : 설명변수의 수에 비해 적합도가 좋은지 나쁜지의 지표

5) 교차타당도법 : 회귀식을 구하는 분석용 데이터와 그 적합도를 시험하기 위해 데이터를 나누는 방식. 임의로 반씩 나눈 한쪽의 데이터로 회귀식을 구하고 그 회귀식을 시험 데이터에 적용시켜서 AIC 등을 통해 적합도를 평가. 회귀식을 추정하는 데이터와 적합도를 평가하는 데이터를 서로 나눈 상태에서 가장 적합도가 좋았던 회귀식은 과적합이 아니라 앞으로도 최적일 것이라고 판단

4), 5)번은 계산량이 많아 비추천


'애당초 무엇을 알고 싶었는가' 하는 시점이 중요. 나이를 단독으로 사용한 회귀계수는 '소득의 증가나 가족 구성 변화를 뭉뚱그린 나이에 의한 영향', 한편으로 소득이나 가족구성이라는 설명변수와 동시에 사용한 경우 나이에 대한 회귀계수는 '소득과 가족구성이 같았던 경우 나이에 의한 영향'을 의미. 이중 어느 쪽이 더 결과를 해석하는 사람들의 이미지에 어울리는가를 고려하고 후자와 같은 사고방식이 어울린다면 p값이 크든 작든 소득을 나이와 같이 설명변수에 포함하는 것이 좋음


다중공선성 : 설명변수 사이에 관련성이 있는 경우 서로를 넣을까 말까로 회귀계수가 달라지는 것. 하지만 관련성이 엄청 강하지 않은 경우 큰 문제가 아님


회귀계수의 값만으로는 설명변수의 중요성을 판단할 수 없음. 추가적으로 '얼마만큼 설명변수를 움직이게 할 여지가 있고 또 실제 설명변수를 얼마만큼 움직이게 하는 방법이 있는가'를 고려해야 함


여성의 매출이 높다는 앞의 정보에서 '여성에게 dm을 발송한다는 아이디어'가 떠오르는 사람도 있을 것이나 그 방법이 현시점에서 올바르다고 단정할 수 없음. 앞의 다중회귀분석 결과는 '다른 설명변수가 같다고 하고 이 설명변수가 1 크면...'의 관련성을 나타내기 때문


상호작용항 : 다른 설명변수가 모두 같다면 같은 관련성이 아니라 2개 이상의 설명 변수가 함께 증가한 경우 무엇인가 특히 아웃컴이 증가하거나 줄 가능성이 있는가를 나타냄


DM처럼 변화를 주기 쉬운 설명변수와 성별이나 나이처럼 변화를 주기 어려운 설명변수가 둘 다 존재하는 경우 '변화를 주기 쉬운 설명변수x주기 어려운 설명변수' 같은 상호작용을 검토하면 '누구에게 이 방법을 써야 하는지'가 명백


상관과 인과를 혼동해서는 안 된다는 것은 통계학을 조금만 접하더라도 반드시 배우는 내용이다. 그렇다고 그밖에 조정해야 할 설명변수나 상호작용이 없는지 신중하게 생각하자며 해석 결과를 끝내 활용하지 않는다면 지금까지 분석을 했던 의미가 없다. 결국 멍청이의 잘못을 저지르는 셈이 된다.

물론 그밖에 조정해야 할 설명변수나 상호작용은 없는지 생각할 필요는 있지만 그것만으로는 까마귀가 검다는 것과 마찬가지로 아무리 오랜 시간이 지나도 '조정해야 할 변수는 이제 더 이상 존재하지 않는다'는 사실을 증명하지 못한다. 따라서 건설적인 의논과 실제 준비가 가능한 데이터 범위 안에서 최대한 조정해보고 그 결과 효과가 있을만한 방법이 발견되었다면 그 즉시 검정해보는 것이 좋다.

껌정이란 임의화 비교 실험이다. DM을 예로 들면 임의로 선택한 수백 명 정도의 고객에게 먼저 발송해본다. (중략) 그리고 선택 대상에서 제외된 나머지와 얼마만큼 아웃컴 차이가 나타나는지 비교한다

그런 다음 평균값이나 비율 차이를 t검정, z검정하여 분석하기만 하면 된다. 조정이나 상호작용은 모두 관계없고 효과가 나타나면 우연이란 말하기 어려운 수준으로 양 그룹의 아웃컴에 차이가 생길 것이다. 이 차이는 어느 정도 논의를 거쳐 고도의 분석 방법을 통해 얻어진 회귀계수보다도 정확한 효과를 나타내고 있다. 여기까지 하고 나면 상관이 아니라 인과를 확인했다고 볼 수 있다

임의화 비교실험은 데이터를 수집하는 시점에 조정해야 할지도 모르는 다른 변수를 그룹 사이에서 확률적으로 전부 균등하게 만들어준다. 해석 분석방법도 단순하고 p값이나 신뢰구간까지도 이해하고 있으면 결과도 쉽게 해석할 수 있다.

결점이 있다면 단 한 번의 실험으로 검정할 수 있는 것은 하나의 설명변수가 아웃컴에 미치는 효과뿐이며 또 데이터를 수집하는 데 시간이 걸리는 점이다


다중회귀분석이나 로지스틱 회귀분석을 자유자재로 쓸 수 있으면 이미 축적된 데이터 중에서 어떤 아이디어가 유망할지 예측하기 쉽다. 어차피 실험해야 한다면 유망할 듯한 아이디어부터 한 다음 임의화 비교실험을 통해 효과가 실증되었다면 되도록 빠르게 전면적으로 실시하는 것이 더 큰 이익을 창출 할 수 있다


제4장 데이터의 배후를 파악한다

- 단계별 변수선택법에 의한 변수의 선택 혹은 '축소'로 대응 가능한가

1) 상관이 강한 다수의 항목에서 대표적인 일부 항목만 골라 설명변수로 채택 :

서로 상관 있는 것 같은 설명변수에 대해서는(그 이외에는 설명변수로 조정한 상태에서) 회귀계수(로지스틱 회귀분석인 경우의 오즈비도 포함)에 관한 p값이 가장 작은 것만을 설명변수로 채택하는 방식. 변수선택법을 적용하면 설명변수의 수가 적어지는 만큼 모든 설명변수를 포함시킨 모형보다도 서로 상관 있는 설명변수의 조합을 줄어들 가능성이 옾늠. 변수선택을 한 뒤에도 여전히 앞의 미백효과에서 드러난 결과처럼 '뭔가 이상하다'는 생각이 들었다면 '이상하다'는 일부의 설명변수를 삭제한 상태에서 다시 분석하고 결과가 어떻게 바뀌는지 확인

2) 상관이 강한 항목끼리 합산하여 하나의 설명변수로 채택 : 서로 상관하는 설명변수를 모두 더함. 이와 같이 다수의 변수를 그보다 적은 수의 변수로 줄이는 것을 전문용어로 '축소한다'고 함. 하지만 좋은지는 확답할 수 없음


- 인자분석으로  직접 해결

인자 : 현실적으로 측정할 수 있는 값을 좌우하는, 보지도 만지지도 못하는 무언가

비즈니스와 관련하여 얻어지는 설문조사 결과나 행동로그 데이터에도 이런 지혜를 응용하면 좋다. 있는 그대로 응용한다면 '어느 상품/브랜드에 무슨 의식을 지니고 있는가', '어느 매장에서 무엇을 사고 있는가' 같은 개별항목으로만 한정될지 모르지만 이것을 '현실로 표출시킨 데이터'와 '그 배후에 있는 인자'로 생각하고 변수를 축소하면 다중공선성이 해결될 뿐만 아니라 그밖에도 여러 가지 사실을 파악할 수 있음


- 인자 분석하기 : 직선을 잣대로 삼는다

우상향 그래프, 즉 회계와 비즈니스 상식 점수가 어느 정도 일치한다는 상관을 보이면 이 산포도에 놓인 점의 정중앙을 긋는 직선을 그린 다음 그것을 잣대로 삼으면 됨. 여기서 말하는 '정중앙을 긋는 직선'은 단순회귀분석에서 등장하는 회귀직선과 마찬가지라 생각할지 모르지만 조금 다름. (중략) 산포도에 그은 직선을 잣대로 삼아 사무능력을 판단하는 것은 이 직선과 수직으로 교차하는 눈금 중에서 어느 것과 만나는 사람인지 판단하는 일


인자점수 : 인자분석에 의해 얻어진 눈금으로 판단한 값


변수가 3개이든 4개이든 인자분석에 의해 인자점수를 정의할 수만 있으면 다수의 변수 전체를 살펴볼 필요 없이 인자 점수의 크기만으로 판단 가능. 인자 점수는 실용상 다중회귀분석이나 로지스틱 회귀분석의 설명변수로 삼아도 좋고, 아웃컴으로 취급해도 관계 없음


'저마다 달라서 모두가 좋다'는 다양성이 있는 존재에 잣대를 대는 행위에는 적어도 '목적에 합치될 수 있도록 어떻게 정보를 단순화시킬까' 라는 측면이 내포


인자를 분석할 때 인자수를 분석자가 자유롭게 설정할 수 있고 설정한 인자수에 의해 결과가 크게 바뀌기도 함. (중략) 수학적 기준이 몇 가지 있기는 하지만, 최종적으로는 '자신(과 결과를 보고하는 상대)이 최선이라 생각하는 수'의 기준을 먼저 정할 필요가 있음. (중략) 적절한 몇 개의 인자수를 결정하고 각각의 인자수로 분석한 결과를 비교 확인한 다음 자신 있게 최선이라 생각하는 것을 선택해야만 한다. 아울러 더욱 분명한 판단을 위해 수리적인 타당성도 꼭 확인해야 함


인자분석에서는 두 가지 이상의 인자의 상태를 생각할 때 결과를 알기 쉽도록 하기 위해 회전이라는 과정을 거치기도 함. (최근 거의 다 사용하는 방식) 그 과정을 거치는 동안 본래의 각 변수가 가능한 적은 수의 인자하고만 관련되도록 자동적으로 계산해주기 때문. (중략) 인자 축을 '회전' 시키려면 우선 본래의 인자 축과는 별도로 똑같은 중심을 지나면서 '일부의 변수하고만 상관하는 새로운 축'을 생각해야 함


회전의 종류 :

1) 직각 회전 : 인자끼리 서로 직각, 즉 설명이 독립적으로 '서로 상관하지 않도록' 회전 과정을 진행. 다중회귀분석 등에 사용할 때 다중공선성이 걱정되는 파가 사용

2) 사각 회전 : 서로 상관하든 안 하든 별도로 움직이게 함. 깔끔한 해석을 선호하는 파

-> 실제 사용이 목적이라면 '자신이나 보고해야 할 상대가 최선이라 생각하는 것'을 고르는 편이 좋음


- 군집 분석

다수의 설명변수가 저마다 '높으면 높을수록/낮으면 낮을수록' 아웃컴이 큰지 작은지의 양적인 관계에 주목할 뿐만 아니라 '질적으로 전혀 다른 그룹 간에' 아웃컴은 어떻게 다른지에도 주목하는 편이 나을 수 있음


군집분석 : 자동으로 그룹을 분류. 질적으로 완전히 다른 그룹이라는 질적 변수로 축소하는 인자분석

1) 응집형 : 유사한 것끼리 모아감

2) 분기형 : 가장 분명한 차이를 보이는 것들을 찾아 분할을 반복

1), 2) 같은 계층적 군집 분석은 요즘 잘 사용 되지 않음

3) 비계층적 군집분석 : 오늘날 주류. k-means 분석. 분석하고 싶은 대상 사이의 모든 거리를 계산하는 것이 아니라 어딘가 적당한 중심을 정하고 모든 대상자와 중심 사이의 거리를 계산하는 방식. (중략) 최종적으로 '중심도 분류도 변하지 않게 되었다' 같은 상황이 되면 그 시점의 분류가 '좋은 군집 결과' 라고 생각하는 것.

k라는 군집수의 설정만 잘 맞으면 수많은 현실 데이터에 '분명히 이런 느낌일지도' 라는 군집의 분류법을 얻는 경우도 많음. '최종적으로 어떤 군집으로 나눠졌는지' 파악하려면 각각의 군집에 해당하는 것으로 분류된 점의 수와 중심점, 즉 분석에 사용한 변수의 평균값을 확인하는 데서 출발. (중략)

실제 이 결과를 활용하려면 인자분석과 마찬가지로 각 군집의 이름을 설정하는 작업이 중요함. (중략) 무엇보다 중요한 것은 군집의 중심점을 나타내는 평균값, 그 자체라기보다는 그 평균값이 다른 군집에 비해 큰지 작은지 따위의 상대적인 비교임 (중략) 군집 간의 차이를 파악할 때 분산분석이나 카이제곱검정 등을 사용하여 '군집 간 평균값의 차이가 우연한 범위라고 할 수 있는가' 라는 판단을 하기도 함


- k-means 방법의 한계

군집분석 결과가 유일하고 절대적인 분류 방법이라 말하는 것은 기본적으로 옳지 않음. 군집 수의 설정만 바꿔도 전혀 다른 결과가 나오기도 함. (중략) k-means 방법의 한계로서 '중심에서 가장 가까운 거리의 군집으로 분류한다'는 것은 암묵적으로 모든 군집이 같은 반지름의 원형이라는 것을 가정하는 점에도 주의해야 함


- 다중회귀분석이나 로지스틱 회귀분석과 병용할 것을 권장

군집분석을 통해 서로 상관하는 여러 변수가 축소되고 알기 쉬운 질적변수를 얻을 수 있었음. 그 질적변수를 설명변수로 사용하여 다중회귀분석이나 로지스틱 회귀분석을 하면 군집분석에 사용한 축소 전의(서로 상관이 있는) 변수를 그대로 전부 설명변수로 삼을 때보다도 알기 쉬운 분석 결과가 얻어짐. 예를 들면 군집분석의 결과를 설명변수로 사용하여 쇼핑몰 이용패턴에 따라 어떤 방법을 쓰면 구매 금액이나 사이트 반문 빈도인 아웃컴이 향상되는지를 분석하는 식. 또는 군집분석 결과를 나타내는 질적변수가 아웃컴에 해당하는 경우가 생길 수도 있음. 그렇다면 우량고객 군집에 속하는지 아닌지를 0과 1의 이항변수로 표현하고 로지스틱 회귀분석을 하면 됨. 그럼 '어떤 식으로 우량고객을 증가시킬 수 있는가' 하는 아이디어가 얻어질 것임. 인자 분석이든 군집분석이든 그 방법을 비즈니스에서 사용할 때는 '다수의 변수를 알기 쉽고 다루기 쉬운 형태로 만들 수 있다'는 점에 본질을 두고 임해야 함


제5장 통계 분석방법의 총정리와 사용 순서

통계학의 이해도를 높여주는 단 한장의 도표 실용판

- 설명변수가 질적이라면 기준 카테고리를 정해놓고 이항으로 분류를 여러 번 함

- 설명변수가 양적이라면 그대로 두고 질적이라면 이항변수로 변환하여 다수의 변수들을 표준화함. 그런 다음 인자 분석을 하면 양적인 변수로 축소되고 군집분석을 하면 질적인 변수로 축소됨


- 비즈니스에서 활용하는 경우 분석 순서

대략적인 데이터의 정리와 확인이 끝나면 그 중 최대화 혹은 최소화해야 할 아웃컴이 무엇인지 정리한 다음 그 이외의 모든 항목을 설명변수의 후보로 놓고 다중회귀 분석 또는 로지스틱 회귀분석을 함. 필요에 따라서 계단식 방법 등 변수선택법도 사용. 그 후 결과가 무엇을 말하는지 생각한다. 너무 당연한 듯이 보이는 설명변수는 아무리 p값이 낮아도 제외시키는 편이 좋다. '다른 설명변수의 값이 동일하다는 가정 하에서'라는 식의 영향이 특정한 회귀계수의 해석을 이해하기 어렵게 만드는 설명변수는 제외시키는 편이 낫고, 나이라는 양적 변수를 세대라는 질적 분류로 변환하는 등 설명변수의 취급방법을 바꾸는 것이 나을 때도 있음. 반대로 '이것만은 조건의 조정을 위해 포함되었으면 한다'는 설명변수가 자동 변수 선택 과정에서 삭제돼버리면 강제로라도 그 설명변수를 포함시키도록 지정해야 할 때도 있음


- 분석결과에서 아이디어를 찾아내는 세 가지 방법

1) 아웃컴과 관련된 설명변수가 광고나 상품 생산, 연수 등에 의해 '조정'이 가능하다면 그 설명변수를 조정하는 것이 이익을 낳는 아이디어가 됨

2) 조정할 수 없는 설명변수와 아웃컴 사이의 관련성은 조정이 아니라 재배치를 통해 개선함. 성별은 바꿀 수 없지만 특정 성별의 비율이 80%인 매장 만들기는 지향 가능

3) 조정도 재배치도 불가능한 설명변수 활용(날씨, 계절)은  계절이나 날씨에 맞춰 사전에 필요한 물품을 구입 생산, 재고 상태를 예측하여 최적화하면 '비용 삭감'이 가능


- 마지막에는 임의화 비교실험이나 A/B 테스트로 검정

이것이 통계학의 어려운 부분으로 '상관과 인과를 혼동하지 않도록 신중히 생각합니사' 라는 주의 사항이 수많은 교과서에 어김없이 실려 있는 까닭이다. 하지만 이 책에서도 그런 무책임한 발언으로 얼렁뚱땅 넘어갈 생각은 추호도 없다. 대신 필자는 이익이 될 것 같은 아이디어를 찾았으면 적절한 임의화 비교 실험 또는 A/B테스트를 통해 검정해야 함. (중략) 의학의 최전선에서 인간의 목숨을 다루는 의사결정에서조차 이런 방식을 따르고 있는 마당에 비즈니상의 의사결정에 이런 실증방법을 받아들여 '좀 더 신중히 논의하자'며 태평한 소리를 늘어놓고 있지 말자


- 임의화에 필요한 '일정 수 이상'의 판단

임의화에 필요한 인원수는 평균값의 차이든 비율 차이든 검정력에 따라 '표준 오차의 몇 배 차이가 예상되는가' 라는 관점에서 추측 가능

표준오차를 예상되는 차이의 몇 분의 1로 억제하는가의 몇 분의 1 부분을 계산하면 정규분포에서 평균값보다 표준오차 n배만큼 오른쪽으로 이동한 곳까지의 면적이 검정력과 일치한다는 n의 값에 1.96을 너함으로써 구할 수 있음


- 통계학을 위한 공부

1) 도구와 실제 데이터를 적용한 실천

2) 최근 50년 사이에 생겨난 더 발전적인 기법


실제 데이터 중에서 '최대화/최소화하는 아웃컴은 무엇인가'를 생각하는 능력이 없으면 제아무리 도구를 잘 다룬다 하더라도 아무것도 발견하지 못함 (중략) R에 대해서는 그런 대로 익숙해 있으리라고 여겼던 데이터 공학도들조차도 비즈니스 현장에서는 크게 도움이 되지 못하는 경우를 자주 목격했다


- 새로운 통계 아이디어 분석 방법

1) 회귀모형에 의한 아이디어 탐색 단계에서 '시간적인 요소' 분석 가능

로지스틱 회귀분석으로 1년 동안의 데이터를 사용하여 '그 시기에 탈퇴한 고객과 그렇지 않은 고객의 차이점은 무엇인가' 같은 분석 가능. 생존 시간을 분석하는 생존 분석도 가능(콕스 회귀분석, 하자드비라는 지표 사용)

2) 시계열 분석 : 과거의 정보와 다음주 매출의 관계성 분석.

시계열 분석의 기본은 자기 상관, 즉 같은 매장끼리의 데이터는 시점이 달라도 상관하여 일치 한다를 중시하는 것. 주가나 경기 예측에 사용. 이 시기 매출을 좌우하는 요인은 몇 개월 전 선보인 광고 덕이라는 식의 분석

3) 경시 데이터 : 다른 설명변수와의 관계성 분석. 혼합효과 모형 사용. 개체 차이 파악을 할 때 시계열이 아닌 거주 지역이 소속된 시설 등 공간적인 정보를 사용하는 경우에도 혼합효과 모형이 유용


- 새로운 축소 방법

인자 분석에서는 변수의 축소에 대해 여러 설명 변수의 배후에 있는 관측값을 좌우하는 잠재적 인자를 생각했지만 인자끼리는 그것들을 병렬적인 요소로 이해함. 그러나 경우에 따라 잠재적 인자 간의 관계썽이 중요할 때도 있음. 구조방정식 모형을 통해 축소 뿐만 아니라 변수 사이의 다양한 관계성을 명백히 할 수 있음.


항목반응이론 : 시험을 통과 했나 못했나를 바탕으로 잠재적 능력 추정

군집분석 : kmeans++, 커널 k-means, x-means 방법 등


- 임의화 비교실험 검정

통계적 인과추론 : 임의화 비교실험이 불가능한 상황에서 어떻게 착오없이 검정하는가에 대한 연구

통계적 인과 추론을 위해 성향점수를 사용하는 주변구조모형 분석 방법 사용

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari