brunch

You can make anything
by writing

C.S.Lewis

by 강한별 May 12. 2016

통계의 힘 입문편

빅데이터를 지배하는 통계의 힘 : 입문 편 - 

니시우치 히로무 지음, 신현호 옮김/비전비엔피(비전코리아,애플북스)


추천 대상 : 통계학 입문자를 위한 책. 쉽게 읽을 수 있다. 자세한 내용을 더 알고 싶으면 이 책의 2권에 해당하는 실전편도 봐야 할 듯..

추천 정도 :  ★ ★ ★ ☆  

추천 사유 : 사실 이 책의 2권에 해당하는 실전편 추천을 받은 김에 1권도 읽어봤다. 특이했던 점은 지금껏 읽었던 도서에서는 통계는 상관관계이지 인과관계가 아니라는 말을 빈번하게 봤는데, 이 도서에서는 실험을 통해 인과관계를 추론할 수 있음을 강조하고 있다. 개인적으로 인상 깊었던 구절은 '단순 집계, 비중은 19세기의 통계학이다. 20세기의 통계학은 인과관계까지 추론할 수 있다.' 이런 식의 문장이었다. 그 문장을 읽고 와! 나는 19세기랑 별로 차이가 안 났던 건 아닐까? 앞으로 배울 게 더 많겠구나 생각하니 신났다.



발췌


제1장 빅데이터, 통계학에서부터 시작하라

'어떤 고객에게는 보내고 어떤 고객에게는 보내지 않는다'는 최적화 선택 하나만으로 6% 정도의 매출을 증가시켰다


제2장 정보비용을 대폭 줄여주는 통계

빅데이터가 무의미하다는 이야기가 아니다. '우선은 올바른 판단에 필요한 최소의 데이터를 다룰 것'을 추천하는 것


제3장 오차와 인과관계가 통계학의 핵심이다

'과연 그 해석은 투입 비용 이상의 이익을 가져다주는가?'


(질문 1) 어떤 요인을 변화시켜야 이익이 향상될까?

(질문 2) 그런 변화를 일으키는 행동이 실제로 가능한가?

(질문 3) 그에 따르는 비용이 이익을 상회할까?


카이 검정 제곱 : 교차 분할표를 봤을 때 '의미있는 편의'인지 아니면 '이 정도의 차이는 오차인지'를 확인하는 해석 기법

p값 : 실제는 아닌데도 오차나 우연에 의해 데이터와 같은 차이(정확히는 그 이상의 극단적인 차이를 포함)가 생길 확률


'적절히 비교할 것', '단순집계만 하지 말고 오차와 p-값을 확인할 것'. 이 두 가지 통계학 법칙만 알아도 경험과 감을 뛰어넘어 데이터를 바탕에 둔 실질적인 해결방법을 찾기 쉬워진다


비결은 지극히 간단하다. '지향하는 목적을 달성한 것'과 '그렇지 않은 것'의 차이를 비교하면 됨


비즈니스맨이라면 무엇을 목적으로 삼아야 할지 명확하다. 바로 '이익을 극대화하는 것'이다


적절한 비교를 통해 의미 있는 차이를 발견함으로써 비결이 얻어진다고 했는데, 한 시점의 데이터만 보고는 인과관계의 방향을 가늠할 수 없다. 비교하는 집단이 동일한 조건에 놓여있지 않기 때문이다. 즉 '공정하지 않기 때문'이다


제4장 '임의화'라는 최강의 무기 활용하기

임의화 비교 실험이 강력한 힘을 가졌다고 말하는 가장 큰 이유는 '인간이 제어할 수 있는 그 무엇이라도 인과관계를 분석할 수 있기 때문'


두 가지 방식의 밀크티를 임의로 마시게 하고 어느 정도 맞히는지를 검증. 이것이 임의화 비교실험의 기본적인 사고 방식


'관찰'이란 대상을 자세히 보고 특정해 그로부터 어떤 진실을 밝히는 행위이다. '실험'은 다양하게 조건을 바꾼 상태에서 대상을 보고 측정해 그로부터 어떤 진실을 밝히는 행휘


고객과 직원의 연령, 성별, 심리특성 같은 것이 설령 결과를 왜곡할 수 있을지라도, '어느 정도의 숫자로 임의화'하면 문제가 되지 않는다


'일단 시험해보고 결과가 안 좋으면 그만두자' 라고 하는 방식이 정착되어 있었다. '손해는 없지만 별 의미도 없을 것 같다' 정도의 아이디어도 비교 대조 과정에 그다지 큰 비용이 들지 않으므로 적극적으로 실험했다


복수의 DM 디자인 중 어느 것이 좋을지 판단하는 일처럼 아무리 논의해도 확실한 정답이 나오지 않는 주제를 놓고 불필요한 인건비를 들여 끝없는 회의를 반복하기보다는 비교적 저렴한 매체를 통해 소규모 임의화 비교실험을 하는 편이 비용은 덜 들이면서도 신속하고 확실한 답을 얻을 가능성이 크다


사내에 수없이 산적해 있는 문제에 대해 정답이 없으면 우선 임의로 정해놓고 실험해보는 것의 가치는 생각 이상으로 크다. 다만 지속적으로 데이터를 수집하는 일은 절대로 소홀히 해서는 안 된다


임의화를 가로막는 '현실'의 벽이란 '절대적인 표본 수의 제한'과 '조건 제어 불가능성'이다


'단 한 번만의 기회' 혹은 있더라도 겨우 몇 번 정도밖에 기회가 주어지지 않는 일에서는 통계학은 무기력 그 자체이다


제5장 통계학은 계속 발전하고 있다

비교 대조를 할 때는 '관심이 있는 질환과 위험요인의 유무 이외는 조건이 매우 닮은 대상자'들이 선택된다. '매우 닮았다'의 정의는 연구에 따라 다양하게 규정되는데, 중요한 것은 관심이 있는 위험 요인 말고는 가급적 모든 조건을 동등하게 갖추는 것이 바람직하다


역학 연구를 통해 나타난 위험도는 '임의화 비교실험과 견줘볼 때 결과에 그다지 큰 차이는 없다'


임의화 비교 실험을 도입하기 어려운 상황이라면, 비교적 저예산으로 신속하게 데이터를 수집할 수 있는 역학적 방법을 이용하는 것이 현실적으로는 더 유리하다


회귀분석 : 데이터의 관계성을 기술하는 것, 다시 말해 하나의 변수로 다른 변수의 값을 예측하거나 설명하는 것. 이 수식의 직선을 회귀 직선이라 함


평균값으로의 회귀 : 신장, 지능 혹은 생물의 특징에만 국한되지 않고 이 세상의 모든 현상에는 다양한 '불규칙성'이 있기 때문


참값 : 무한한 크기의 데이터를 얻으면 마땅히 알게 되는, 진정으로 알고 싶은 값

우연히 얻어진 데이터를 통해 계산한 통계량이 어느 정도 오차로 참값을 추정할 수 있는지 수학적으로 정리함으로써 무한정 데이터를 모으지 않고도 적절한 판단이 가능함


현실의 데이터로부터 얻어지는 회귀계수 등의 통계량은 어디까지나 이 참값에 대한 추정치임


- 고객 1인당 매출의 경우 : 연속값이므로 각 그룹의 평균값을 기술 후 t검정에 의해 얻어진 평균값의 차이가 오차 범위에 들도록 p-값 or 신뢰구간 표시

- 방문 횟수별 구매 금액 : 방문 횟수를 설명 변수, 구매 금액을 반응 변수로 답아 회귀분석 후 회귀계수의 추정치, 신뢰구간, p-값을 효시

- 있음, 없음 두 개의 값으로 나눠지는 경우 각 그룹의 구매 비율 혹은 방문 비율을 기술한 후 카이제곱검정에 의한 p-값 표시

- 이때 연속값이 아니고 두 값도 아닌 경우 다소 까다롭게 여길 수 있는데 이 역시 실용적 측면에서 두 값 혹은 연속값으로 취급하는 것이 일반적. 1~4의 값을 그대로 연속값으로 놓고 분석하는 방법도 자주 이용됨


본래 수치가 아닌 '두 그룹' 혹은 '두 값의 변수'를 0이나 1로 표현한 것처럼, 측정 편의상 사용하는 특정 변수를 더미 변수라고 부름

'평균값의 차이'와 '회귀계수'는 늘 일치하는 게 아니고. 오차나 불규칙성이 생길 경우도 고려할 필요가 있음. 그러나 그 점을 신경쓸 필요가 없음. 얻어진 데이터로부터 산출된 그룹 간의 평균값과 회귀계수는 완전히 동일한 t분포에 따르는 불규칙성을 가지는 것이 피셔에 의해 증명됨


다중 회귀분석 : 통계학에서 중요시되는 '공정한 비교'를 할 때 매우 중요한 역할


전체 집단간의 단순 비교는 그 구성요소가 되는 소집단의 비교 결과와 모순되는 경우도 있음. 임의화를 하지 않는 역학 등의 관찰 연구에서 간순 비교로 일견 튼 차이가 생겼더라도, 단지 '구성요소'의 차이일지도 모름


복수의 회귀계수는 '서로 상승효과가 없다면' 하는 가정 아래 설명변수가 반응변수에 어느 정도 영향을 주는지 나타냄


본래 0이나 1이라는 두 값의 반응변수를 변환해 연속적인 변수로 취급함으로써 다중회귀분석을 가능하도록하는 것이 로지스틱 회귀의 가장 큰 특징


회귀모델을 사용할 때는 교호작용이 정말로 존재하지 않는지 살피는 것이 가장 주의할 점 중 하나


교호작용 항목도 포함해 유의한 설명변수만을 자동적으로 골라내어 회귀모델을 구축하는 알고리즘에 대한 연구가 성행하고 있는데, 이것을 '변수선택법'이라 함


아카이케 정보 기준(AIC) : 좋은 변수 선택


성향 점수 : 주로 역학 분야에서 임의화가 불가능하거나 인과관계를 특정하기 곤란한 상황에서 자주 이용. 흥미가 있는 두 가지 설명 변수가 있을 때 '어느 쪽에 해당될까' 하는 확률


제6장 통계학의 여섯 가지 활용 분야

심리통계학자 : '마음'이나 '정신'처럼 눈에 보이지 않는 추상적인 것을 측정하는 것이 목표

경로분석 : 심리적 인자를 포함한 변수 간의 관계성을 타원(직사각형이라 해도 무방)과 화살표로 나타냄


카이제곱값이 크면 자동적으로 개선도도 크다고 판단하면 됨. 변수가 2개인 경우에는 카이제곱값이 큰 조합을 선택하는 것과 상관계수의 절대값이 큰 쪽을 선택하는 것과 완전히 같음


계량경제학자는 통계학자보다 교호작용 항목을 포함한 설명변수의 선택을 더욱 신중하게 검토하는 경향

계량경제학자는 가정에서 출발해 가격, 지출, 저축 등의 관계성을 기술한 연립방정식을 바탕으로 연역을 반복함으로써 개인이나 사회의 균형 상태를 설명


빈도론자 : 확률을 미리 상정하지 않음. 확률을 '몇 번 중 몇 번'처럼 '빈도'로 파악한다는 의미. 실수가 용납되지 않는 보수적 판단이 요구될 수록 빈도론에 의존. 잘못될 가능성을 줄이고 싶거나 충분한 데이터가 확보 되어 있을 때 p-값을 구하여 사용

베이즈론자 : 확률을 미리 상정함. 아무 정보가 없는 시점에서 어느 정도의 확률로 사건이 참인지 아닌지를 생각함. 이 사전확률(어느 값으로 설정해도 상관 없음)과 조건부확률를 곱한 값을 전체 합계로 나누어 구함. 베이즈적 사고 방식에서는 '사전확률'이라는 가정을 두면 데이터로부터 무엇을 알 수 있을까, 하는 연역이 가능해짐. 한정된 정보와 가정을 조합하는 '효율성'이 필요한 상황에서 유용


제7장 에비던스 활용하기

계통적 리뷰 : 미리 '검토할 논문의 조건'을 결정한 상태에서 과거에 공표된 관련 분야의 모든 문헌으로부터 조건과 합치되는 것을 골라냄. 모든 논물을 수집, 분석한 다름 마지막으로 어떤 내용이 밝혀졌는지 결론을 정리함. Systematic Rview, Meta-Analysis 로 서치

메타분석 : 이러한 계통적 리뷰 중에서 복수의 임의화 비교 실험이나 관찰 연구를 통해 보고된 통계해석 결과를 한층 더 심도있게 정리하는 작업

임의화 비교 : Randomized

관찰 연구 : Heckman, Propensity Score, Regression 


우리가 해야 할 것은 최대한 신속하게 진실을 찾아내 이해하고 직접 실천하면서 그 지혜를 주위에 널리 보급하는 일. 통계학은 '최선'을 향해 가는 길을 가장 빠르고 확실하게 알려주는 학문


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari