벌거벗은 통계학

by 강한별

Dec 23. 2015

도서 정보

벌거벗은 통계학 -

찰스 윌런 지음, 김명철 옮김/책읽는수요일

평가 및 감상

추천 대상 : 통계에 관심이 있는 비전공자, 일반인

발췌

회귀 분석은 식생활 운동 체중 등과 같은 다른 중요한 변수들의 영향을 일정하게 유지하거나 통제한 채, 연구자들이 두 변수(예를 들어 흡연과 암) 사이의 관계를 분리 해내는 도구이다

우리는 통계적 분석을 이용하여 두 변수 사이의 강한 연관성을 도출할 수 있지만 그런 연관성이 존재하는 이유를 항상 설명할 수 있는 것은 아니다. 그리고 어떤 경우에는 그 연관성이 인과관계 있는지 한 변수의 변화가 다른 변수에 변화를 일으키는지 확실이 알지 못한다.

그런 일은 컴퓨터가 인간보다 더 정밀하게 할 수 있고 또 실수도 잘한다. 통계적 분석은 그보다는 솜씨 좋은 탐정 업무에 더 가깝다. 똑똑하고 정직한 사람은 데이터가 시사하는 바를 잘 분별한다.

통계학을 배우는 이유 :

방대한 양의 데이터를 요약하기 위해서

보다 나은 의사결정을 위해서

중요한 사회적 질문에 대답하기 위해서

기저귀 판매부터 범인 검거에 이르기까지 일을 보다 잘할 수 있는 패턴을 알아보기 위해서

사기꾼을 잡고 범인을 기소하기 위해서

정제 프로그램 약 의료 처치 기타 혁신에 효과를 높이기 위해서

비윤리적인 목적을 위해 이런 강력한 도구를 이용하는 악당을 발견하기 위해서

야구에서 소득에 이르기까지 데이터를 다른데 있어 가장 기초적인 작은 방대한 정보를 요약 하는 일이다

핵심적인 교훈은 분석단위에 주의를 기울여야 한다는 것이다. 누가 혹은 무엇이 묘사되고 있으며, 이는 다른 사람이 말하는 '누구' 혹은 '무엇'과 다르지 않은가?

다시 말하지만 판단력이 수학보다 중요하다. 물론 그 무엇도 당신에게 중앙값 혹은 평균을 선택하라고 말해주지 않는다. 종합적인 통계 분석에서는 일반적으로 두 가지가 함께 제시된다. 중앙값이나 평균만 나타나는 이유는 간결함을 위해서거나 누군가가 통계을 이용해 설득을 하고자 하기 때문이다.

유명한 경영학 경구에 "수치화할 수 없다면 관리할 수 없다"는 말이 있가. 맞는 말이다. 그러나 수치화하고자 하는 대상이 정말 관리하고자 하는 대상과 일치하는지는 분명히 따져보아야 할 것이다.

확률을 다루는 사람들의 흔한 실수들 :

독립적이지 않은 사건을 독립 사건으로 추정

독립적인 사건에 대한 이해 부족

이례적인 사건을 접했을 때 무작정 원인이 있다고 추정하는 것

검찰의 오류

평균회귀(어떤 성과는 재능과 노력뿐 아니라 행운과 불운이 더해진 결과이다)

통계적 차별

일반적으로 데이터는 3가지 조건 중 하나를 충족해야 한다.
첫째, 데이터는 어떤 큰 집단이나 모집단을 대표할 수 있는 표본이어야 한다.

1. 표본의 대표성은 엄청나게 중요하다 표본이 모집단을 잘 대표해야 통계학이 보유한 많은 강력한 도구로 사용할 수 있다

2. 질 좋은 표본을 구하는 일은 생각보다 어렵다

3. 터무니 없는 통계의 대부분은 좋은 통계 방법을 형편 없는 표본 집단에 적용해서이지 그 반대가 아니다

4. 표본 크기는 중요하며, 클수록 좋다

- 사실 규모가 크고 편향된 표본은 결과에 대한 거짓된 신뢰감을 주므로 규모가 작고 편향된 표본보다 확실히 더 나쁘다.

둘째, 비교 가능해야 한다

셋째, '그냥' 유용하다 싶은 정보는 모을 수 있으면 모아라.

선택 편향 : 측정하고자 하는 표본을 어떻게 선택 했는가

어떤 한 요소로부터 이 요소가 다른 요소에 인과적 영향을 주는 것을 분리시킬 수 없다

출판 편향 : 긍정적인 연구 결과는 부정적인 연구 결과보다 출판될 가능성이 높고 그 결과 우리가 접하는 결과물이 왜곡될 수 있음

기억 편향 : 횡단 연구보다 종단 연구가 선호되는 이유. 종단 영구에서 데이터는 발생 시점에 얻게 된다

생존 편향 : 표본에서 관찰 대상 일부 혹은 다수가 탈락한 결과 남아 있는 표본의 구성이 바뀌고 분석 결과에 영향을 미침

건강한 피험자 편향 : 문제점을 간단히 말하자면 처방 받은 대로 약을 복용하거나 건강에 좋다고 생각하는 식단을 챙겨 벅는 것처럼 스스로에게 좋은 활동에 충실한 사람들은 그렇지 않은 사람들과 근본적으로 다르다

중심 극한 정리 : 규모가 크고 적절히 추출된 표본이 모집단과 유사하다는 것이다

중심 극한 정리가 유효 하려면 표본 크기가 최소 30 명이 되어야 한다

표준 오차는 표본 평균들이 흩어져 있는 정도인 분산을 측정한다

1. 모집단에서 무작위로 큰 표본들을 뽑으면 각 표본의 평균들은(모집단의 분포가 어떻게 생겼는지에 상관 없이) 정규분포를 이룰 것이다

2. 표본 평균들은 대부분 모집단 평균에 꽤 가까이 있을 것이다. 표준 오차는 '가까운 정도'를 나타냔다

3. 중심 극한 정리는 표본 평균이 모집단 평균과 어떤 차이 이내에 있을 확률을 알려준다. 표본 평균이 모집단 평균에서 2표준오차 범위를 벗어날 가능성은 비교적 적고, 3표준오차 범위를 벗어날 가능성은 매우 적다

4. 결과를 우연히 관측할 가능성이 적을수록 어떤 다른 요소가 작용한다는 추측을 더 확실할 수 있다

통계는 어떤 사실을 확실히 입증하지는 못한다. 통계적 추론의 힘은 입증하는 데 있는 것이 아니라, 어떤 패턴이나 결과를 관찰한 뒤 확률을 이용하여 가장 그럴듯한 원인을 찾는 데 있다.

통계학에서 중요한 것은 대량의 정밀한 수학 계산이 아니라 주요한 사회 현상에 대한 통찰을 얻는 데 있다.

통계적 추론을 하는 데 가장 자주 쓰이는 도구 중 하나가 가설 검정이다. 통계적 추론을 입증하는 데 사용되는 것이 아니아, 가설의 상대적인 가능성을 따져 가설을 채택하거나 기각하는 데 사용된다. 엄밀히 말해 모간 통계적 추론은 명시적이든 암묵적이든 귀무가설과 함께 시작된다. 귀무가설은 시작점이 되는 가설로, 추후의 통계적 분석을 통해 채택되거나 기각된다. 보통 귀무가설을 기각한 후에는 관찰된 데이터에 더 맞는 대립 가설이 채택된다.

귀무가설과 대립가설은 논리적으로 역의 관계

연구자들은 항상 이런 질문을 한다. 귀무가설이 옳다면 이런 데이터 패턴이 우연히 관찰될 가능성은 얼마나 되는가?

유의 수준 0.05에 대해 생각해보자. 만일 귀무가설이 사실이라면 관찰된 값과 같거나 더 극단적인 패턴을 얻을 확률이 5처센트 이하 일 때 우리는 유의 수준 0.05에서 귀무가설을 기각할 수 있다.

유의 확률은 귀무가설이 옳을 때, 관찰된 결과와 같거나 더 극단적인 결과가 나올 확률을 말한다.

신뢰수준 0.05가 웬지 근거 없어 보이는 것은 정말 근거 없이 정해졌기 때문이다. 귀무 가설을 기각하는 데 있어 통계학적으로 정해진 유일한 기준점은 없다. 0.0.1나 0.1 역시 설명한 분석을 하는 데 흔히 쓰이는 합리적인 기준점이다

사후에 임의로 기준점을 정하여 결과를 더 중요하게 보이도록 하는 것을 막기 위해 기준점은 통계 분석을 하기 전에 정해야 한다

의견을 알아내고 싶은 모집단에 대한 정확한 표본을 추출하였나?

관심 주제에 대한 정확한 정보를 이끌어낼 수 있게 질문이 제시 되었는가?

- 대중의 의견을 이끌어낼 때 질문에 문장 표현이나 단어선택은 매우 중요하다

응답자가 사실을 말하고 있는가?

여론 조사의 진짜 도전 과제는 다음에 두 가지이다 알맞은 표본을 찾아 연락하는 것 그리고 대표 집단의 의견을 그 집단의 속한 사람들의 생각을 정확히 반영할 수 있는 방식으로 끌어내는 것이다

회귀분석은 다른 변인을 통제한 상태에서 우리가 알고자 하는 어떤 변수와 결과 사이의 연관관계를 수치로 나타낼 수 있게 해준다

충분한 자료와 컴퓨터만 있으면 기초 통계프로그램은 이용해 회기 분석 결과를 내는 일은 여섯 살짜리도 할 수 있다 문제는 회귀 분석에서 정말 어려운 절차가 기계적인 계산 과정이 아니라는데 있다 회귀 분석에서 정말 어려운 절차는 분석할 때 필수적으로 고려해야 할 변수가 무엇인지 정하는 것과 어떻게 하면 이런 변수를 가장 잘 정할 수 있는지를 알아내는 것이다

회기 분석 의 핵심은 두 변수 사이의 관계 가장 근접한 선형 관계를 찾아내는 것이다.

다른 변수에 의해 설명되는 변수를 종속 변수라고 한다.

다른 변수를 설명하는데 쓰이는 변수는 우리가 관심을 두고 있는 결과를 설명해주는 변수이므로 설명 변수라고 부른다(=독립 변수 통제 변수)

회귀 분석을 사용에 연구할 때 명심해야 할 점이 아무도 죽이면 안된다는 것이다 포스트잇에 연구로 사람 잡지 말자 고 써서 모니터에 붙여놓아도 좋다 아주 똑똑한 사람들조차무심코 이 법칙을 어길 때가 있기 때문이다

분석 하고자 하는 변수 사이에 선형 관계가 없을 때는 회귀분석을 사용하지 마시오

상관 관계가 인과관계는 다르다

회계 분석을 할 때는 언제나 설명 변수가 종속 변수 영향을 미칠 뿐 종속 변수는 설명 변수의 영향을 미치지 않는다는 것을 확신 할 만한 근거가 있어야 한다

회기 방정식에 서로 관련성이 높은 두개 이상의 설명 변수가 함께 들어 있다면 회귀분석을 해도 두 변수 각각과 설명하고자 하는 현상 간의 실제 상관관계를 알아내지 못할 수 있다

매거진의 이전글사용자 인터뷰야생의 고객매거진의 다음글