통계적으로 생각하기

by 강한별

Dec 9. 2016

통계적으로 생각하기

추천 대상 : 러프하게 실생활에서 통계적인 사고방식이 적용되는 예가 궁금한 사람

발췌

개념과 관념은 종종 그 이면의 내용을 모르더라도 유용하게 사용될 수 있죠.

통계학적 개념을 이해하기 위해 통계학적 기법을 배워야만 하는 중대한 이유는 없습니다. 그리고 이 개념들은 우리가 살아가는 세상을 조사하고 해석하는 데 매우 큰 도움이 됩니다.

비공식적 통계학은 우리 삶에서 볼 수 있는 애매하고 일반적인 정보를 가지고 기본적인 통계개념을 활용해 보편적으로 더 나은 결정과 판단을 내리는 데 목적을 둡니다.

제 1장 선택 편향 - 왜 사장님만 모를까?

선택 편향 : 비무작위 표본을 마치 무작위 표본인 것처럼 생각하고 사용할 때 발생하는 오류를 뜻함

결측치(측정되지 않은 데이터값들)가 무작위적이라고 가정하고 무시하는 것은 좋지 않은 연구 방식의 예라고 할 수 있죠.

우리는 종종 관련 모집단의 크기를 정확히 모르는 상태에서 특정 질문에 대한 답을 할 때가 있습니다. 그래서 우리가 얻고 있는 데이터가 존재하는 모든 데이터를 대표한다고 생각하기가 쉽지요. 두번째로 무응답이 존재하는 것을 알더라도 쉽사리 그 무응답들이 무작위적일 것이고 차이를 만들어내지 않을 것이라 가정하곤 합니다.

상사들이 어리석은 결정을 하는 것은 대부분 악의적이거나 지능이 떨어져서가 아니라 데이터의 흐름이 지연되어 정말로 현실을 모르기 때문이라고 말입니다(또한 그 결과로 발생하는 표본의 선택 편향 역시 원인이 되지요).

여기에서 발생하는 선택 편향의 종류는 명확합니다. 만약 어떤 관객이 내 공연이 마음에 들지 않았다면 내게 다가와서 그걸 면전에 대고 말하지는 않을 겁니다. (중략) 나에게 직접 들어오는 표본은 매우 긍정적인 쪽으로 편향되어 있습니다.

제 2장 내생성 - 마크 저커버그처럼 대학을 그만두겠다고?

내생성 : 해당 시스템 내에서 결정되거나 생성되는 것

외생성 : 그 시스템 밖의 요소로 결정되거나 생성되는 것

내생성 변수 : 공식의 오차항과 상관관계가 있는 변수

누락 변수 편향 : 내생성이 모형을 망치는 경우 중 하나가 바로 구하고 있는 결과를 설명하는 데 필요한 중요한 변수를 제외하는 것

이런 변동의 원인들이 매우 중요한 특성을 가집니다. 이 요소들은 학생의 노력이나 공부하고자 하는 의지, 정직함, 또는 다른 특성들과는 상관관계가 없다는 것이죠.

내생성은 우리가 설명하고자 하는 결과가 그 결과를 설명하기 위해 사용하는 변수의 원인이 되는 경우에 발생하죠.

주로 미디어에 보고되는 사회과학 연구에 내생성 문제가 있는 것으로 보입니다. 즉 뉴스로 만들어지는 논문들은 내생성 문제를 일으킬 가능성이 매우 큽니다. 우리와 같은 통계광에게는 상당히 재미있죠.

'상관관계는 인과관계를 나타내지 않는다'는 내생성 문제의 일종이죠.

제 3장 베이즈의 정리 - 당신의 애인이 바람피우고 있을 확률은?

이러한 질문은 조건부 확률이라고 부릅니다. 즉 Y가 일어났다는 제약 하에서 X가 일어날 확률을 구하는 것이죠.

셜록 홈즈는 "불가능을 제거하고 나면, 남은 것이 아무리 일어날 것 같지 않은 것이라도 그것이 진실이다" 라는 말을 합니다. 그가 정말 하고자 했던 말은 "만약 P(E|H 대안 가설들) = 0이라면 P(E|H1)이 매우 낮더라도 H1이 옳다"는 것이겠죠. (중략) 불가능한 것을 제거하고 나면, 그 남은 것은 받아들이기 쉽든지 어렵든지 간에 진실이라는 것입니다.

두번째 결과는 새로운 증거 사건이 우리의 가설에서 일어날 확률을 살펴볼 때마다, 이 사건이 다른 대안 가설들 하에서 일어날 확률과 그 대안 가설들의 사전 확률을 살펴봐야 한다는 점입니다.

이게 바로 베이즈 정리의 핵심입니다. 특정 가설의 제약하에서 특정 증거가 일어날 확률을 구하는 것이죠. 우리는 가설을 이용해 가설에 맞는 부분만 남기고 데이터의 기존 확률을 잘라낸 후, 그 좁혀진 표본 내에서 사건이 일어날 확률을 구합니다.

새로운 증거에 기초해 우리의 가설을 업데이트하는 방법은 항상 중요하지만, 이러한 과정은 당신이 수정 가능한 어떤 '사전 가설'을 가지고 있다는 가정하에서 이루어집니다. 만약 사전 확률을 잘못 알고 있다면 올바른 수정 과정을 시행하더라도 틀린 결론을 얻게 되겠죠. 이 사전 확률의 다른 이름이 바로 기저율입니다.

맺는말(시간 없으면 이것만 읽어도 됨)

선택편향은 어디에나 있고, 우리가 비무작위적 표본을 무작위 표본처럼 대할 때 발생하게 됩니다. 어떤 데이터의 경우에는 당신의 표본에 들어 있는 특정 데이터가 다른 데이터값에 의존하여 그 스스로를 편향되게 만들기도 합니다.

내생성 문제는 무작위라고 가정한 오차항이 (머릿속) 모형의 다른 변수 또는 포함되었어야 하지만 누락된 변수와 연관관계를 가질 때 일어납니다.

베이즈의 정리는 새로운 증거에 기초해 이전에 가지고 있던 가설을 업데이트 할 수 있도록 도와줍니다.

항상 당신이 필요한 모든 정보를 얻었는지 확인하고, 그 정보가 누락되지 않았는지 확인하세요.

당신의 머릿속 모형이 필요한 모든 변수를 포함하는지 확인하세요. 그 모형의 오차항이 완전히 무작위적이고 다른 변수들 또는 누락된 변수들과 숨겨진 상관관계를 가지고 있지 않는지 확인하세요.

새로운 정보에 기초해 확률적 평가를 업데이트하지만, 다른 대안 가설들의 기존 확률들을 잊으면 안 됩니다.

매거진의 이전글린 분석SQL 레벨업매거진의 다음글