통계학 공부 시작

목표

by 김학준

귀찮아서 미루고 있던 통계학 공부 시작

나의 목표는 "제대로 된 분석"을 해서 비즈니스에 맞는 "지표"를 만드는 것
EXCEL 고급 데이터분석에 나오는 용어들을 무리 없이 해석할 정도가 되는 것이 내 목표다!


내가 실무에서 마주했던 문제들

1. 대부분의 의사결정은 가설을 기반으로 풀어가는 경우가 많은데 가설이 맞는 건지 안 맞는 건지 제대로 파악하기가 어렵다.

2. 잘 모아놓은 데이터가 서로의 관성을 파악하는 것이 아닌 단순한 추세를 읽는 용도로만 사용되고 있다.

3. 통계를 알아야 데이터 거버넌스를 만들 때도 폭넓게 생각할 수 있을 것 같다.


그리고 예전엔 내가 다른 툴을 몰라서 제대로 된 분석을 할 줄 모르는 것이다.라고 생각했는데

생각보다 액셀이랑 구글시트로 많은 게 해결이 되는 것 같아서 나는 툴보다 더 원론적인 통계학을 공부하려고 한다. 나는 수포자라 수학적으로 증명하려는 것까지는 아니지만 적어도 데이터를 통해서 논리적으로 합리적인 의사결정을 하고 남들은 쉽게 알 수 없는 인사이트도 발굴하면 좋겠다.


나는 정보를 쉽게 믿지 못하는 사람 중 하나다. 원체 의심이 많은지라 항상 말과 행동의 의도 그리고 논리를 추론하며 산다. 무엇이든 차원을 넓혀서 복잡하게 생각하는 것을 좋아한다. 다만 비즈니스에서 너무 복잡한 의사결정은 오히려 독이 될 수도 있다. 기술의 발전 속도는 오늘이 가장 느린 날이기 때문에 의사결정이 늦어지면 무조건 지는 거다. 근데 또 정보의 정확도도 중요하지 않겠는가 그러려면 애초에 데이터를 설계할 단계에서부터 논리적으로 정확하게 만들어져 있어야 한다고 생각한다. 그다음 그 신뢰할 수 있는 데이터를 가지고 빨리빨리 의사결정을 진행하는 것. 이게 내가 생각한 통계학의 중요성이다.


브런치 통계학.png 이렇게 혼자 노션 시트도 만들어 놨다.

통계는 데이터의 수집, 분석, 추론, 요약 등의 방법론을 다룬다.

Design (설계/계획)

Description (요약) 데이터를 요약 표현하기 위한 시각적(Graghical), 수치적(numerical) 방법

Inference (추론) 표본에 기반한 모집단에 대한 추론/예측

기본적으로 모집단에 대해선 접근이 불가능한 것을 상정을 하고 표본을 통해서 모집단의 정보를 추측 예측 추정을 하는 것


모집단(Poplulation) : 통계학에서 관심/조사의 대상의 되는 개체의 전체 집합

모수(Parameter) : 모집단에 대한 수치적 요약

-고등학생의 1일 평균 온라인게임 플레이 시간

-강아지보다 고양이를 좋아하는 성인의 비율

표본(Sample) : 모집단을 적절히 대표하는 모집단의 일부

통계량(Statistic) : 표본에 대한 수치적 요약

-고등학생 1000명의 1일 평균 온라인게임 플레이 시간

-강아지보다 고양이를 좋아하는 성인의 비율 (1000명)


기본 굴자

Sample statistic → Poplulation Parameter

표본 통계량을 통해서 모집단의 모수에 대한 정보를 알고자 하는 것


확률표본추출(모집단을 대표할 수 있는 방법)

모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법 → 표본추출틀(sampling frame, 표집틀) 필요

ex] 모집단:{1,2,3,4,5} → 2개의 표본

어떤 개체가 표본으로 뽑힐 확률 =2/5

특정한 표본이 산정될 확률을 토대로 추정오차를 과학적으로 설명


단순확률추출법(Simple random sampling) 줄여서 SRS라고 부름

크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출

모든 단위들이 표본에 선택될 확률이 동일

예] 가구조사 :P(이니네 집 추출) =n/N


계통추출법 (Systematic sampling)

표집틀에서 처음 1~K번째 단위들 중 하나를 랜덤 하게 선택한 다음, 매 K 간격으로 단위들을 표본으로 추출

계통표본 추출과정

추출간격 K의 결정 N/n 또는 정확도를 고려 결정

1~K에서 난수 하나를 선택해서 시작점을 선정

시작점에서 K를 반복적으로 더해서 표본추출

표집틀이 없어 고유번호 부여, 난수발생 등 단순확률추출법을 적용하기 어려운 실제 조사현장에서 폭넓게 활용

예] 선거출구조사, 주차장 출입 차량에 대한 조사


층화확률추출법 (Stratified random sampling)

모집단을 서로 중복되지 않는 여러 개의 층(strata)으로 나누고, 각 층에서 단순확률추출에 의해 표본을 추출

부모집단(subpopulation)의 구성 내역을 알고 있음

부모집단 간 특성에 차이가 있음

층화 표본추출 과정

층의 구성 (성별, 연령, 지역 등)

각 층에서 독립적으로 표본 추출

서울시내 서점의 월 매출액 추정을 100개 서점 표본추출

100개 중 대형 서점이 10개인 경우와 20개인 경우 → 추정치 변동이 큼

대형, 중형, 소정으로 분류 후 각 층에서 일정 수 표본 추출

층의 비율에 맞게 추출

층의 비율에 맞지 않으면 가중치 반영


집락추출 (Cluster sampling)

서로 인접한 조사단위들을 묶어 구성한 집락(cluster)을 추출하고, 이들 집락 내의 조사단위들을 조사

예] 서울시 고등학생 월평균 사교육비 추정

SRS:

추출틀 : 서울시 전체 고등학생명단 → 작성비용 과다

조사대상 : 서울 전역에 산재됨 → 조사비용 과다

집락추출:

1 단계 : 고등학교추출(PSU, primary sampling unit)

2 단계 : 학생추출(학급 → 학생)

집락추출법 활용 이유

조사단위에 대한 표집틀 확보에 어려움
→ 상대적으로 집락에 대한 표집틀 확보는 쉬움

조사단뒤들이 산재되어 관측비용 증가
→ 지역적으로 집중되도록 표본추출


비확률표본추출(non-probability sampling)

특정 표본이 산 저 될 확률을 알 수 없음
→ 추론결과의 정확도(precision)?

편의추출 : 자발적 참여, 백화점 앞, 포털사이트 인터넷 조사

유의추출 : 전문가 선택

할당추출 : 그룹 내 조사대상 선택에서 랜덤화 과정 없음


목표모집단 vs 조사모집단

목표모집단(target population)

관심대상이 되는 모든 기본단위들의 집합

시공간상 명확하게 정의된 연구대상 집단

조사시점, 지리적인 경계, 연령 기준 등

예] 수도권 거주 고등학생 학부모 대상 조사

조사모집단(survey population)

조사가능모집단(accessible population)

(현실적인 제약 고려) 표본추출 대상 기본단위들의 집합


가중치

개표방송

지역구 : A지역 7만 명 투표, B지역 3만 명 투표

개표율 : A지역 10%, B지역 50%

A지역 1번 후보자 득표율 60%, 2번 후보자 40%

B지역

1번 후보자 득표율 30%, 2번 후보자 70%

가중치(weight)

모집단의 구성정보는 표본을 추출하는데 매우 중요한 사전정보
→ 표본조사 결과의 정확도를 높일 수 있는 핵심요소

모집단이 다른 특성을 가지는 부모집단들로 이루어진 경우 부모집단의 구성비율과 표본의 구성비율이 다르면 접체 모집단에 대해 왜곡된 결과가 나올 수 있음

표본추출설계에 충실히 반영해도 실제 표본획득 과정에서 여러 문제가 발생

→ 가중치 적용
한 표본이 몇 개를 대표하는지


오늘 공부한 건 여기까지다.

보고서 쓸 때 산술평균과 가중평균 때문에 애먹은 적 있었는데 통계적 오차를 줄이려면 가중치를 잘 알아야 할 것 같다. 차근차근 공부해 가는 걸로


출처:https://www.youtube.com/watch?v=YaCQrJCgbqg

출처:https://lms.kmooc.kr/course/view.php?id=6760#section-2

keyword