목표
나의 목표는 "제대로 된 분석"을 해서 비즈니스에 맞는 "지표"를 만드는 것
EXCEL 고급 데이터분석에 나오는 용어들을 무리 없이 해석할 정도가 되는 것이 내 목표다!
내가 실무에서 마주했던 문제들
1. 대부분의 의사결정은 가설을 기반으로 풀어가는 경우가 많은데 가설이 맞는 건지 안 맞는 건지 제대로 파악하기가 어렵다.
2. 잘 모아놓은 데이터가 서로의 관계성을 파악하는 것이 아닌 단순한 추세를 읽는 용도로만 사용되고 있다.
3. 통계를 알아야 데이터 거버넌스를 만들 때도 폭넓게 생각할 수 있을 것 같다.
그리고 예전엔 내가 다른 툴을 몰라서 제대로 된 분석을 할 줄 모르는 것이다.라고 생각했는데
생각보다 액셀이랑 구글시트로 많은 게 해결이 되는 것 같아서 나는 툴보다 더 원론적인 통계학을 공부하려고 한다. 나는 수포자라 수학적으로 증명하려는 것까지는 아니지만 적어도 데이터를 통해서 논리적으로 합리적인 의사결정을 하고 남들은 쉽게 알 수 없는 인사이트도 발굴하면 좋겠다.
나는 정보를 쉽게 믿지 못하는 사람 중 하나다. 원체 의심이 많은지라 항상 말과 행동의 의도 그리고 논리를 추론하며 산다. 무엇이든 차원을 넓혀서 복잡하게 생각하는 것을 좋아한다. 다만 비즈니스에서 너무 복잡한 의사결정은 오히려 독이 될 수도 있다. 기술의 발전 속도는 오늘이 가장 느린 날이기 때문에 의사결정이 늦어지면 무조건 지는 거다. 근데 또 정보의 정확도도 중요하지 않겠는가 그러려면 애초에 데이터를 설계할 단계에서부터 논리적으로 정확하게 만들어져 있어야 한다고 생각한다. 그다음 그 신뢰할 수 있는 데이터를 가지고 빨리빨리 의사결정을 진행하는 것. 이게 내가 생각한 통계학의 중요성이다.
통계는 데이터의 수집, 분석, 추론, 요약 등의 방법론을 다룬다.
Design (설계/계획)
Description (요약) 데이터를 요약 표현하기 위한 시각적(Graghical), 수치적(numerical) 방법
Inference (추론) 표본에 기반한 모집단에 대한 추론/예측
기본적으로 모집단에 대해선 접근이 불가능한 것을 상정을 하고 표본을 통해서 모집단의 정보를 추측 예측 추정을 하는 것
모집단(Poplulation) : 통계학에서 관심/조사의 대상의 되는 개체의 전체 집합
모수(Parameter) : 모집단에 대한 수치적 요약
-고등학생의 1일 평균 온라인게임 플레이 시간
-강아지보다 고양이를 좋아하는 성인의 비율
표본(Sample) : 모집단을 적절히 대표하는 모집단의 일부
통계량(Statistic) : 표본에 대한 수치적 요약
-고등학생 1000명의 1일 평균 온라인게임 플레이 시간
-강아지보다 고양이를 좋아하는 성인의 비율 (1000명)
Sample statistic → Poplulation Parameter
표본 통계량을 통해서 모집단의 모수에 대한 정보를 알고자 하는 것
확률표본추출(모집단을 대표할 수 있는 방법)
모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법 → 표본추출틀(sampling frame, 표집틀) 필요
ex] 모집단:{1,2,3,4,5} → 2개의 표본
어떤 개체가 표본으로 뽑힐 확률 =2/5
특정한 표본이 산정될 확률을 토대로 추정오차를 과학적으로 설명
단순확률추출법(Simple random sampling) 줄여서 SRS라고 부름
크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출
모든 단위들이 표본에 선택될 확률이 동일
예] 가구조사 :P(이니네 집 추출) =n/N
계통추출법 (Systematic sampling)
표집틀에서 처음 1~K번째 단위들 중 하나를 랜덤 하게 선택한 다음, 매 K 간격으로 단위들을 표본으로 추출
계통표본 추출과정
추출간격 K의 결정 N/n 또는 정확도를 고려 결정
1~K에서 난수 하나를 선택해서 시작점을 선정
시작점에서 K를 반복적으로 더해서 표본추출
표집틀이 없어 고유번호 부여, 난수발생 등 단순확률추출법을 적용하기 어려운 실제 조사현장에서 폭넓게 활용
예] 선거출구조사, 주차장 출입 차량에 대한 조사
층화확률추출법 (Stratified random sampling)
모집단을 서로 중복되지 않는 여러 개의 층(strata)으로 나누고, 각 층에서 단순확률추출에 의해 표본을 추출
부모집단(subpopulation)의 구성 내역을 알고 있음
부모집단 간 특성에 차이가 있음
층화 표본추출 과정
층의 구성 (성별, 연령, 지역 등)
각 층에서 독립적으로 표본 추출
서울시내 서점의 월 매출액 추정을 100개 서점 표본추출
100개 중 대형 서점이 10개인 경우와 20개인 경우 → 추정치 변동이 큼
대형, 중형, 소정으로 분류 후 각 층에서 일정 수 표본 추출
층의 비율에 맞게 추출
층의 비율에 맞지 않으면 가중치 반영
집락추출 (Cluster sampling)
서로 인접한 조사단위들을 묶어 구성한 집락(cluster)을 추출하고, 이들 집락 내의 조사단위들을 조사
예] 서울시 고등학생 월평균 사교육비 추정
SRS:
추출틀 : 서울시 전체 고등학생명단 → 작성비용 과다
조사대상 : 서울 전역에 산재됨 → 조사비용 과다
집락추출:
1 단계 : 고등학교추출(PSU, primary sampling unit)
2 단계 : 학생추출(학급 → 학생)
집락추출법 활용 이유
조사단위에 대한 표집틀 확보에 어려움
→ 상대적으로 집락에 대한 표집틀 확보는 쉬움
조사단뒤들이 산재되어 관측비용 증가
→ 지역적으로 집중되도록 표본추출
비확률표본추출(non-probability sampling)
특정 표본이 산 저 될 확률을 알 수 없음
→ 추론결과의 정확도(precision)?
편의추출 : 자발적 참여, 백화점 앞, 포털사이트 인터넷 조사
유의추출 : 전문가 선택
할당추출 : 그룹 내 조사대상 선택에서 랜덤화 과정 없음
목표모집단 vs 조사모집단
목표모집단(target population)
관심대상이 되는 모든 기본단위들의 집합
시공간상 명확하게 정의된 연구대상 집단
조사시점, 지리적인 경계, 연령 기준 등
예] 수도권 거주 고등학생 학부모 대상 조사
조사모집단(survey population)
조사가능모집단(accessible population)
(현실적인 제약 고려) 표본추출 대상 기본단위들의 집합
가중치
개표방송
지역구 : A지역 7만 명 투표, B지역 3만 명 투표
개표율 : A지역 10%, B지역 50%
A지역 1번 후보자 득표율 60%, 2번 후보자 40%
B지역
1번 후보자 득표율 30%, 2번 후보자 70%
가중치(weight)
모집단의 구성정보는 표본을 추출하는데 매우 중요한 사전정보
→ 표본조사 결과의 정확도를 높일 수 있는 핵심요소
모집단이 다른 특성을 가지는 부모집단들로 이루어진 경우 부모집단의 구성비율과 표본의 구성비율이 다르면 접체 모집단에 대해 왜곡된 결과가 나올 수 있음
표본추출설계에 충실히 반영해도 실제 표본획득 과정에서 여러 문제가 발생
→ 가중치 적용
한 표본이 몇 개를 대표하는지
오늘 공부한 건 여기까지다.
보고서 쓸 때 산술평균과 가중평균 때문에 애먹은 적 있었는데 통계적 오차를 줄이려면 가중치를 잘 알아야 할 것 같다. 차근차근 공부해 가는 걸로
출처:https://www.youtube.com/watch?v=YaCQrJCgbqg