brunch

You can make anything
by writing

C.S.Lewis

by 브래드 Jun 27. 2023

앞으로 나아가기 위한 기초체력이 중요해

기초통계 시리즈 1

안녕하세요, 브래드입니다.


오늘은 제가 이전에 통계를 공부하는 데 있어서 크게 도움을 받았던 Sapientia a Dei님께서 무료로 통계 관련 서적을 출간해 주셔서 관련 내용을 복습할 겸 요약 정리하고자 합니다.


좀 더 세부적인 내용은 해당 도서 내용을 참고해 주세요.


https://who4u78.github.io/book1/chapter1.html






�통알못을 위한 기초 통계 1: 통계는 왜 어려울까?



1. 통계적 의사결정, 즉 통계적으로 생각한다는 것은 어떤 사건(event)이 우연히 발생할 확률을 묻는 것으로 시작한다. 여기서 가장 중요한 단어는 바로 '우연히'이다.

 : “어떤 사건이 우연히 발생할 확률이 얼마일까?”



2. 평균표준편차의 역할은 우리가 가진 데이터의 특징을 설명하는 대표적인 대푯값 중 하나이다.

 : 평균과 표준편차는 다른 대푯값에 비해 계산이 용이하고 통계 전반에서 참값을 추정하는 추정값으로서 제일 우수하다는 점



3. 평균이란 데이터의 중심값으로서 데이터의 특성을 대표하는 값이다.



4. 그러나 이 대푯값은 약간의 약점이 있다. 단 한 개라도 어떤 값이 너무 치우치게 크거나 작으면 그 값에 의해 평균값은 심하게 요동친다.



5. 이렇게 비정상적으로 크거나 작은 값을 아웃라이어(outlier)라고 한다. 이상치 혹은 이상값이라고도 한다.







6. 분산이란 우리가 가진 데이터가 평균을 중심으로 얼만큼 퍼져 있는가를 말해 주는 대푯값이다.

  = 평균값으로부터 데이터가 퍼져 있는 평균적인 거리(distance)



7. 분산계산의 분자 부분을 제곱 합이라고 표현하고, 분모 부분은 자유도라고 표현한다.



8. 통계란 분산의 마법이다.



9. p-값의 p는 probability 즉 확률을 의미합니다. 따라서 p값이란 확률값(=우연히 발생할 확률)이다.



10. '어떤 사건이 우연히 발생할 확률이 얼마일까?'라는 이 질문의 확률이 p값이고 이 확률값이 5%보다 작으면 유의하다는 의미는 이 사건이 일어날 확률이 낮다는 의미이다. 따라서 우연히 발생할 확률이 낮은 이 사건은 우연히 발생한 것이 아니라 무엇인가 의미 혹은 이유가 있다고 해석한다. 그래서 우리는 5%보다 작으면 유의하다는 말을 하는 것이다.







11. 즉,  p값이 5% (0.05) 보다 작다는 것은 어떤 사건이 우연히 발생할 가능성이 없다는 뜻이므로 이 사건의 발생에 무언가 이유가 있다는 뜻이다. 이를 우리는 유의하다 (significant)고 표현하고 이 사건에는 인과관계가 있다고 해석한다.



12. 통계학자들이 두 가지의 가설을 먼저 정해 놓고 통계적 의사결정을 하는 이유는 보다 꼼꼼하고 안전하게 결론을 내리기 위함이다.



13. 5%보다 p값이 크게 나와 우연히 발생한 사건을 가정한 것이 바로 귀무가설이다. 귀무가설은 아무 의미 있는 일이 일어나지 않은 것이므로 귀무가설이 의미하는 것은 통계적으로 유의하지 않은 것을 가정하는 것이다.



14. 반대로 대립가설이 맞는다면 즉 p값이 5%보다 작아서 무언가 의미가 있다면 이는 이 사건이 우연히 발생한 것이 아니고 뭔가 의미 혹은 이유가 있다고 판단하는 것이다. 다시 말해 대립가설은 어떤 사건이 우연히 발생하지 않았고 뭔가 이유가 있다고 가정하는 가설이다.



15. 변수범주형 변수연속형 변수로 나눌 수 있다. 







16. 이제 이 변수를 다시 개별적으로 두 개씩 나누어 총 4가지의 변수의 종류를 확인할 수 있다. 범주형은 명목변수순위변수로, 연속형은 구간변수비율변수로 나눌 수 있다.



17. 상관관계는 한 변수와 다른 변수가 공변 하는 함수관계이다.



18. 이 두 변수가 공변 즉, 함께 변화하는 함수관계가 곧 상관관계이다.



19. 상관관계에는 양의 상관관계음의 상관관계로 두 가지가 존재한다. 



20. 상관계수-1부터 시작해서 증가하여 0을 거쳐 +1까지만 존재합니다. 즉 최댓값이 +1이고 최솟값이 -1이다.







21. 만약 상관계수가 +1이라면 우리는 이를 완벽한 양의 상관관계라고 표현하고, 상관계수가 -1이라면 이를 완벽한 음의 상관관계라고 부른다. 반면에 만약 상관계수가 (zero)이라면 우리는 두 변수 사이에 아무런 관계도 없다고 설명한다.



22. 상관계수가 +1이거나 -1인 경우에 보면 점들이 모여 선처럼 보인다.



23. 점들이 모여 이루는 선의 각도와 관계없이 점들이 모여서 선처럼 보인다면 모두 상관계수는 +1인 것이다. 

   *x축에 평행한 모습은 제외



24.  상관계수는 두 변수가 직선형태의 선형관계일 경우에만 상관계수의 의미가 정확한 것이며, 만약 두 변수가 비선형적인 관계에 있을 경우 상관계수 자체를 믿을 수 없고 이때의 상관계수는 잘못된 것이란 의미이다.



25. 단순히 통계 프로그램으로 상관계수만을 확인하는 것은 매우 위험한 일이다. 상관계수와 함께 산포도를 그려 변수 간의 전반적인 패턴을 분명히 확인할 필요가 있다.







26. 상관관계는 인과관계가 아니다.



27. 인과관계(Causal relationship)란 원인과 결과 사이의 관계를 의미한다.



28. 상관계수를 해석할 때는 항상 인과관계를 제외하고 설명해야 한다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari