고바야시 가쓰히코
카페
통계학 하면 우선 선입관이 든다.. 복잡한 수치나 문자 그리고 나열된 도표를 보며 괜히 만음이 편치 않다... 하지만 웬만한 회사 업무나 기술적인 분석 및 경제적 수치를 파악 하기 위한 가장 간단한 방법은 통계적 수치 법을 사용하는 방식이다.
일례로 인구 총 조사 라던가 , 가구별 소득 분포표 , 그리고 직장인이라면 각 지역별로 벌어지는 매출액에 따른 증감 추이 또한 해당 지역의 리소스 즉 , 인구수 변화에 따른 분포도와 상관계수를 구하는 방식 , 그리고 프레젠테이션을 하기 위한 알기 쉬운 도표나 벤 다이어 그램 , 그리고 도수 분포 표등을 동원하여 시각적으로도 보기 좋게 만든다면 훨씬 전달력이 졿아지고 해당 수치들을 분석하는데에 따른 이해도도 높아질 것이다.
내용으로 돌아가면 목차는 크게 수치를 모든 모집단과 이의 중간값과 평균치, 그리고 평균에서 벌어진 정도를 나타내는 표준 편차 분산 등에 대해서도 그림과 만화로 전달력 좋게 표식이 되어 있다..
개념적으로 분산과 표준 편차 구하는 것 혹은 공분산과 r이라고 불리는 상관계수 구하는 방식까지 , 엑셀 시트를 이용하면 보다 쉽게 접근할 수가 있다.
다변량 분석에 이어 , 가설 검증을 하기 위한 추론 통계학도 사용 가능할 수 있는데, 일례로 이전 미국 대선 당시 사용하였던 A/B 테스트 등이 그것이다..
또한 미래의 경제지표 및 매출 증감량에 따른 추론을 하고자 할 때 사용이 되는 회귀분석 또한 유용하게 사용하게 되는 통계적 방식이다...
기본 이해의 틀을 이해하고 나면, 나머지는 모집단에 대한 엑셀 입력과 제어 함수표를 사용하여 해당 필드만 설정한다면 그리 어렵지 않게 표준 편차, 분산 공분산, 그리고 r 상관 계수, 회귀분석 까지를 해낼 수가 있다.
처음부터 , 모든 것을 다하기보다는 직접적인 데이터 입력부터 해서 쉬운 10~ 20여 개의 상관 데이 타수를 입력하는 것부터 시작하여 평균, 중간값, 분산 , 기타 통계적 지표를 구해나가는 절차를 하다 보면 어느새인가 다른 분야까지도 충분히 응용 가능한 수준에 도달할 수 있다는 것이 저자의 신념이고, 필자 또한 책으로 읽어내리는 것보다 간단하게라도 컴퓨터 앞에 않아서 수식과 데이터를 입력해보고 , 해당되는 함수 제어 치를 찾아내 배치한다면 원하는 결과를 바로 구할 수가 있다.
그렇게 결과 값이 나오지 않더라도 , 실망하지 말자, 주변 사회학적, 경제학적으로 통계적 수치의 분석이 필요한 일들은 너무나도 많다... 다만 그 직무나 일에 이러한 통계적 마인드와 기법들이 유효 적절하게 사용될 때 , 수치의 제어는 놀라운 힘을 발휘할 것이다...
공부는 늘 하는 것이라는 생각에는 변함없는 책력 거 99 적다.
Value Up Tip : 통계학 용어 설명
통계학 - 위키백과, 우리 모두의 백과사전
모집단(population)은 관측 대상이 되는 전체 집단이다. 조사의 대상이 되는 자료 전체이다.[5]
표본(sample)은 모 집단에서 일부만 조사한 것이다. 모집단에서 추출된 자료의 집합이다.
대푯값(representative value)은 어떤 데이터를 대표하는 값이다. 평균, 중앙값, 최빈값이 있다.
평균(mean)은 데이터를 모두 더한 후 데이터의 개수로 나눈 값이다.
중앙값(median)은 전체 데이터 중 가운데에 있는 수이다. 직원이 100명인 회사에서 직원들 연봉 평균은 5천만원인데 사장의 연봉이 100억인 경우, 회사 전체의 연봉 평균은 1억 4,851만원이 된다. 이처럼 극단적인 값이 있는 경우 중앙값이 평균값보다 유용하다.
최빈값(mode)은 가장 자주 나오는 값이다.
기댓값(expected value)은 통계에서는 평균과 같다고 생각하면 된다. 가능한 값마다 확률을 곱해서 모두 더한 것이다.
산포도(degree of scattering)는 자료가 흩어져 있는 정도를 나타낸다. 범위, 분산, 표준편차 등.[2]
편차(deviation)는 관측값에서 평균 또는 중앙값을 뺀 것이다. 즉, 자료값들이 특정값으로부터 떨어진 정도를 나타내는 수치이다.
분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.
표준 편차(standard deviation)는 분산을 제곱근한 것이다. 제곱해서 값이 뻥튀기 된 분산을 제곱근해서 다시 원래 크기로 만들어준다.
절대 편차(absolute deviation)는 관측값에서 평균 또는 중앙값을 빼고, 그 차이에 절대값을 취하고 그 값들의 대푯값을 구한 것이다.
범위: 가장 큰 측정값에서 가장 작은 측정값을 뺀 값이다.
모 평균(population mean) μ는 모 집단의 평균이다. 모두 더한 후 전체 데이터 수 n으로 나눈다. 확률 변수의 기댓값이다.
표본 평균(sample mean) X ¯ {\displaystyle {\bar {X}}} 는 표본의 평균이다. 모두 더한 후 n으로 나눈다.
모 분산(population variance) σ2은 모집단의 분산이다. 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.
표본 분산(sample variance) s2은 표본의 분산이다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.
모 표준 편차(population standard deviation) σ는 모 집단의 표준 편차이다. 모 분산 σ2에 제곱근을 씌워서 구한다.
표본 표준 편차(sample standard deviation) s는 표본의 표준 편차이다. 표본 분산 s2에 제곱근을 씌워서 구한다.
평균 절대 편차(average absolute deviation 또는 mean absolute deviation)는 관측값에서 평균을 빼고, 그 차이값에 절대값을 취하고, 그 값들을 모두 더하여 전체 데이터 개수로 나눠준 것이다. 절대값 편차의 평균이라고 생각하면 된다.
중앙값 절대 편차(median absolute deviation)는 관측값에서 중앙값을 빼고, 그 차이에 절대값을 취한 값들의 중앙값을 구한다.
최소 절대 편차(least absolute deviation)는 회귀 분석(regression analysis)에 사용된다.
전수조사: 조사의 대상이 되는 자료 전체를 빠짐없이 조사하는 것이다.(모집단 전체를 조사).[5]
표본조사: 조사의 대상이 되는 자료의 일부만을 택하여 조사함으로써 전체를 추측하는 조사이다.[5]
측정수준 자료의 측정수준은 다음과 같이 분류된다. 측정수준에 따라 통계에 이용해야 할 요약 통계량이나 통계 검정법이 다르다. 분류 자료: 수치로 측정이 불가능한 자료이다. 질적 자료라고도 한다. 명목척도: 단순한 번호로 차례의 의미는 없다. (예: 전화번호, 등번호, 성별, 혈액형, 주소 등.) 순서척도(서열척도): 순서가 의미를 가지는 번호. (예: 계급, 순위, 등급 등.) 수량 자료: 수치로 측정이 가능한 자료이다. 양적 자료라고도 한다. 구간척도: 순서뿐만 아니라 그 간격에도 의미가 있으나, 0에 절대적인 의미는 없다. (예: 온도, 지능지수 등.) 비율척도: 0을 기준으로 하는 절대적 척도로, 간격뿐만이 아니라 비율에도 의미가 있다. (예: 절대온도, 금액, 몸무게, 키 등.)