feat. 평균, 표준편차, p-value 등
안녕하세요, 브래드입니다.
오늘은 통계 기초를 함께 다져보는 시간을 가져볼게요.
해당 내용은 유튜버 Sapientia a Dei님의 내용을 참고하여 작성한 글로
조금 더 깊은 내용을 알고 싶으시다면, 해당 유튜브를 참고해 주세요.
거두절미하고, 시작하겠습니다.
평균은 이미 대부분의 사람이 알고 있듯이, 자료 전체의 합을 자료의 개수로 나눈 것입니다.
평균은 자료의 중심값으로서 자료의 특성을 대표하는 값입니다. 모든 자료로부터 영향을 받기 때문에 이상한 값에 영향을 쉽게 받을 수 있습니다.
가령, {1,2,3,4,78}이라는 데이터가 있다면 78에 의해 평균이 기하급수적으로 커지는 것이죠.
분산을 구하는 공식은 다음과 같습니다.
분산은 자료가 평균값을 중심으로 퍼져 있는 평균적인 거리를 의미합니다.
이러한 분산에 루트를 씌운다면 우리가 아는 표준편차가 구해집니다.
p-value는 통계학을 배울 때 한 번쯤은 들어봤을 단어로, p값을 의미합니다.
p값은 간단하게 확률값을 의미합니다.
우리는 p값이 유의하다 혹은 유의하지 않다는 이야기를 들어봤을 것입니다. 가령, p값이 특정 숫자보다 작다는 것은 우연하게 발생할 가능성이 없다는 것으로 이를 유의하다고 표현합니다.
반대로, p값이 특정 숫자보다 크다면 우연히 발생한 것이라고 판단할 수 있습니다.
ex)
p-값 < 0.05 → 유의하다(인과관계가 존재 O)
p-값 > 0.05 → 유의하지 않다(인과관계가 존재 X)
모집단은 전체 집단의 수를 의미합니다. 다만, 우리가 무언가를 조사할 때 특정 집단 전부를 조사하기에는 무리가 있습니다.
가령, 서울시에 거주하는 인구를 조사할 때 서울에 거주하는 모든 이를 조사하기에는 어렵죠.
이때 사용하는 것이 표본입니다. 표본은 샘플이라고도 부르며, 모집단에 있는 이들 중에서 특정 숫자만을 선별하여 조사하는 것입니다.
t-test는 두 집단이 같은 지 혹은 다른 지를 판별하고 싶을 때 활용하며, 각각의 집단의 평균값을 비교하여 판단합니다.
오늘은 통계 기초를 다지는 시간으로 평균과 표준편차 및 p-value, t-test에 관해 함께 알아보았습니다.
다음 시간에도 통계학과 관련한 새로운 개념을 함께 공부해 보아요.
브래드였습니다. 감사합니다.