brunch

You can make anything
by writing

- C.S.Lewis -

by 정경문 Jan 17. 2023

마트와 편의점 홈런볼은 차이가 있을까?

홈런볼로 박사학위 도전하기

딸이 아빠를 부릅니다.

아빠~ 이리 와봐!!


"아빠 마트 홈런볼하고 편의점 홈런볼하고 어떤 게 더 많게?"

"응?? 둘이 차이가 있어?"


그때까지는 알지 못했습니다. 그것이 깊은 홈런볼 사건의 서막을 알리는 부름이었다는 사실을.


# 01. 마트 홈런볼 vs. 편의점 홈런볼


여기 마트 홈런볼과 편의점 홈런볼 두 제품이 있습니다.

두 제품은 과연 차이가 있을까요?

자세히 보니 디자인이 살짝 다르네요? 근데 크기는 같아 보이고요. 혹시.. 중량이 다르지는 않을까...?

# 02. 총 중량 차이


지난 편을 보신 분들은 아시겠지만 마트 홈런볼과 편의점 홈런볼은 총 중량 차이가 있습니다.

마트 홈런볼은 41g이고 편의점 홈런볼은 46g으로 공식 표기 중량부터가 다릅니다.


이제 마트에서 4개 번들 홈런볼이 왜 더 저렴한지 아셨나요? 아니, 잠깐 저렴?이라는 단어를 쓰기 전에 아래 글을 먼저 봐주시면 좋겠습니다.

https://brunch.co.kr/@writerjeong/194

# 03. 마트 1알 vs. 편의점 1알


오늘의 주제입니다.

그렇다면 혹시... 홈런볼 1알도 차이가 있는 것은 아닐까요?



그래서 바로 하나씩 꺼내서 측정을 해봅니다.


# 04. 홈런볼 1알 측정결과


홈런볼 1알 측정결과, 마트 홈런볼은 1.4g 그리고 편의점 홈런볼은 1.5g이었습니다. 마트 홈런볼 보다 편의점 홈런볼이 0.1g 더 무거웠습니다.

그렇다면 마트 홈런볼 보다 편의점 홈런볼이 더 무겁다 말할 수 있을까요?

아빠! 편의점 홈런볼이 더 무거워~!

"앞으로는 편의점 홈런볼만 사먹자" 라고 딸이 이야기합니다. 잠깐~! 판단하디는 아직 일러.


# 05. <1 봉지씩 측정> 1알 평균 중량 비교

에이, 1알 가지고 어떻게 말을 할 수 있겠어?!


"좋아! 그럼 이번에는 1 봉지씩 까볼게!!"

1 봉지씩 측정결과, 마트 홈런볼 평균중량 보다 편의점 홈런볼 평균중량이 여전히 무거웠습니다.



"봐~ 내 말이 맞지? 한 봉지를 까봐도 편의점꺼가 더 무겁자나~"

과연.. 그럴까? 혹시..우연히 한 봉지만 그런거 아냐?

또 아빠의 디깅은 시작되었습니다


# 06. 평균 중량의 차이의 의미


우연한 1 봉지를 측정해 보고 홈런볼 1알의 평균중량의 차이가 난다고 해서 무조건 "마트 1알 <편의점 1알"로 일반화할 수 있을까요?

첫 번째 우연의 요소 : 평균 차이

앞편에서 살펴본 "홈런볼의 중량은 표기 중량과 같은가?"와 마찬가지로 여기에는 몇 가지 우연의 요소가 있습니다.


첫 번째로 말할 수 있는 사실은 마트 홈런볼과 편의점 홈런볼의 1알 중량이 0.1g 차이가 난다는 것입니다.그렇다면 0.1g은 의미가 있는 차이일까요? 아니면 어쩌다 나온 우연일까요?

만약 우연이라면 우리는 도대체 홈런볼을 몇 봉지나 더 까봐야 하는 것일까요? ㅠㅠ


분명한 사실은 두 홈런볼 1알의 중량의 차이가 많이 날수록 "확신이 든다"는 것입니다.

가령 마트 홈런볼은 1g이고 편의점 홈런볼은 3g으로 3배 더 무겁다면 어떨까요? 겉보기에도 확연히 크기가 커서 "차이가 있다"라고 말하게 될 것입니다.


그렇다면 반대로 실제 측정한 값처럼 0.1g 은 어느 정도의 확신을 줄까요? 바로 이것을 계산해 내는 것이 통계와 데이터 분석의 역할입니다.


That's the beauty of it


# 07. 데이터가 흩어진 정도의 의미


앞서 우리는 데이터가 흩어진 정도인 표준편차에 대해 알아보았습니다. 표준편차가 작다는 것은 데이터가 흩어진 정도가 작아서 서로 간의 차이가 작은 것을 말했습니다. 반면에 표준편차가 크다는 것은 데이터가 흩어진 정도가 커서 데이터 간에 값의 차이가 많이 났습니다.

두 번째 우연의 요소 : 흩어진 정도


이처럼 평균에 대한 차이가 나더라도 이 값이 우연히 발생한 것인지 아닌지를 알아보려면 데이터가 흩어진 정도인 표준편차를 확인해보아야 합니다.


# 08. 평균 차이와 흩어진 정도의 조합


평균의 차이, 그리고 흩어진 정도 이렇게 두 가지를 알아보았습니다.

그럼 평균 차이가 클 때와 작을 때(2가지), 그리고 흩어진 정도가 넓을 때와 좁을 때(2가지) 각각 두 가지 경우의 수가 있다면 2가지 x 2가지는 아래와 같이 4가지 경우를 생각해 보기로 합니다.

어디서 왔게?


먼저 마트 홈런볼과 편의점 홈런볼의 1알의 평균중량 차이가 크다는 것은 윗 줄에 표현하였고,

그 아래 줄에는 평균 차이가 얼마 나지 않는다는 것을 아래 줄에 표현하였습니다.


그리고 마트와 편의점 홈런볼의 측정한 데이터가 넓게 퍼져있으면 오른쪽의 넓은 흩어짐,

반대로 각각에서 측정한 데이터가 좁게 흩어져 있으면 왼쪽의 좁은 흩어짐으로 표현했습니다.

그림 1과 같이, 평균 차이가 크고 좁게 흩어져 있다면 어떤 집단에서 나온 홈런볼인지 단박에 알 수가 있습니다.


하지만 그림 2와 같이 아무리 평균 차이가 커도, 데이터들이 흩어진 정도 또한 넓다면 어디서 온 홈런볼 인지 알 수가 없는 경우가 생기게 됩니다.


이와 반대로, 평균 차이가 작더라도, 데이터가 평균 근처에 모여 있다면 그림 3과 같이 홈런볼 1알이 어디 출신인지 딱 분류해 낼 수가 있겠네요.


그림 4는 평균 차이도 작고, 데이터 흩어짐도 심해서 홈런볼 1알이 어디서 왔는지 도대체 알 수가 없을 것 같습니다.


눈치채셨겠지만, 마트의 홈런볼 1알과 편의점의 홈런볼 1알의 중량에 차이가 있다고 말하려면, 위 4가지 그림에서 겹치는 부분이 없어야 "자신 있게" 또는 "확신에 차서" 차이가 있다고 말할 수 있습니다.


# 09. 세 가지 우연의 요소


이상 배운 내용을 정리해 보면 아래와 같습니다.

지난 시간에는 우리가 측정한 홈런볼의 중량이 표기 중량(41g)과 같은가에 대해 여러 ① 봉지수 를 측정했고, 측정한 홈런볼들의  평균 총중량(41.27g)에서 표기중량(41g)을 빼서 ② 차이를 구했습니다. 그리고 이 차이를 ③ 흩어진 정도로 나눠서 계산했습니다.


마찬가지로 "마트와 편의점의 홈런볼 1알의 중량차이가 있다"라는 것을 알아보려면 매우 유사한 방법을 씁니다. 우리가 얻어낸 차이가 우연인지 아닌지 알기 위해서는 측정에 사용된 마트(25알)와 편의점(26알) 홈런볼 각각 ① 알 개수, 두 곳의 평균 중량 ② 차이(1.72 - 1.62 = 0.1 g), 그리고 마트와 편의점의 1알 중량 데이터가 ③ 흩어진 정도입니다.


앞시간에 알아본 홈런볼 1 봉지의 중량이 표기 중량과 같은 특정 값과 차이가 있는지 알아보는 것을 1집단 t검정, 그리고 오늘 배운 2집단 t검정(독립표본)이라고 합니다.

통계와 데이터에서 어려운 용어는 넣어두시고 실생활에 필요한 만큼만 이해하면 얼마나 좋을까요?


# 10. 실제 측정을 통해 알아본 결과


실제 측정과 데이터분석 프로그램을 통해 1000번 반복한 모의실험 결과를 아래와 같이 보여드릴게요. 여러분들은 두 그래프에서 마트와 편의점 홈런볼을명확히 분리해 낼 수 있나요?

결론적으로,, 마트와 편의점 홈런볼

1알의 중량은 차이가 있다고 말할 수 없다


추가 데이터 분석 학습을 원하시는 분들만 아래 링크를 참고해 주세요

https://data-scientist-jeong.tistory.com/35


오늘도 새벽까지 이렇게 연구를 마칩니다. 다음에는 F검정에 대해서도 쉽고 편하게 알아보겠습니다.

마트(좌) 와 편의점(우) 측정실험


결론 : 마트든지 편의점이든지 
홈런볼의 달콤함을 편하게 즐기세요~


(근데 혹시... 달콤함의 정도인 코코아 함량에 차이가 있는거 아니야..? 이쯤이면 질병인가요?^^)


매거진의 이전글 홈런볼 클라쓰

매거진 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari