brunch

You can make anything
by writing

C.S.Lewis

by 정경문 Dec 26. 2022

2023 홈런볼 연구보고서

1. 홈런볼로 바라본 세상과 데이터 분석

슈링크플레이션(Shrinkflation)


01. 30년 최애과자 홈런볼과 슈링크플레이션


전 세계가 물가상승으로 난리입니다. 뉴스는 매달 미국의 물가상승률을 친절하게 전해줍니다. 예전에는 경제 데이터 분석가들의 전문분야였지만, 복잡한 오늘을 살아가는 우리에게는 필요한 정보입니다. 좋은 것인지 나쁜 것인지 모르겠지만, 이것이 오늘의 이야기가 됩니다.


소비자들은 가격보다는 양의 변화에  민감하다고 합니다. 정확히 말하면 양의 변화는 알아차리기 어렵습니다.

실제로 마트에서 가격을 보고 구입을 하지, 중량(g) 보고 구매를 하지는 않습니다. 우리가 받은 영수증에도 가격() 표시되지, 중량(g) 표시되지 않죠.


"제품의 가격이 1년 전이나 2년 전이나 여전히 그대로네"라고 생각하고 장바구니에 넣습니다.

하지만 과연 그럴까요? 동일한 모양과 크기의 포장지 안에 들어있는 내용물의 양이 줄었다면요?


종종 매대의 가격표에는 100g 당 가격이 표시되기도 합니다. 하지만 동일 제품이 딱 1년 전 오늘 100g 당 얼마였는지는 비교할 수 없습니다. 1년 전 동일 제품의 중량(g/YoY)을 알 수가 없기 때문입니다.


이처럼 기업이 제품의 가격을 올리는 대신, 제품의 양을 줄이는 것을 슈링크플레이션이라고 합니다.

홈런볼에게 한 대 맞은 기분이기는 하지만 좀 더 깊게 연구해보기로 합니다.


슈링크플레이션(Shrinkflation)이란,
'줄어든다'는 의미의 영어단어 ‘슈링크(shrink)’와 물가상승을 뜻하는 ‘인플레이션(inflation)’의 합성입니다. 기업이 판매량과 수익유지를 위해, 제품의 가격을 올리는 대신 양을 줄이는 것을 말합니다.




02. 2023 홈런볼 연구보고서


여러분들은 어떤 과자를 가장 좋아하시나요?
What is your favorite snack?


아이들에게 이야기합니다.

"아빠가 죽으면, 제사상에 '홈런볼' 하고, '소년탐정 김전일'(만화책)을 올려줘~"

어렸을 적부터 30년 가까이 함께해 온 홈런볼은 저에게 많은 의미가 있습니다. 한 입 먹었을 때, 사르르 녹는 슈와 초콜릿이 어렸을 적으로 훌쩍 시간여행을 선사합니다. 그런 홈런볼에 대해 좀 더 알아보고 싶은 생각이 들었습니다. 순수하게 제가 좋아하는 과자에 대한 예를 갖추기 위해 몇 가지 연구를 해보기로 합니다.


① 홈런볼의 중량은 표기된 중량과 일치하는가? (t검정)

홈런볼은 슈링크플레이션(shrinkflation)의 영향을 받았는가? (가격과 중량 변화)

 홈런볼의 가격 상승률은 평균 물가상승률을 초과하는가? (홈런볼 가격 vs. CPI vs. 과자 가격)


오늘은 첫번째 이야기만 풀어보겠습니다.


마트에서 홈런볼을 1 봉지 샀습니다. 그리고 중량을 측정해 보았습니다.

그 결과는 40.8g, 측정한 중량이 표기된 중량 41g 보다 작았습니다.



그렇다면 우리는 이 사실을 바탕으로 "모든 홈런볼이 표기된 중량보다 작다."라고 말할 수 있을까요?

또 우리가 "홈런볼은 중량이 표기보다 미달된 과자이다."라고 소비자 보호원에 신고할 수 있을까요?



아닙니다.


 그렇게 말할  없을까요? 여기에는 다양한 우연들 존재하기 때문입니다. 이를 테면 우연히 홈런볼 부스러기들이 떨어져서 측정에서 제외되었을 수도 있습니다. 구체적으로 어떤 우연의 요소가 있을까 궁금해집니다. 우리가  통제할  있는 우연들은 무엇이 있을까 곰곰이 생각해 봅니다.




① [샘플수] 그럼 홈런볼을 몇 봉지나 측정을 해야 해?


첫 번째 우연은 홈런볼의 봉지수입니다.

가장 먼저 할 수 있는 말은 "홈런볼을 1 봉지 밖에 측정하지 않았어"입니다.

홈런볼이 표기중량보다 많다, 적다고 말하는 것은 모든 홈런볼에 대한 일반화를 이야기합니다. 한 때 유행했던 "성급한 일반화의 오류"는 바로 이럴 때를 두고 말하게 됩니다.

앞서 "모든" 홈런볼이라고 말하려면, 좀 더 많이 관찰하고 측정해봐야 한다는 데는 모두 동의하실 거예요. 그렇다면 "얼마나 많은 홈런볼을 측정해보아야 할까요?"


그래서 마트에 가서 4 봉지 짜리 홈런볼 번들제품을 구매해 왔습니다.

같은 방식으로 측정해서 다음과 같은 중량 측정 결과를 얻었습니다.



제가 산 4 봉지의 홈런볼의 평균 중량은 41.27g이었습니다. 자, 이제 41g 보다 많습니다.


41.27 g > 41 g


하지만 여전히, 4 봉지로 모든 홈런볼에 대해 말할 수 있을까요? 우리는 좀 더 많은 홈런볼 봉지수가 필요하다는 생각이 듭니다. 좀 더 과학적인 방법으로요.




② [차이] 평균끼리 얼마나 차이가 나야 의미가 있는 거지?


두 번째로 살펴볼 우연의 요소는 "차이"입니다.

저는  4 봉지를 측정했고,  평균 41.27g으로 표기 중량 41g 보다 0.27g 많았습니다. 그런데 왠지 찜찜합니다. 0.27g 밖에  크지 않기 때문입니다. 0.27g 과연 "모든" 홈런볼이 표기된 중량보다 많다고 말할  있을 만큼 "충분히  차이"일까요? 


41.27 g - 41 g = 0.27 g


41.27g - 41g = 0.27g 두 평균의 차이 0.27g은 과연 의미가 있는 숫자일까요?

이 숫자 역시 의미가 있는지 없는지에 대해 좀 더 과학적(또는 수학적)으로 증명이 필요합니다.


예를 들어, 표기된 중량보다 0.1g만 적게 들어있다고 가정해 볼게요. 0.1g의 중량 차이는 너무 작죠? 0.1g 차이가 너무 작다면, 0.27g 차이는 어떨까요? 여전히 상관이 없을까요? 그렇다면 0.3g, 0.4g, 0.5g,,, 그 차이를 대체 어디까지 봐줄 수 있는 것일까요?




③  [흩어진 정도] 측정한 중량값이 들쑥날쑥 나와도 괜찮은 걸까?


그리고 마지막으로 첫 번째 홈런볼 봉지가 여전히 마음에 걸립니다.

첫 번째 홈런볼은 40.8g으로 분명히 41g(표기중량) 보다 작았습니다. 4 봉지 번들을 측정했으니까, 단순히 계산해서 4번에 1번 꼴로 이렇게 특별한(튀는) 값이 측정될 것만 같습니다. 데이터가 이렇게 흩어진 정도를 뭐라고 했더라...? 데이터가 분산되어 있다... "아!, 분산 그리고 표준편차!"


어떨 때는 값이 크게 나오고, 어떨 때는 작게 나온다면 과연  현상을 어떻게 봐야 할까요? 우리는 이렇게 값이 흩어진 정도를 다른 말로는 편차 또는 분산이라고 합니다. 특히 지금처럼 측정된 평균값 41.27g 기준으로 표준적(평균적)으로 흩어진 정도를 표준편차라고 합니다.


위 그림처럼 같은 평균 41.2g 이더라도 데이터가 흩어진 정도에 따라 표준편차가 달라집니다. 데이터가 평균 근처에 모여 있으면 표준편차가 작고, 데이터가 평균에서 흩어져 있으면 표준편차가 큽니다.

데이터가 흩어진 정도에 따라서 뭔가 우연이 발생할  같은 느낌입니다.




지금까지 나온 3가지 생각들을 정리해 볼게요.

① 첫 번째로, 홈런볼 봉지수가 있었어요. 1 봉지만 까봤다가, 불안해서 4 봉지 번들도 까봤어요.

② 두 번째로, 샘플로 뽑은 4 봉지 평균 중량과 표기 중량 차이를 계산해 봤어요. 41.27-41 = 0.27g이었죠.

③ 마지막으로, 데이터가 흩어진 정도를 보았네요. 평균에서 멀어지기도 하고, 가까워지기도 했어요.


① 봉지수 ② 차이 ③ 흩어진 정도

이상을 아래와 같이 그림으로 표현해 보겠습니다.


위 3가지 생각을 배치해보고 가운데 막대기 하나만 그어 볼게요.

그리고 봉지수에는 지붕을 만들어 줍니다. 루트라고 하죠~ 너무 어려워하지 말아요. 중학교에서 배웠거든요~


아까 차이는 무슨 차이였나요? 기억만 더듬어 보면 되는데요.

4 봉지 평균값에서 표기된 중량을 뺀 차이였어요. 이것을 측정평균 빼기 표기 중량이라고 써볼게요.

그리고 마지막에 데이터가 흩어진 정도는 다른 말로 표준편차라고 바꿔 쓸게요~ 이것도 중학교에서 배워요.^^ 조금씩 어른이 되어 가는 것 같죠?



자, 이제 거의 다 왔어요.

위에서 어른스럽게 써놓은 분수식 옆에 알파벳 4개만 적겠습니다.

평균은 x 바, 표기중량은 μ(뮤), 표준편차 s, 샘플수 n이라고 쓰겠습니다.



마지막으로 한글들을 벗겨주면, 짜잔~! 평균과 특정값의 차이를 표준편차와 샘플수의 제곱근으로 나눠준 값을 우리는 t 값이라고 합니다. 여러분들은 홈런볼과 함께 통계 검정의 한 가지 방법인 t-검정을 수행할 수 있게 되었습니다.


중학생 딸아이가 읽어보더니 이야기 합니다.

아빠, 근데 이런 걸 왜 해?


"음, 과자를 하나 덜 먹을 수는 있는데, 파는 사람의 입장에서는 어떨까?"

"홈런볼 낱개 하나가 50원이라고 하면 10억 봉지팔면 500억원 이득을 볼 수가 있잖아. 혹시 과자 만드시는 분이 그럴 일은 없지만 누군가 역할을 해야하지 않겠니?^^"


" 그리고 만약 과자가 아니라 금덩이라고 생각해봐~ 우리가 금덩이 1kg을 1억주고 샀는데 1g만 틀려도 10만원이거든, 서로 공평하게 거래를 해야하니까, 누군가 계산을 잘 하는 사람들이 필요한게 아닐까"

"아... 근데 아빠가 왜...? ㅋㅋ"


그냥 홈런볼과 데이터가 좋아서


이미 다음시간에는 t검정을 하는 방법과 우리의 실험이 잘 되었을 확률에 대해 좀 더 쉽게 풀어보도록 하겠습니다. 홈런볼을 먹으면서 배가 나오는 부작용이 있는 개인 연구입니다.

데이터 분석에 대해 좀 더 배우고 싶으신 분들은 참고해주세요. 감사합니다.

https://data-scientist-jeong.tistory.com/33

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari