평균의 오류

데이터넥스트레벨 챌린지 2주차, 데이터 문해력 3장

by 이오이

Oct 15. 2023

이번주 데이터넥스트레벨 챌린지 2주차로 접어들었습니다.

카시와기 요시키의 '데이터문해력' 3장을 읽고 리뷰 해보겠습니다.

3장에서 보다 실질적이고 핵심적인 이야기들이 있는 것 같습니다. 3장의 내용 중 저는 평균과 편차와 그 사례에 집중해서 읽었습니다.

편차가 크다는 것은 어떤 의미인가?

세 상품의 매출 실적 추이는 다음과 같습니다.

이를 보고 다음과 같은 결론을 들 수 있습니다.

상품A는 서서히 상품의 인지도와 평가가 향상되고 있으며 착실히 매출도 늘어나고 있습니다. 내년에도 이 경향이 이어질 가능성 있으므로, 프로모션 대상 상품으로 선정해 사업 기획로 삼고자 합니다.

평균값을 고려한다면?

상품C가 좋은 편이라는 결론이 나올 수 있습니다.

그러나 다른 지표를 사용하면 또 다른 결론도 가능합니다.

표준편차를 고려한다면?

표준편차는 평균에 대한 오차입니다. 상품별로 평균에서 얼마나 먼지 알 수 있습니다.

상품 A의 표준편차 : 2.13

상품 B의 표준편차 : 1.27

상품 C의 표준편차 : 3.17

매출 추이 비교를 보고 저라면 상품A가 좋을 거라고 생각했을 것 같습니다. 추이의 편차가 큰 다른 상품에 비해 상품A는 안정적인 상향선을 그리고 있으므로, 프로모션 비용을 투입하더라도 안정적으로 성과를 볼 수 있을거라고 판단했기 때문입니다.

하지만 표준편차를 함께 고려하여 다음과 같은 결론도 가능합니다.

내년에 판매 촉진 비용을 투입해야 할 대상은 상품 C입니다. 왜냐하면 편차가 크기 때문에, 매출이 적은 달에 비용을 투자해서 저변을 넓히면 연간 매출도 증가할 것입니다.

'편차가 크다는 것은 월별 매출 실적이 불안정하다는 뜻이다.'라고 한다면, 가장 문제 있는 상품은 C일 것입니다. 반대로 '편차가 작으면 안정적으로 매출을 발생시키고 있다는 뜻이지만, 향후 매출을 크게 높일 가능성이 적다고 할 수 있다'라고 생각할 수도 있습니다.

이렇게도 해석을 할 수 있다는 것에 굉장히 놀라웠고 흥미로웠습니다. 이 결론을 읽고 다시 데이터를 보니, 오히려 다른 변수를 주지 않아도 상품A가 일정한 추세를 보이고 있다면, 프로모션 비용을 투입하더라도 그 변화가 크지 않을 수도 있을 것 같습니다. 오히려 상품 C를 선택하는 것이 안정적으로 보이기도 합니다.

물론 이렇게 저렇게 뜯어보다보면 어떤 지표를 사용하고 어떤 시각으로 보느냐에 따라서 귀에 걸면 귀걸이, 코에 걸면 코걸이아냐? 라는 생각이 들 수 있습니다. 저 또한 책에서 한 가지 사례에 대한 여러 해석을 보고 보고 있으면 '도대체 답이 뭐지? 어떤 기준으로 의사결정을 해야하는거지?' 라는 생각이 들었습니다.

그런 불편한 감정을 이해하는 듯, 작가는 여기서 계속 '뭐가 정답일까?'라는 생각을 버리라고 말합니다.

같은 데이터라도 어떤 기준으로 평가하는가에 따라서 그 결론을 달라질 수 있으니까요.

'이 사례에서는 어떤 평가가 중요할까? 어떤 설명이나 결론이 가능할까'라는 관점에서 생각하고, 필요한 기준을 선정해 활영해주길 바랍니다. 이 또한 데이터 활용해서 중요한 점 중 하나입니다.
-
다시 한번 말하지만, 데이터 활용 초기 단계부터 '무슨 말을 하고 싶고, 이에 대한 지표를 어떻게 평가할지'에 대해 충분히 숙고해야 잘 정리된 결론이 나올 수 있습니다.

비율과 추이로도 표현해보자.

비율과 추이로 표현했을 때의 이점은 다음과 같이 소개되었습니다.

1. 데이터 규모의 차이를 배제하고 변화율 자체만 주목할 수 있다.

2. 척도를 비율로 바꾸면 데이터가 컸을 때의 번거로움을 낮출 수 있다.

예를 들어, 인구규모로 그래프의 세로축 단위를 선택하여 연도별 인구 추이를 표현했다면, 해당 데이터에서는 어떠한 결론을 내기 어려울 수 있습니다.

데이터넥스트레벨 챌린지 1주차, 데이터 문해력

메구로구의 인구 추이를 규모가 비슷한 지역과 비교

메데이터넥스트레벨 챌린지 1주차, 데이터 문해력데이터넥스트레벨 1주데이터넥스트레벨 챌린지 1주차, 데이터 문해력차, 데이터 문해력'

'하지만 이것이 어떤 의미인지 여전히 알 수 없습니다.'

메구로구 인구 추이를 인접 구와 비교(비율)

변화를 비율로 나타냄으로써 인구 규모의 차이를 배제하고 변화율만 직접 비교할 수 있게 됩니다. 세로축에 인구 수 자체를 넣은 데이터는 그 값이 크기 때문에 비교하기 번거롭다는 문제가 있었습니다. 척도를 비율로 바꿀 경우, 그런 문제가 없어졌습니다.

메구로구 인구 밀도 추이를 규모가 비슷한 지역과 비교

어떤 지역의 인구가 많고 적은지는 그 지역의 면적과도 관련되어 있습니다. 면적이 더 넓을수록 그렇지 않은 지역에 비해 주거 공간을 확보하기 쉽기 때문입니다. 따라서 지역 면적 차이라는 요인을 제거하는 방법을 생각해볼 수 있습니다.

면적당 인구 밀집도를 나타내는 인구밀도로 비교하면 해당 지역이 얼마나 포화 상태에 가까운지 평가할 수 있는 것입니다.

메구로구의 인구 문제에서 채택한 접근법

주어진 데이터만으로 뭔가 해보거나 결론이 나올 때까지 이것저것 시도해보자는 식의 발상이 아니라, 보고 싶은 것이 무엇인지, 무슨 말을 하고 싶은지, 그 목적을 처음부터 정하고 작업에 임했습니다. 그리고 이를 위해 어떤 데이터를 어떻게 살펴보면 될지, 결과를 종합적으로 판단하여 결론을 내는 접근법을 취해보았습니다.
하나하나의 내용은 매우 단순해 보이지만 목적에 따라 데이터와 이를 보여주는 방식을 고려하고, 다른 결과와 조합하는 식의 여정을 통해 더욱더 입체적이고 깊이 있는 결론을 도출할 수 있었습니다.

노동 시간, 시간 외 근무 시간을 다룬 경우

이 경우에도 언제나 그렇듯 '무엇을 문제라고 생각할 것인가',

'어떻게 평가하는 것이 이 문제에 있어서 중요할까'를 먼저 생각해봐야 합니다.

"시간외 근무를 줄이고 싶다"라는 목적에 대해, 어떤 식으로 '시간외 근무 현황을 파악해서 평가'해야 할까요?

아무 생각 없이 무작정 부서별 시간 외 근무 시간 평균을 계산해 봤자, 알 수 있는 것은 그 부서 '전체'에 대한 평균값에 불과합니다.

평균을 구하고 그 값을 비교하는 시점에서 이미 '극단적인 상황에 부닥친 개개인에 대해 조처를 하기보다 부서 전체 평균을 낮춘다'는 전제가 성립한 것입니다.

이전 직장에서 2개의 매장에 대해 인력 관리와 매출/매입 업무를 담당 했었는데, 입구에서 가장 가까운 자여서 그랬는지 막내여서 그랬는지 현장에서 일하시는 분들이 고충을 꼭 저에게 얘기하곤 했습니다. 그 중 빠질 수 없는게 시간외수당 관련한 문제였는데, 본점에 자료를 보낼 때 시간외수당 시트를 사무실 직원과 3개의 현장 직원들을 전부 같이 보내다보니 상대적으로 업무 연장이 없는 날이 많은 직원들의 데이터와 합쳐져서 시간외근무 수당에 대해서 덜하게 느껴졌을 수 있겠다는 생각이 들었습니다.

당시에 평균을 내지는 않았지만, 스크롤을 내리며 보이는 숫자들로는 업무 과중이 다른 매장보다 크지 않게 느껴졌을 것 같습니다. 또한, 기본급의 차이로 직급별 시간 당 초과근무수당이 다르니, 비용을 처리하는 입장에서 각 매장이 지출하는 인건비가 비슷했다면 특정 매장에 주목할 필요성을 느끼지 못했을 것 같습니다.

이러한 모든 이유들로 본점의 직원은 특정 직원들의 업무 과중이 와닿지 않을 수 있습니다.

어떤 목적으로 시간 외 근무를 다룰지, 그 정의에 따라 현황을 파악하거나 평가하는 방식이 달라집니다.

당시 업무를 하며 부족함을 느꼈던 점들을 생각하며, 책에서 제시한 3개의 아이디어 중 하나의 컨셉을 골랐습니다.

목적에 이르는 적절한 접근법

- 같은 부서에서 시간외근무시간의 직원별분포 상태를 평준화하고자 한다.

(결과적으로 불공평하다는 불만이나 일부 직원에 대한 과다 부하 등을 줄이고 싶다.)

이 경우, 부서별 평균 시간외 근무에 대해 파악하는 것은 의미가 없게 됩니다. 그 대신, 부서 내 개인들의 '편차'를 나타내는 기준이 필요합니다.

단순히 부서에서 개인들의 시간 외 근무 시간의 차이가 큰 것이 문제라면, 각 부서별로 나타낸 막대가 가장 긴 곳(부서)을 그 원인으로 지목할 수 있을 것입니다.

당신이 현재 직면하고 있는 문제나 그 배경에 대해 전혀 모르는 제3자가 바로 앞에 있다고 상상하세요. 그사람에게 당신이 다루는 문제를 데이터로 설명하려면 무슨 데이터를 어떻게 보여주면 좋을까요? 상대방이 그 데이터를 보고 나서, “그렇군요! 확실히 문제가 있네요!" 라고말한다면 성공한 것입니다.

아마 위와 같은 분포표를 유관부서에 메일을 보낼 때 함께 첨부해 보내주었다면 근무 시간이 유난히 길었던 매장을 특정할 수 있고, 그 매장에서 업무과중이 일어나고 있다는 것을 한눈에 파악할 수 있었을 것 같습니다.

데이터를 공부할수록, 데이터를 추출하는 것, GA4를 보고 해석하는 것, 가설을 세우고 검증하는 과정, 다양한 툴을 사용하는 것도 중요하지만 데이터 문해력을 갖추기 전까지 차순위라는 생각도 듭니다. 어떤 직군이든 문제를 맞게 되고, 그 실제의 문제들을 문제가 맞다고 느껴지게 하는 것, 설득시키는 능력을 갖추는 것이 데이터 활용의 첫번째 단계인 것 같습니다.

물론 이렇게 깨달았다고 하더라도 현장에서 내가 이해한대로 업무를 하는 것은 아주 어려운 일일 것입니다.

만일 여러분이 직접 지금까지 배운 내용을 실행에 옮기려고 할 때 어렵다 느껴지고 막혔다면, 다음과 같이 '단순하게’ 생각해보는 것이 어떨까요? 해야 할 일은 단순합니다. 모든 것은 현재 상황과 문제를 객관적으로 보여주고 이해시키는 것부터 시작합니다. 이처럼 단순하게 생각하 고 나름의 답을 구해보세요.

데이터넥스트레벨 챌린지 1주차, 데이터 문해력

keyword

이오이

그저 똑같은 현대인으로서 느끼는 사유와 그 삶의 기록합니다.

구독자 31

작가의 이전글프로젝트를 막 끝낸 사람이 읽고 뜨끔했던 책다시, 발견 작가의 다음글