brunch

You can make anything
by writing

C.S.Lewis

by 정경문 May 12. 2022

21 데이터를 꿰뚫어 보는 4가지 기술

평범한 직장인도 데이터를 읽어내는 날카로운 눈을 가질 수 있다.


아빠, 치킨이 한국음식이야?

얼마 전에 아들이 치킨이 한국 음식이냐고 물었습니다. 저는 '아니야. 치킨은 미국꺼지'라고 답을 했는데 좀 더 찾아보니 아래와 같은 기사가 나왔습니다.  

외국인이 가장 좋아하는 한식 1위, 가장 자주 먹는 한식 1위  : 한국식 치킨

2021년 8~9월 뉴욕과 파리, 베이징 등 주요 도시 주민 8500명을 대상으로 설문조사를 한 결과, 외국인들이 가장 선호하는 한식 메뉴는 ‘한국식 치킨’이 1위(16.1%)를 차지했다. (중략)

한식진흥원에 따르면 지난해 10월 우리나라 성인 1500명을 대상으로 설문조사를 한 결과, 응답자의 45.1%는 “치킨은 한식이 아니다”라고 답했다.

(출처 : 헤럴드 경제)

맙소사! 치킨은 우리도 좋아하고, 외국사람들도 좋아하는 한국 음식이었습니다.

저희도 거의 일주일에 한 번씩은 치킨을 시켜서 아이들과 오붓한 시간을 보냅니다. 그런데 이러한 치킨이 점점 부담스러워지기 시작했습니다. 아마 많은 분들이 느끼셨을 겁니다. 뉴스에서도 연일 치킨 가격을 가지고 말이 많아졌습니다.



#01. 물가가 너무 올랐어요 역대 최고 물가상승률


소비자 물가지수 변동률 8.3%


2022년 5월 12일 발표한 4월 미국의 소비자 물가지수8% 대인 것으로 나타났습니다. 2022년 3월 8.5% 대비 소폭 하락하였지만 8.3%로 사람들의 기대보다 여전히 높았습니다.


소비자 물가지수란 치킨 등 외식비를 포함하여 전세, 월세, 자동차 휘발유, 아파트 관리비, 학원비 등 가게가 소비하기 위해 구매하는 재화와 용역의 대표 품목의 평균 가격을 측정한 데이터입니다.

보통 전년 동월 대비 기준으로 증감률을 제시하는데, 2022년 4월 소비자물가지수(예, 108만 원)는 바로 전 해인 2021년 4월 소비자 물가 평균 가격(예, 100만 원) 보다 얼마나 증가했는지(예, 8% 증가)를 보여줍니다. 우리나라 역시 2022년 4월 소비자 물가지수 변동률이 4.8%로 10년 만에 역대 최고 물가상승률을 기록하고 있습니다. 어려운 얘기는 다 필요 없고, 물가가 오른다는 것은 우리의 지갑이 얇아지고 삶이 팍팍해진다는 것을 의미합니다.


(좌) 미국소비자물가지수(출처:세계일보), (우) 한국 소비자 물가지수 (출처: 연합뉴스)


그중에서도 특히 치킨이 대표하는 우리나라의 외식 소비자 물자 지수는 6.6% 가 올랐습니다. 이는 1998년 7.0% 이후 24년 만에 최고 수준의 오름폭입니다. 기억하시겠지만 1998년은 우리나라가 국가부도위기에 처해 IMF 구제금융 요청(1997년 12월 3일 ~ 2001년 8월 23일)을 한 역사상 가장 힘들었던 시기였습니다.


다양한 시대적 상황과 역사? 가 담긴 치킨과 함께 오늘의 데이터 문해력을 늘려가 보도록 하겠습니다.



#02. 데이터를 읽어내는 4가지 능력


오늘은 데이터에서 특징을 파악하여 데이터를 읽어내는 4가지 능력을 길러보도록 하겠습니다.


크기, 추세, 편차, 비율



1) 데이터 값의 크기 비교


치킨 값이 왜 올랐는지를 비교하기 위해서 치킨을 만드는 데 필요한 식재료값, 배달수수료, 포장재와 인건비 데이터를 살펴보게 됩니다. 그리고 그 가격들이 예전 대비 얼마나 올랐는지를 알아보고  크기순으로 나타냈습니다.


복잡해 보일 수 있는 뉴스 기사의 원래 데이터를 간단히 요약하여 치킨 원가를 아래와 같이 나타냈습니다.

치킨의 원가 중에서 식재료는 2년 전 대비 약 80%, 배달수수료는 70%, 포장재는 40%, 인건비는 6% 정도로 요약할 수 있었습니다. 이처럼, 데이터 값의 크기를 비교할 때는 아래와 같이 막대그래프를 사용하여 서로 간의 비교를 할 수 있습니다.


막대그래프를 보면 가장 값이 많이 오른 원가를 알 수 있습니다. 좀 더 구체적으로 알고 싶으신 분들을 위해 식재료의 주요 구성 요소인  닭, 식용유, 밀가루 3가지를 보겠습니다.  3가지 재료에 대한 가격변동률을 조사한 경우, 여기서 2020년 대비 닭값은 41.6%, 식용유 값은 84.1%, 밀가루는 77.6%로 식용유의 가격이 매우 높아졌습니다.


이미지 및 데이터 출처 : 동아일보 "치킨 한 마리 2만 원 시대"



2) 데이터 값의 추세 비교


닭고기 값이 많이 올랐다고 하면 전년과 올해의 평균 가격을 비교해보려는 분들이 많으실 겁니다. 평균이라는 것은 모든 값을 다 다한 뒤 데이터의 개수로 나눠준 하나의 지표입니다. 닭고기 값을 비교할 때 평균을 사용했다는 말은 "평균"이라는 지표에 한하여 값의 크기가 크고 작음을 판단할 수 있을 뿐입니다. 잘 이해가 안 되신다면 다음 실제 사례를 보여드릴게요.


(2021년)    (2022년)
5,462원 ≒ 5,457원


다음 실제 연평균 닭고기의 가격을 비교해보겠습니다. 닭고기 1kg 당 평균 가격은 2021년 5,462원이고, 2022년 5,457원입니다. 둘을 비교해 봤을 때 차이가 없는데, 왜 닭고기 가격이 문제라는 것일까요? 오히려 2021년 가격(5,462원) > 2022년(5,457년)이니 닭고기 가격은 문제가 없다 라는 결론을 내릴 수 있습니다.


하지만 데이터 값의 크기가 아닌 데이터 값의 "추세"를 확인해 보겠습니다. 2021년 월별 닭고기 1kg 당 가격은 연초에서 연중으로 갈수록 서서히 안정화를 이루는 추세입니다. 하지만 2022년 가격은 1월부터 4월까지 가파르게 상승하고 있는 것을 보실 수 있습니다.




3) 데이터 값들이 얼마나 자주 나타나는가를 나타내는 편차 


치킨 값을 구성하는 요소를 닭고기, 식용유, 밀가루 3가지를 확인해보았습니다. 그런데 이 3가지 값 중에 변동폭이 가장 커서 정부에서 나서서 가격을 조정해야 하는 품목은 어느 것일까요? 단순히 가격이 제일 비싼 식용유일까요? 아니면 원가가 가장 많이 나가는 닭고기일까요? 물론 어떤 결론을 내릴지는 여러분들의 선택에 달렸습니다. 그렇다면 데이터의 어떤 면을 봐줘야 할까요?


이번에는 각 데이터들의 오르락내리락하는 성격을 살펴보기로 해요.

갑자기 기분이 좋아졌다가 안 좋아졌다가 하는 사람이 있다고 가정해볼게요. 그리고 기분이 전혀 변하지 않는 사람도 있고요. 어떤 사람이 더 심각한 문제일까요? 기준은 여러분들이 정하는 것입니다. 내가 마음이 편하고 싶을 때는 기분이 크게 변하지 않는 사람과 함께하고 싶고, 나도 즐겁고 싶을 때는 쉽게 업되는 사람과 있으면 더 즐겁겠죠?



데이터의 양이 매우 많거나 오르락내리락 심한 변화를 보인다면 데이터 값의 크기를 그린 그래프만으로는 그 정량적인 추세를 파악하기 어렵습니다. 이럴 때에는 '편차'라는 지표를 사용합니다.


편차라고 하는 것은 데이터들이 오르락내리락 변화가 심해서 지그재그 모양의 선 그래프가 그려진다고 이해했다면 좀 더 아래 그래프를 보시는 게 좋습니다. 편차는 어떻게 변하는지가 아닌, 각 데이터 값이 얼마나 자주 나타나는지 분포에 대한 의미입니다.


아래 그림에서 가로축은 데이터 값의 크기이고, 세로축은 데이터의 빈도 (데이터가 몇 개인가)를 나타냅니다.

그래서 평균값(가운데 선) 근처에 데이터 개수가 가장 많고 멀어질수록 그 개수가 줄어드는 특징이 있습니다.


 그래서  왼쪽은 ‘편차가 크다(=표준편차가 크다)’, 오른쪽은  ‘편차가 작다(=표준편차가 작다)’고 말할 수 있습니다.

그렇다면 편차가 크다는 말은 어떤 의미일까요?

예를 들어 닭고기의 가격의 편차가 크다는 말은 닭고기 가격이 매월 변동폭이 커서 불안정하다는 뜻입니다. 그렇다면 정부의 입장에서 가장 문제가 되는 치킨의 재료인 '닭고기' 가격을 안정화시키는 정책을 펴겠죠.


하지만 반대로 밀가루 회사의 입장에서는 월드컵, 올림픽 기간 등 특수에도 가격이 안정될 필요가 있는지? 다른 재료에 비해 물가 상승분이 덜 반영되고 있지는 않은지? 다시 살펴볼 것입니다.

아까 보여드린 기분의 굴곡에서 처럼 무조건 기분의 편차가 크다고 나쁘고, 기분의 편차가 작다고 좋다고는 할 수 없는 것입니다. 그러니 반드시 좋고 나쁜에 대해 평가를 내려야 하는 것은 아닙니다.


품질의 편차가 크다라고 하는 경우에 품질을 안정화시킬 수 있는 반면에, 편차가 크기 때문에 개선의 여지도 크고 해당 제품이나 생산에 잠재력이 더 있을 수 있다는 뜻이기도 합니다.


우리가 초반에 배운 것처럼 "나는 무슨 말이 하고 싶은가?(목적), 어떤 데이터를 활용할 것인가?"에 대해 목적 중심의 사고를 해야 원하는 결론을 얻을 수 있습니다.



4) 전체에서 각 데이터가 차지하는 비율


치킨 한 마리 당 가격이 3만 원은 돼야 한다


한 치킨 프랜차이즈 대표의 말이 이렇게 논란이 되었다. 그래서 여러 뉴스 기사에서 가장 먼저 한 일이 있습니다. 바로 치킨 한 마리의 원가 비율을 계산한 것입니다.


치킨 한 마리 1만 8천 원에서 닭고기, 식용유, 밀가루 등 원가는 1만 원, 라이더와 배달앱 중개수수료가 약 5천 원 규모입니다.  이를 제외하고 임대료, 세금 외에 수익이 되는데 이것이 현저히 떨어진다는 게 분석 결과입니다. 이렇듯 치킨 한 마리를 나눌 때 우리는 식재료값, 배달수수료 등으로 나눴고 그중 가장 큰 비중을 차지하는 식재료에 대해, 그다음 배달앱에 대해 문제를 정의했습니다.


전체에서 각 데이터 값이 차지하는 비율을 바라볼 때 어디에 집중을 해야 하는지를 결정할 수 있게 됩니다. 이렇게 비율을 바라볼 때는 원그래프를 사용합니다. 원 그래프의 경우 각 조각이 많아질 경우 해당하는 부분을 표현하기가 어렵습니다. 그래서 데이터의 개수가 10개 넘지 않아야 합니다. 꼭 원이 아니라 할지라도 "면적"을 나타내는 다양한 그래프가 많습니다.



이번 시간에는 ‘데이터별 특성을 파악하여 데이터를 활용하는 4가지 방법인 크기, 추세, 편차, 비율을 정리했습니다. 치킨 가격을 이루는 다양한 데이터 사례와 같이, 같은 데이터라도 어떤 방법으로 읽어내는가? 에 따라 그 결론이 달라졌습니다.


'멘토님, 그러면 평균으로 비교하는 것은 옳지 않네요.' 또는 '시간에 따른 데이터는 무조건 선 그래프로 표현해보아야 하나요?'와 같은 질문이 종종 있습니다.  왜냐하면 우리는 항상 정답을 찾는 경향이 있어서입니다. 우리가 한 명 한 명이 생김새가 다르고 성격이 다르듯이, 데이터도 타입과 구조가 다르고, 다루는 방식이 다르다는 점을 알아주셨으면 좋겠습니다.

또한, 어느 한 기준으로만 좁혀야 하는 것도 아닙니다. 복수의 기준을 사용해서 이들을 조합하고 결론을 낼 수도 있으며, 이 경우 더욱더 입체적이고 깊이 있는 결론에 도달할 가능성도 큽니다.

‘이 데이터에서 어떠한 결과를 도출할 수 있을까 무슨 말을 하지?’라고 생각해보고, 활용방법을 결정해주시기 바랍니다.

머리를 많이 쓴 날은 치킨이 최고입니다!(치킨 뒷 광고 없어요)

매거진의 이전글 20 생존을 위한 데이터 분석
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari