brunch

You can make anything
by writing

C.S.Lewis

by 정경문 Apr 16. 2024

사과가 한 개에 만원이라니

통계청은 어떻게 데이터를 정의할까? 소비자물가지수 데이터에 포함된 과일

사과 한 개에 1만 원이라니


요즘 물가가 정말 많이 올랐죠?

마트에 갔다가 과일 가격을 보고 깜짝 놀랐습니다.

특히 사과는 이제 임금님, 아니 부잣집 식탁에만 올라올 정도입니다.


그런데 옆에 딸기를 보니 좀 먹을만합니다. 5,900원에 세일을 하고 있네요. 그리고 옆에 수박이 있는데, 한통에 25,900원이랍니다. 반면에 오렌지는 10개 만원으로 예년 가격과 비슷하네요.


근데 궁금한 점이 있습니다.

물가가 3% 올랐다고 하는데, 왜 체감하는 가격은 2배 이상이 된 것일까요? 물가지수에 사과나 수박이 포함되지 않은 것은 아닐까요?


오늘은 통계청에서 제공하는 데이터 “소비자 물가지수”에 대해 알아보고, 이것이 우리가 먹는 사과나 딸기, 오렌지 등의 실제 가격을 반영하는지를 알아보면서 데이터에 대해 친해져 보기로 합니다.

통계청 홈페이지

인터넷 검색포털에서 통계청을 검색해서 통계청 홈페이지에 들어가 보겠습니다. 통계청에서는 다양한 데이터를 조사하고 발표하는데요. 고용, 인구, 물가 등이 여기에 해당됩니다. 오늘은 우리에게 친숙한 소비자 물가 동향을 살펴보면서 데이터에 대한 활용과 접근 방법을 공부해 보겠습니다.


자, 그럼 아래 파란색 글자인 "보도자료"로 가보겠습니다. 여기 2024년 3월 소비자 물가동향이 있네요. 또는 통합검색 창에서 “소비자 물가”라고 검색할 수도 있습니다.


보도자료를 클릭해 보시면, 다음과 같은 화면이 나옵니다.

2024년 3월 소비자물가동향


2024년 3월 소비자 물가동향 정보는 담당부서인 물가동향과 에서 조사하고, 2024년 4월 2일 게시하였습니다. 아래에는 첨부파일이 있습니다. 조금 있다가 열어보기로 하고, 아래를 글을 먼저 보겠습니다.


다음은 소비자 물가 동향에 대해 데이터를 분석한 결과를 요약해서 표현하고 있습니다.

전체적으로 3월 소비자 물가지수는 전월 대비 0.1%, 전년동월대비 3.1% 각각 상승


 전월비는 전기·가스·수도는 변동 없으며, 공업제품, 농축수산물, 서비스가 상승하여 전체 0.1% 상승했다고 요약되었네요. 그리고 전년동월비와 식료품, 생활물가지수, 신선식품지수 등에 대해 별도 언급하고 있습니다.


왠지 저희가 관심 있는 식료품과 생활물가, 신선식품을 알아보기 위해 이제 첨부파일을 살펴보겠습니다. 여러분들께서는 [pdf 미리보기] 2024년 3월 소비자물가동향.pdf 를 클릭해 주세요.


파일을 열어보시면, 가장 첫 페이지에는 통계조사에 대한 제목 2024년 3월 소비자 물가동향이 있습니다. 그리고 바로 다음 페이지로 스크롤을 내려보시겠습니다. “일러두기”라고 되어 있네요.


이것은 소비자 물가지수의 데이터를 수집하면서 데이터의 정의, 기준시점, 유의사항, 소수자리, 부호 등을 표현하고 있습니다. 오늘 말씀드리고자 하는 핵심 내용이 바로 가장 첫 페이지 일러두기에 담겨 있네요.


2024년 3월 소비자물가동향 통계 데이터 정의서




#1. 기준시점


우리가 초등학교 때 자를 사용해서 길이를 측정하는 방법을 배워서 알고 있습니다. 자로 길이를 재는 방법은 모두 기억하시죠? 다음은 초등학교 2학년 1학기 수학 교과서의 생활과 측정이라는 단원의 내용을 가져왔습니다.


우리는 어떤 물건의 길이를 잴 때, 자를 사용합니다. 왜 자를 사용할까에 대한 설명도 아마 기억하실 거예요. 손 한 뼘의 크기, 한 발자국의 크기 등은 측정하는 사람마다 다 달라요. 그래서 그 기준을 정한 것이 바로 "자"입니다. 자로 길이를 잴 때는 "어디서부터 시작하는지?"를 잘 살펴보아야 했어요.


나는 처세술 대신 데이터 분석을 택했다(저자 정경문)
데이터의 기준점이 어디인지 확인합니다.

두 개 이상의 데이터를 비교할 때는 기준점을 동일하게 맞춰줍니다.  소비자 물가지수의 기준시점도 마찬가지입니다.


"지수"는 특정시점을 기준시점 100으로 정하고, 그 값에 비교해서 다른 측정값들의 상대적인 크기를 나타내는 값입니다. 다시 말해서 값의 절대적 크기에 주목해서는 안됩니다.


여기서 소비자 물가지수의 기준연도가 2020년이라는 의미는 2020년의 물가를 100이라고 했을 때 얼마나 오르고 내렸는지를 알려주는 상대적인 데이터라는 것을 의미합니다. 두 번째 네모, 여기에 그 설명이 있네요.

매월 발표하는 소비자 물가지수는 가격변동을 측정하는 것으로 가격의 절대 수준을 나타내지 않는다


예를 들어, 아래 보시면, 지역별로 물가가 높다 낮다를 비교한다고 했을 때, 기준이 2020년의 전국 지수 대비해서 각 지역의 물가지수가 아니라, 각 지역은 해당지역의   기준시점 2020년=100 대비해서 오르고 내린 현재 시점의 물가지수 이기 때문에 지역 서로 간에 상대적인 비교는 불가하다는 뜻입니다.


그런데 헷갈리게 지수개편을 하는 이유가 뭘까요??

소비자물가는 대표품목과 가중치를 기준연도로 고정시켜 작성하는 지수로서, 시간이 지나면서 가구의 소비구조가 변화함에 따라 새로운 품목이 나타나기도 하고 사라지기도 하며, 품목 간 상대적인 지출액이 달라져 기준연도로부터 비교시점이 멀어질수록 현실을 보다 정확하게 반영하는데 한계가 생기게 됩니다.


따라서 지수의 현실반영도를 제고하기 위해 대표품목을 조정하거나 가중치를 변경하는 등의 개편작업이 필요합니다. 인지하셨죠? 데이터를 활용할 때는 기준시점이 중요하다는 사실을 인지하시면서 다음으로 이동해 보겠습니다.   




#2. 가중치

가중치의 기준연도는 2022년이다.


기준연도는 2020년이라고 이제 이해가 되었는데요

“가중치" 이것은 무슨 의미일까요?

소비자 물가지수를 구성하는 다양한 품목이 있을 텐데요. 이를 테, 식료품, 주류, 의류, 주택,이나 교통 같은 것들요. 이런 것들을 품목별 지수라고 하는데요. 전체 소비자 물가지수는 이러한 품목별 공급량과 가격을 고려해서 가중치를 계산하도록 하고 있습니다.


◦ 가중치란 무엇이며, 어떻게 정해지나요?

소비자물가 조사대상 대표품목의 가격변동을 종합할 때 단순평균하게 되면 소비생활에 미치는 영향이 품목마다 서로 다른 점이 반영되지 않습니다. 예를 들어 쌀가격이 10% 상승했을 때와 전기료가 10% 상승했을 때 가계의 소비생활에 미치는 영향이 같지 않을 것입니다.


이러한 점을 반영하기 위해, 각 품목이 가구의 소비지출에서 차지하는 비중을 가중치로 하여 가중평균함으로써, 소비자물가지수에 소비지출규모와 비례하는 영향을 주도록 하고 있습니다.


품목별 가중치는 가계동향조사의 소비지출항목을 기초로 품목별 매출액, 생산액 및 행정자료 등을 통해 산출됩니다. 다만, 개별 품목은 상품군의 가격흐름을 대표하도록 선정되어 포괄범위가 다르므로, 품목 간 가중치를 단순 비교하는 것은 적절하지 못합니다.


이것을 데이터로 보면 다음과 같습니다.

소비자 물가지수 지출목적별 등락률 및 기여도 (통계청)

전체 지수의 가중치가 1000이네요.

우리가 궁금했던 사과, 딸기, 오렌지, 수박은 식료품으로 140개 품목이고, 가중치는 전체 1000중에서 142 니까, 약 14% 수준이군요. 지수는 2020년 기준으로  124 이므로 2020년 대비 품목평균 24% 정도 올랐습니다.


그 외 의류, 주택, 보건, 교통과 통신, 교육, 서비스까지 품목, 가중치, 지수가 품목별로 조사가 되어 있네요. 바로 이것이 소비자 물가지수 데이터의 구성 즉 정의입니다. 이제 맨 마지막 페이지로 이동해 보겠습니다.   



#3. 데이터 정의


데이터가 담고 있는 의미가
무엇인지 알아보아요


데이터 대한 정의, 지표명을 명시함으로써, 데이터를 분석하고 활용하는 사람에 대해 혼란을 방지할 수 있습니다. 또한 통계에 대한 한계점을 인식하고 정확히 데이터를 활용하는 출발점이 될 수 있습니다.

데이터의 정의가 중요한 이유는 다음의 3가지로 요약해 볼 수 있습니다.

첫째, 데이터 의미 명확화

데이터를 정의함으로써 해당 데이터가 어떤 의미를 가지는지 명확히 파악할 수 있습니다. 예를 들어, "만 나이"라는 용어를 사용할 때, 이것이 실제로 과거 한국 나이인지 또는 다른 국가에서 사용되는 연령 체계인지 명확히 정의되어 있지 않으면 분석 결과가 왜곡될 수 있습니다.


만 나이라는 용어를 사용하더라도 이것이 정확히 과거 한국 나이인지 명확히 정의해야 합니다. 그렇지 않으면 다른 결과를 내고 다른 결론을 이끌 수 있습니다.


만 나이 ≠ 과거 한국 나이


둘째, 데이터 수집과 축적의 일관성 유지

데이터가 일관되게 정의되면 데이터 수집과 축적 단계에서의 일관성이 유지됩니다. 이는 데이터가 어떻게 수집되고 저장되는지에 관련이 있습니다. 예를 들어, 만 나이를 측정하기 위해 생년월일을 기준으로 계산한다고 가정해 봅시다. 만 나이의 정의가 일관되게 유지된다면, 생년월일 정보를 수집하는 방법도 통일될 것입니다. 이렇게 하면 데이터가 일관되게 축적되며, 분석 시에도 일관된 결과를 얻을 수 있습니다.


셋째, 분석과 해석의 정확성

데이터가 명확하게 정의되면, 다른 사람이나 동일한 데이터를 사용하는 다른 분석가들이 비슷한 결과를 얻을 수 있습니다. 예를 들어, 만 나이가 명확히 정의되어 있다면, 다른 분석가들도 동일한 계산법을 사용하여 같은 결과를 얻을 것입니다. 이렇게 하면 분석과 해석의 정확성이 향상되고, 결과물에 대한 신뢰도가 높아집니다.

이제 소비자물가 총지수 상승률과 체감물가상승률이 다른 이유를 이해할 수 있겠죠?

소비자물가는 위와 같이 선정된 대표품목(2020년 기준 458개)의 가격변동을 가중평균하여 산출되지만, 체감물가는 개별가구별로 구입하는 특정품목의 가격변동에 영향을 받습니다.


예를 들어, 주거 난방부문을 보면, 소비자물가에는 도시가스, 지역난방, 등유 등이 모두 포함되지만, 개별 가구는 이 중 하나만을 사용하므로 체감난방비가 다를 수 있습니다. 이 밖에도 체감 물가는 구입빈도, 비교시점, 가격상승한 품목에 보다 민감한 심리적 요인 등에 의해 달라 지기도 합니다.

소비자 물가지수의 개요 (통계청)

이렇게 이해하고 맨 마지막 소비자 물가지수의 개요 부록으로 가보겠습니다. 앞서 공부한 데이터의 정의가 바로 여기에 있습니다.


가장 먼저 소비자 물가지수의 개념을 정의하고 있습니다. 소비자 물가지수는 가구에서 일상생활을 영위하기 위해서 구입하는 상품과 서비스의 평균적인 가격변동을 측정한 지수입니다. 그리고 기준시점인 기준 연도는 2020=100으로 한다고 명시하고 있습니다. 소비자물가지수의 조사대상 또한 상품과 서비스 458개 품목을 대상으로 한다고 정의하였습니다.


이것이 네 번째로 말씀드리고자 하는 조사 대상과 조사하는 방법입니다.




4. 조사대상과 방법


테이터 활용에서 조사방법과 조사대상은 중요한 개념입니다. 조사방법은 크게 전수 조사표본 조사, 즉 샘플링 두 가지 방식으로 나눌 수가 있습니다.


먼저, 전수조사(또는 모집단 분석)는 모든 대상을 조사하는 방법으로, 모집단의 모든 개체를 포함하여 조사하는 방법입니다. 전수조사는 모든 개체를 분석하므로 표본 편향이나 샘플링 오차가 없지만, 비용과 시간이 많이 소요될 수 있습니다.


그렇기 때문에 표본조사를 많이 하는데요. 실제 우리가 얻을 수 있는 데이터들은 표본조사를 통해 수집한 경우가 대부분입니다.  표본조사란 모집단 중 일부만을 조사하는 방법으로, 대표성을 가진 적절한 표본을 추출하여 분석합니다. 이를 통해 모집단의 특성을 추정하고자 하는 방법인 것이죠.


표본조사는 비용과 시간을 절약할 수 있기는 하지만, 적절한 표본 선택, 즉 조사대상을 선정하는 것이 중요합니다. 일단 전수조사보다 표본조사가 훨씬 현실적이고 합리적인 방법이라는 것은 알더라도, 남은 문제가 있죠? 과연 어떤 식으로 표본을 추출할 것인가? 에 대해 알아보겠습니다.


다음은 표본을 조사하는 대표적 5가지 방식입니다.

무작위 추출(Random Sampling)
체계적 추출(Systematic Sampling)
비례 추출(Stratified Sampling)
다단계층화 추출(Stratified Sampling)
군집 추출(Cluster Sampling)


조사방법과 함께 조사대상 또한 중요한 요소입니다. 소비자 물가지수에서 조사대상은 대표품목입니다.


그러면 물가의 대표품목을 선정하는 기준은 무엇일까요? 소비자물가는 가구부문 전체의 평균적인 물가변동을 측정하기 위해 기준연도 가계동향 조사 결과에서 항목별 월평균 소비지출액이 전체 월평균 소비지출액의 1/10,000 이상인 항목으로서, 그 항목에 해당하는 상품군의 가격흐름을 대표할 수 있고, 시장에서 가격조사를 지속적으로 수행할 수 있는 상품을 선정하고 있습니다.


이처럼 조사 대상을 명확히 정의하고 선택하는 것은 분석 결과의 신뢰성과 유용성을 보장하는 데 중요합니다. 잘못된 조사 대상을 선택하면 분석 결과가 왜곡될 수 있으며, 분석의 목적을 달성하기 어렵습니다. 조사방법과 대상이 일반화될 수 없다면 데이터를 신뢰할 수 없는 문제가 생기게 됩니다.


이렇게 조사방법과 조사대상은 데이터 분석에서 중요한 개념으로, 적절한 선택과 정의가 분석의 효과성과 신뢰성을 결정한다는 점 있지 않으셨으면 좋겠습니다.


지금까지 우리는 1. 기준시점 2. 가중치 3. 데이터 정의 4. 조사방법/기간/대상(샘플)에 대해 알아보았습니다.


앞서 궁금증을 가졌던 사과나 딸기, 오렌지 등의 실제 가격을 반영하는지에 대한 해답이 여기 있습니다.


물가 품목에 사과와 수박은 있고,
딸기와 오렌지는 없네

소비자 물가지수를 여러 단계로 나누어 분류한 품목에서 과일은 사과, 포도, 귤, 수박, 바나나 5가지입니다. 이제 왜 물가 데이터가 우리가 체감하는 가격과 다른지 이해하셨을까요? 이렇게 데이터가 주는 기능과 한계점에 대해 인식하는 것이 데이터 활용의 시작입니다.


데이터 문해력은 우리 주변의 현상과 이를 대표하고 있는 표본샘플 데이터의 차이, 보이지 않는 데이터의 한계와 기능에 대해 이해할 수 있게 해 줍니다.


한국은행 총재도 금리도 오르는 사과 값을 잡을 수는 없습니다. 데이터는 알고 있습니다 사과는 잘못이 없다 것을요.

왜 사과가 사과해



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari