brunch

You can make anything
by writing

C.S.Lewis

by 정경문 Jul 08. 2023

4. 쓸데없는 힘은 빼고, 데이터에 힘주기

데이터 출처, 조사방법, 샘플크기 등 데이터 소스에 대한 명확한 표현

데이터 분석 리포트 작성 프로젝트의 마지막 4부입니다. 

해당 콘텐츠는 브런치스토리에서만 무료로 만나보실 수 있습니다. 


데이터 분석 리포트(Data Analysis Report)


데이터 분석 리포트 작성방법은 크게 1. 논리구조 2. 데이터 분석 프로세스 3. 인사이트 도출 4. 데이터 소스 정리로 나눠서 설명할 수 있습니다. 오늘은 그중 "데이터 소스 정리"에 대해 함께 알아볼 차례입니다.

333


3이라는 3개의 숫자가 의미하는 바는 무엇일까요?

바로 2023년 2월에 대한민국 통계청에서 발표한 '21년 임금근로자의 평균소득 333만원 입니다.


산업별 평균소득은 금융·보험업이 726만 원으로 가장 높으며, 숙박 및 음식점업이 162만원으로 가장 낮았습니다. 그리고 성별 평균소득은 남자 389만 원, 여자 256만원으로, 남자가 여자의 약 1.5배로 조사되었습니다. 또 연령별로는 40대의 평균소득이 414만 원으로 가장 높은 것으로 나타났습니다. 자녀 교육 등 돈이 가장 많이 들어가는 시기에 소득이 높다는 점은 다행인지 모르겠습니다.


제가 앞서 말씀드린 평균소득은 조사한 집단을 산업별/성별/연령별로 다르게 할 때마다 값이 달라졌습니다. 

만일 조사 대상에 금융·보험업종인원이 많다거나, 또는 40대 인원이 많았다면 어땠을까요? 아마도 평균소득은 333이라는 숫자보다 더 커졌을 겁니다.

2021년 임금근로일자리 소득(보수) 결과 ('23.2.28 통계청)


마찬가지로 부동산 가격은 어떨까요? 우리가 뉴스에서 통계로 접하는 부동산의 가격은 전국의 모든 집을 대상으로 조사한 결과일까요? 아니면 주요 도시의 아파트 가격을 조사한 가격일까요? 


이렇게 소득도, 부동산도, 다른 분야도 데이터의 조사방법이나 대상에 따라 그 결과가 달라질 것입니다.

결론적으로 우리는 데이터 분석 콘텐츠를 받아들이거나, 데이터 분석을 수행할 때 다음 7가지에 주의해야 합니다. 

지표, 정의, 출처, 기준,
조사방법, 조사기간, 샘플크기



1. 데이터 정의와 지표명


앞선 임금근로자일자리 통계 데이터에 대한 첫 페이지에는 다음과 같은 페이지가 있습니다.

바로 데이터의 정의, 용어의 정의 그리고 작성대상과 작성 방법에 대한 구체적인 설명입니다.


2021년 임금근로일자리 소득(보수) 결과 ('23.2.28 통계청) 
임금근로일자리란?
임금을 대가로 재화나 용역을 생산하는 근로자가 점유한 기업체 내 고용의 위치를 말함

과 같이 데이터의 정의에 대해 명확히 해주어야 혼란이 없습니다. 이를 테면, 작가와 같은 프리랜서는 세법상의 소득 근로자가 아니며, 농가 근로자와 같이 사업장이 일정하지 않은 근로자도 통계에서 제외되었다는 점을 명확히 하고 있습니다. 이렇게 데이터 대한 정의, 지표명을 명시함으로써, 데이터를 분석하고 활용하는 사람에 대해 혼란을 방지할 수 있습니다. 또한 통계에 대한 한계점을 인식하고 정확히 데이터를 활용하는 출발점이 될 수 있습니다.



2. 데이터 출처와 기준


정부는 지난주인 7월 4일(화) 청와대 영빈관에서 윤석열 대통령 주제로 『2023년 하반기 경제정책방향』을 발표했습니다. 그리고 정부에서 발표한 이 보고서에는 다양한 경제 지표에 대한 데이터 분석 결과가 한가득이었습니다. 그리고 여기에는 빠지지 않고 표시한 부분이 있습니다. 바로 데이터의 출처입니다.


「2023년 하반기 경제정책방향」 발표(2023.7.4)

「2023년 하반기 경제정책방향」 발표 (2023.7.4 기획재정부) 

위에서 보시는 바와 같이 "주요국 물가 상승률 추이" 데이터 시각화 결과를 표현하면서 아래 "*출처 : 각국 통계청"이라고 언급하었습니다. 이와 같이 모든 데이터 분석 시각화 아래는 Trendforce(6월), Gartner(6월)과 같이 시장조사 컨설팅 전문기관의 이름과 조사기간도 함께 보입니다.


그리고 자세히 보시면 이 물가 상승률은 특정 시점('21.1 지점)에서 동시에 출발해서 그 변화 추세가 서로 다르게 움직이는 것을 보실 수 있습니다. 이 부분이 바로 데이터의 기준(시점)입니다. 둘 이상의 데이터를 비교할 때는 그 기준 시점을 통일 해줘야 합니다. 마치 우리가 다양한 물건의 길이를 잴 때, "자"라는 측정장치의 "0" 시점에서 모든 물건의 끝을 가져다 대는 것과 같습니다.


우리나라 경제정책방향에 대한 중요한 리포트이고, 데이터를 어떻게 분석하고 목적에 맞게 인용했는지 꼭 참고해 주시기 바랍니다.


「2023년 하반기 경제정책방향」 발표



3. 조사 방법/기간/대상


① 조사방법

조사방법은 크게 2가지로 나눌 수 있습니다. 조사대상 모두를 조사하는 "전수조사"와 전체 집단을 대표하는 샘플(표본)을 뽑아 조사하는 "표본조사"가 있습니다. 인구조사와 같이 우리가 실제로 모집단 전체를 조사하는 것은 매우 어렵거나 시간과 비용이 많이 들게 됩니다. 


전수조사 vs. 표본조사


따라서 대부분은 표본을 사용하여 모집단을 대표하는 데이터를 얻습니다. 이때 올바른 표본을 추출하는 것이 매우 중요합니다. 그런데 어떤 추출방법을 사용하느냐에 따라 결과가 달라질 수 있기 때문입니다. 그래서 다양한 추출방법이 개발되었습니다. 무작위 추출(랜덤), 체계적 추출(일정 간격), 비례 추출(집단 비율에 맞춰서), 다단계층화 추출(집단 특성별로), 군집 추출(대표하는 집단만 추출)이 있습니다. 


2021년 임금근로일자리 소득(보수) 결과 (2023.2.28 통계청)


② 조사기간

다음으로 조사기간입니다. 아이스크림 판매량을 조사하면서 1~6월 데이터만 조사한다면 어떨까요? 또는 꽃집의 매출을 조사하면서 6~12월을 조사한다면요? 아이스크림의 주요 판매 기간인 여름시즌, 그리고 꽃의 수요기간인 졸업, 가정의 달을 놓치게 됩니다. 그래서 이러한 계절성 요인에 대한 가중치를 주는 것을 데이터에 Seasonally Adjusted라고 합니다. 앞서 정부 보고서에서 Trendforce(6월), Gartner(6월)과 같이 시장조사 컨설팅 전문기관의 이름과 조사기간도 함께 보았습니다.


최소 하나의 주기 데이터
One cycle at least 

조사기간이 길어질수록 보다 정확한 대푯값을 얻을 수 있습니다. 그럼 각 지표마다 최소 얼마동안의 데이터를 조사해야 할까요? 그에 대한 답은 "최소 하나의 주기(Cycle)"이 완성된 데이터입니다. 기업의 수립, 도약, 성장, 정체, 소멸처럼 사람도 제품도 설비도 하나의 주기 데이터는 최소한 조사기간에 포함되어야 합니다.


③ 조사대상

조사방법이 아무리 체계적이고 과학적이라고 해도, 어느 정도의 절대적인 숫자가 되지 않으면 조사결과에 대한 신뢰도는 낮을 수밖에 없습니다. 최소한의 샘플의 개수는 30개 이상이어야 합니다. 그래야 정규분포를 이루게 됩니다.

30개 이상


예를 들어 전국 중학생의 수학성적 조사를 위해 다단계 층화추출 방법을 사용했다고 하겠습니다. 먼저 시·도별로 학교를 그룹으로 나눕니다. 그리고 각 시·도에서 몇 개의 학교를 랜덤 하게 선택하여 조사합니다. 이때 하나의 샘플을 조사한다면, 결과가 정확할 수 없습니다. 예를 들어, 하필이면 공부를 잘하는 반이 그 지역의 대푯값으로 뽑힐 수도 반대의 경우가 될 수도 있습니다. 



4. 데이터 분석 리포트 노하우를 정리하며


지금까지 데이터 분석 리포트 작성방법은 크게 1. 논리구조 2. 데이터 분석 프로세스 3. 인사이트 도출 4. 데이터 소스 정리로 나눠서 알아보았습니다. 이것을 데이터 분석 리포트 작성에 표현하면 다음과 같습니다.


내가 말하고자 하는 바인 결론 또는 목적을 가장 먼저 생각합니다. 그리고 데이터에서 얻어낸 인사이트를 통계적, 분석적 지식에 의거하여 Insight를 결과로 정리합니다. 이때 Insight 도출에 쓰이는 주요 방법은 크기/추세/편차/비율로 소개드렸습니다.


그리고 다양한 데이터 시각화 스킬을 가지고, 부분(Color/Label/Sum up/Drill Down)과 전체(Compare/Relation/Distribution)로 나눠서 표현했습니다. 마지막으로 오늘 배운 데이터 소스에 대해 

데이터 정의와 지표명, 출처와 기준시점, 조사방법/기간/대상(샘플)을 데이터에 표현함으로써 데이터의 신뢰도를 높였습니다.


이상 데이터 분석 리포트의 강의 내용은 여기까지입니다. 많은 분들께서 다양한 데이터를 활용할 때, 아무쪼록 올바른 데이터를 올바른 방법으로 분석하고 활용하셨으면 좋겠습니다. 감사합니다.


매거진의 이전글 2. 데이터에서 결론까지
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari