brunch

You can make anything
by writing

C.S.Lewis

by 정경문 May 28. 2023

3. 데이터에서 인사이트를 찾아라.

데이터 분석 리포트 작성방법 -『 2023 부동산 전망 리포트 』

데이터 분석 책 냈다고?
그럼 지금 집을 사야 돼? 말아야 돼?


출간 소식 이후, 축하한다는 말과 함께 가족 중에 한 명으로부터 "부동산" 질문이 들어왔습니다.

데이터 분석을 통해 집값을 예측해서 저점에 매수를 하고자 하는 목적이 있는 물음입니다.


서울 집값 1년 만에 상승 전환... 추세 반등? 아니면 급매 소진?


얼마 전 뉴스기사에 위와 같은 타이틀이 나타났습니다. 분명 같은 데이터인데 하락을 말하는 유튜버도 있고, 상승을 말하는 유튜버도 있습니다. 누구의 말이 맞는 것일까요?


데이터는 조사과 측정을 통해 얻어진 값, 자료 또는 근거가 되는 사실입니다. 이러한 데이터는 객관적이기 때문에 데이터 그 자체는 거짓말을 하지 않습니다. 다만 그것에서 인사이트를 도출하는 방법이 잘못되었거나, 데이터의 정의부터 기준, 조사방법에 대한 이해가 부족했기 때문입니다. 여기에는 말하는 사람이 전하고자 하는 목적이 애초부터 반영되어 있습니다.


오늘은 이러한 질문에 답을 하기 위해 데이터 분석 리포트 작성방법에서 "인사이트 도출"에 대해 알아보겠습니다. 글(강연)의 마지막에는 공공기관에서 발간한 『 2023 부동산 전망 리포트 』를 리 시간을 갖도록 하겠습니다.



데이터 분석 리포트(Data Analysis Report)


데이터 분석 리포트 작성방법은 크게 1. 논리구조 2. 데이터 활용 프로세스 3. 인사이트 도출 4. 데이터 소스 정리로 나눠서 설명할 수 있습니다. 오늘은 그중 "인사이트 도출"에 대해 함께 알아볼 차례입니다.


데이터에서 인사이트를 도출하는 방법은 많이 있습니다. 하지만 기본적으로 다음의 4가지 방법을 통해 인사이트를 도출합니다. 본 방법은 "나는 처세술 대신 데이터 분석을 택했다" 14장. 02 데이터를 읽어내는 4가지 기술을 데이터 분석 리포트에 맞게 재구성하였습니다.


지난 시간에 알아본 바바라 민토의 피라미드 구조에서 데이터 분석 리포트를 작성하는 구조를 아래와 같이 만들었습니다. 첫 번째 슬라이드에서 핵심 메시지를 전달하고, 이를 근거가 되는 슬라이드들이 서로 중복이나 누락 없이 주장을 뒷받침하고 있습니다. 이번에는 각 뒷받침 주장의 슬라이드에 대해 구체적인 근거로써 데이터가 올 차례입니다. 슬라이드 간의 관계를 표현하면 아래와 같습니다.

뒷받침 주장은 데이터가 반드시 근거로서의 역할을 할 때 신뢰를 줄 수 있습니다. 이러한 데이터는 하나일 수도 있고, 여러 개일 수도 있습니다. 또 같은 데이터이지만 시점, 지역, 구분집단 등에 따라 A, A', A'' 등으로 나눠 볼 수 있습니다.


데이터 분석 리포트를 작성할 때는 뒷받침 주장에 대한 근거들이 명확한 데이터로 뒷받침되고 있는지 스스로 질문합니다. 그리고 데이터 분석의 결과로 도출한 인사이트가 내가 주장하는 바와 일치해야 합니다. 만약 일치하지 않는다면 주장은 잘못된 것입니다. 바로 이 부분이 데이터가 보여주는 현상을 무시하고, 말하는 이가 의도적으로 왜곡할 수 있는 포인트입니다. 


반대로 데이터의 출처, 시점, 기준, 조사방법 등 정의가 명확하고, 실력 있는 데이터 분석 전문가에 의해 인사이트가 도출되었다면 우리는 이렇게 말합니다.

올바른 데이터로부터, 올바른 결과를 도출했다


이제 데이터를 정확히 이해하고, 데이터가 말하는 사실을 전달하는 4가지 방법 크기, 추세, 편차, 비율에 대해 알아보겠습니다.



I. 크기 


크기는 데이터의 양이나 규모를 나타내는 요소로, 인사이트를 도출하는 과정에서 중요한 역할을 합니다. 크기를 통해 주어진 현상의 중요도를 이해할 수 있습니다. 크기를 도출하기 위해 다양한 방법을 사용할 수 있습니다. 대표적으로 크기에서 인사이트를 찾을 때는 "기준"이 있어야 합니다. 


산불피해 면적
190 ㎢  vs. 여의도 57 배


이 기준은 다양하게 적용될 수 있습니다. 해당 데이터의 평균, 시계열 데이터인 경우 전년도 동월 대비 크기, 동종사나 업계의 평균의 크기를 비교할 수 있습니다. 크기를 나타내는 데이터에는 빈도, 양, 면적, 거리, 시간, 용량 등이 있습니다.


01 익숙한 대상과의 비교 


이때 "기준"은 듣는 사람이 이해하기 쉬운 대상이어야 합니다. 크기를 나타내는 첫 번째 종류인 면적에는 

일반적으로 사람들이 이해하는 크기의 "여의도" 면적 또는 "축구장" 면적이 있습니다. 

여의도는 방송국과 금융권이 모여있는 서울 내의 섬으로 우리나라 사람이라면 누구나 알고 있는 익숙한 대상입니다.  여의도 면적의 건물과 도로 등의 시가지 면적은 2.9 ㎢이고 주차장, 고수부지 면적을 더하면 약 3.3 ㎢ 로 100만 평입니다. 아파트 34평과 같이 "평"이라는 면적의 개념에 익숙한 우리나라 사람이 데이터 분석 리포트의 듣는 이라면 여의도 면적이 잘 맞습니다.


산불 면적 데이터의 크기를 우리가 익숙한 여의도 면적과 비교하여 인포그래픽으로 표현하면 다음과 같습니다.


크기에 해당하는 다른 측정 단위는 거리, 시간, 용량 등이 있습니다.  거리의 경우, 데이터의 크기를 이해하기 위해 지구를 몇 바퀴 돌 정도의 거리로 비교할 수 있습니다. 예를 들어, "한 번의 충전으로 446km를 갈 수 있다고 발표되었지만, 실제로는 220km밖에 갈 수 없었다"는 테슬라의 배터리 성능에 대한 뉴스기사가 있습니다. 이것은 서울과 구미를 가는 거리(240km)와 크기를 비교하면서 데이터를 달리 표현할 수도 있습니다.


한 번 충전으로 서울~부산 갈 줄 알았는데,,
구미에서 충전필요

02 시간과 공간 데이터 비교


다음은 한국건설산업연구원에서 발표한 2023 부동산 경기전망리포트입니다. 해당 리포트는 국민들에게 누구나 오픈되는 높은 수준의 데이터 분석 보고서입니다. 아래의 예를 살펴보겠습니다.

2023 부동산 경기전망 리포트 중 지역별 전세가 상승률 비교(2년 누적 vs 9개월 누적) by 한국건설산업연구원

왼쪽 붉은색의 데이터는 2020년 9월 대비 2022년 9월 시점에서의 전세가 상승률입니다. 2년 전에 비해서 전세가가 최소 2.9%에서 최대 25%가량 상승한 것으로 나타납니다. 반면에 오른쪽 푸른색의 데이터는 2021년 12월 대비 2022년 9월의 전세가 변화율입니다. 이는 9개월 전 대비에서 대부분 하락한 것으로 나타납니다. 이 두 그래프가 보여주는 분석 결과는 전세가가 많이 떨어졌는데, 2년 전에 비하면 아직 오른 수준이라는 것입니다.

최근 많이 떨어진 전세가, 2년 전에 비해서는 여전히 상승


시점과 공간을 한 데 비교한 데이터 분석 기술로 듣는 이에게 정확히 말하고자 하는 바를 전달할 수 있습니다.


다음 역시 시간에 따른 데이터를 비교한 사례입니다. 네이버에서 "부동산" 키워드를 검색해서, 뉴스 신문기사제목 1년 치에서 단어들의 출현빈도 추출한 결과입니다. 왼쪽은 2021년 한 해, 그리고 오른쪽은 2022년 한 해 가장 많이 언급된 단어들입니다. 이렇게 비교함로써, 시간에 따라 "정책, 시장, 투기, 뜨거운" 등 상승에서 "완화, 푼다, 얼어붙은" 등의 하락으로 전환되는 시기라는 인사이트를 도출할 수  있습니다.

'부동산' 키워드로 검색한 네이버 뉴스 제목의 연도별 비교(2021년 vs 2022년) by 서울대 대학원 멘티


일반적으로 크기를 비교하는 가장 기본적인 방법은 특정 변수의 빈도수, 합계, 또는 총계를 계산하는 것입니다. 이러한 결과는 주로 숫자로 표현되며, 막대그래프, 히스토그램, 파이 차트 등의 그래프를 활용하여 시각적으로 표현할 수 있습니다.


예를 들어, 매출 데이터에서 각 제품 카테고리의 매출액을 분석한다고 가정해 봅시다. 크기를 도출하기 위해 각 카테고리의 매출액을 합산하여 총매출액을 구할 수 있습니다. 이 결과는 숫자로 표현되며, 막대그래프나 파이 차트를 사용하여 카테고리 간 매출액의 상대적인 크기를 시각적으로 비교할 수 있습니다.


정리하면 크기는 익숙한 대상, 시간과 공간, 전년(전월 등) 등과 비교를 통해 인사이트를 도출합니다. 이때 대표적으로 막대그래프, 히스토그램, 히트맵, 워드클라우드 등을 통해 데이터를 표현할 수 있습니다.



II. 추세 


한국은행, 기준금리 연 3.5%로 '동결'
KBS 뉴스('23.5.25)


01 한국은행의 기준금리로 바라본 데이터 추세


데이터에서 추세를 파악하는 것은 인사이트를 도출하는 데 중요한 역할을 합니다. 추세는 데이터의 변화 패턴을 분석하여 미래의 방향성을 예측하고, 데이터가 보여주는 현상에 대한 통찰력을 제공합니다. 추세는 뉴스의 타이틀처럼 한국은행의 기준금리를 통해 이해해보고자 합니다. 데이터의 추세를 분석하면 경제 상황을 이해하고 향후 경제 전망에 대한 인사이트를 얻을 수 있습니다.


https://biz.chosun.com/policy/policy_sub/2023/02/23/XXBIJ4MPIJFTJK4Q524WM6VDFM/


▣ 금리 상승 추세

기준금리가 2개월 전에는 2.5%, 1개월 전에는 3.0%, 이번 달에는 3.5%로 금리가 상승하는 추세일 때, 경기가 좋아서 또는 물가가 높아져서 등의 이유가 있을 수 있습니다. 경기가 좋아지면 기업의 생산과 수출이 증가하고, 소비자들의 구매력이 높아지기 때문에 금리를 조정하여 경기를 안정시키기 위한 조치일 수 있습니다. 또한, 물가가 상승하여 인플레이션을 억제하기 위해 금리를 상승시키는 것일 수도 있습니다.  


▣ 금리 동결 추세

기준금리가 넉 달 연속으로 3.5%로 동결되는 추세일 경우, 대외무역수지 적자와 내수 부진으로 경기가 안 좋아진 상황일 수 있습니다. 대외무역수지 적자는 수출보다 수입이 많아져 경제 성장에 제동을 걸 수 있으며, 내수 부진은 소비와 투자가 둔화되어 경기에 악영향을 줄 수 있습니다. 이러한 상황에서 한국은행은 경기 안정을 위해 기준금리를 동결하는 결정을 내릴 수 있습니다.  


▣ 금리 하락 추세

기준금리가 2개월 전에는 4.5%, 1개월 전에는 4.0%, 이번 달에는 3.5%로 금리가 하락하는 추세일 때, 경기 침체가 본격화되어 가계 부채 이자 부담을 줄이고 기업의 투자 활성화를 위한 조치로 금리를 낮추는 것일 수 있습니다. 경기 침체로 인해 소비와 투자가 줄어들면서 경제 회복을 위해 금리를 낮춰 경제 활성화를 도모하는 것이 목적일 수 있습니다.  


추세를 파악하기 위해서는 기간별 데이터를 비교하고, 그 결과를 시간의 흐름에 따라 시각화해야 합니다. 여러 기간의 데이터를 비교하여 상승, 유지, 하락 등의 추세를 확인하고, 해당 추세의 이유를 탐구해야 합니다. 이를 위해선 해당 데이터 정의, 조사방법, 관련된 다른 지표, 동향 등을 고려하여 데이터를 해석해야 합니다.


02 추세를 표현하는 방법


추세는 데이터의 변화 패턴을 분석하여 미래의 방향성을 예측하는 데 도움을 줍니다. 추세를 파악하는 방법은 다양하며, 가장 일반적인 방법은 시계열 데이터에서의 선형 회귀 분석이나 지수 평활법(검색결과) 등을 사용하는 것입니다. 추세를 도출하는 결과는 주로 그래프로 나타내어지며, 선 그래프, 산점도, 로그 차트 등을 활용하여 변화 패턴을 시각적으로 분석할 수 있습니다.


예를 들어, 주식 가격 데이터에서 일정 기간의 주가 추이를 분석한다고 가정해 봅시다. 추세를 도출하기 위해 선형 회귀 분석을 수행하여 주가의 상승 또는 하락 경향을 확인할 수 있습니다. 이 결과는 시계열 선 그래프를 통해 표현되며, 주식의 가격 변동 추세를 파악할 수 있습니다.


하나의 수치에서도 그 변화 추세에 따라 다른 인사이트를 도출할 수 있음을 이해했습니다. 데이터의 숫자 하나가 나타내는 의미는 절대적이지 않음을 인지함으로써 평균의 오류 등 데이터 분석에서 빠질 수 있는 오류에서 벗어날 수 있습니다. 데이터에서 추세를 파악하는 것은 올바른 인사이트를 얻기 위한 필수적인 과정입니다. 데이터 분석에서 추세 파악은 정확한 분석결과를 도출할 수 있는 강력한 도구임을 다시 강조하고 싶습니다.



III. 편차 

편차 = 데이터 - 평균


편차는 데이터의 분포와 중심으로부터의 편향 정도를 분석하는 데 사용됩니다. 편차는 데이터의 변별력을 알려주며, 평균, 중앙값, 표준편차, 분위수 등을 계산하여 도출할 수 있습니다. 편차를 시각화하기 위해 주로 히스토그램, 상자 그림, 산점도 등의 그래프를 활용할 수 있습니다.


예를 들어, 고객 만족도 조사 데이터에서 각 항목별 평균 점수와 표준편차를 계산하여 조사 결과의 편차를 분석한다고 가정해 봅시다. 이 결과는 숫자로 표현되며, 상자 그림을 통해 각 항목의 평균과 분포를 시각적으로 비교할 수 있습니다.


바이올린 플롯(Violin Plot)은 상자수염그림(Box Plot)과 밀접하게 관련되어 있지만, 샘플 데이터의 분포, 밀도 추적 와 같은 유용한 정보를 추가합니다. 또 기본적으로 상자수염그림은 정상 범위를 벗어난 이상치 값{1.5 * (Q3-Q1)}을 데이터 포인트를 상자 그림 위, 아래에 별로 표시하는 반면 바이올린 플롯은 데이터의 전체 범위를 표시합니다.


https://matplotlib.org/stable/gallery
①평균 → ②편차 → ③(편차) ²의 총합
→ ④분산 → ⑤표준편차

편차에 대해 보다 자세한 설명은 "나는 처세술 대신 데이터 분석을 택했다" 13장. 2 아들이 줄넘기 반 대표가 되지 못한 이유를 참고해 주시면 좋겠습니다.



IV. 비율 


비율은 데이터 간의 상대적인 비교를 위해 사용되며, 두 변수 간의 관계를 파악하는 데 도움을 줍니다. 비율을 도출하기 위해 분석할 데이터의 범주를 설정하고, 해당 범주 내에서 각 항목의 비율을 계산합니다. 이러한 결과는 주로 백분율, 비율 그래프, 파이 차트 등으로 표현됩니다.


예를 들어, 인구 통계 데이터에서 각 연령별 인구 비율을 분석한다고 가정해 봅시다. 비율을 도출하기 위해 연령별 인구수를 전체 인구수로 나누어 계산할 수 있습니다. 이 결과는 백분율로 표현되며, 비율 그래프나 파이 차트를 통해 연령대별 인구 비율을 시각적으로 비교할 수 있습니다.


https://matplotlib.org/stable/gallery/pie_and_polar_charts


전체에서 각 데이터 값이 차지하는 비율을 바라볼 때, 우리는 어디에 집중을 해야 하는지를 결정할 수 있게 됩니다. 이렇게 비율을 바라볼 때는 원그래프를 사용합니다. 원그래프의 경우 각 조각이 많아질 경우 해당하는 부분을 표현하기가 어렵습니다. 그래서 데이터의 개수가 10개를 넘지 않아야 합니다. 꼭 원이 아니라 할지라도 ‘면적’을 나타내는 다양한 그래프가 많습니다.    


이제까지 데이터별 특성을 파악하여 데이터를 활용하는 4가지 방법인 크기, 추세, 편차, 비율을 정리했습니다. 아래는 크기, 추세, 편차, 비율에 대한 정리된 표입니다


부동산, 금리 등 다양한 데이터 예와 같이, 같은 데이터라도 어떤 방법으로 읽어내는지에 따라 그 결론이 달라졌습니다. 그러면 “평균으로 비교하는 것은 옳지 않네요?”라든지 “시간에 따른 데이터는 무조건 선그래프로 표현해야 하나요?”와 같은 질문이 생깁니다. 우리는 항상 정답을 찾는 경향이 있기 때문입니다. 각 사람들 한 명, 한 명의 생김새가 다르고 성격도 다르듯이, 데이터도 타입과 구조가 다르고, 다루는 방식도 다르다는 점을 알아줬으면 좋겠습니다. 또한, 어느 한 기준으로만 좁혀야 하는 것도 아닙니다. 


여러 개의 기준을 사용해서 이들을 조합하고 결론을 낼 수도 있으며, 이 경우 더욱더 입체적이고 깊이 있는 결론에 도달할 가능성도 큽니다. “이 데이터에서 어떠한 결과를 도출할 수 있을까, 무슨 말을 하지?”라고 생각해 보고, 분석 방법을 결정해 주기 바랍니다.


결론적으로, 데이터에서 인사이트를 도출하기 위해서는 크기, 추세, 편차, 비율을 포괄적으로 분석해야 합니다. 이를 통해 데이터의 다양한 측면을 이해하고 명확한 결과를 도출할 수 있습니다. 데이터 분석의 목적과 분석하고자 하는 데이터의 특성에 맞게 적절한 방법과 그래프를 선택하여 분석을 수행합니다. 객관적이고 정확한 분석 결과를 통해 인사이트를 도출하고, 의사결정을 내릴 수 있습니다. 데이터를 올바르게 분석하고 해석하는 능력은 현대 사회에서 필수적인 기술이며, 데이터에서 인사이트를 찾아내는 데는 크기, 추세, 편차, 비율을 효과적으로 활용하시면 좋겠습니다.



야, 그래서 집을 사 말어?


부동산 매매는 일생에 중대한 의사결정입니다. 그러한 결정을 아무런 데이터 없이 결정하신다고요? 유튜브만 보고요? 지금 당신이 보시는 유튜브가 올바른 데이터를 올바른 방법으로 분석했는지 판단해 보시면 좋겠습니다.

모든 결정에는 결과와 책임이 따르기 마련입니다.
올바른 데이터의 선택과 활용은 내가 내린 결정에 '믿음을 줍니다.
그리고 그 믿음이 결단력과 지속적인 행동의 에너지가 됩니다.


세상에는 자기 일을 전문적으로 수행하는 멋진 사람들이 많이 있습니다. 중요한 결정이 앞서 있다면 올바른 데이터를 올바른 방법으로 분석한 데이터 분석 리포트를 참고해 주셨으면 좋겠습니다.

http://www.cerik.re.kr/report/seminar/detail/2663

                

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari