Part3. 알짜 공공데이터 활용 05 - 부동산 실거래가 데이터
그 과정은 아래와 같이 진행되었다.
① 부동산114(서울 가구당 평균 매매가격 '10억 돌파') →
② 한국경제신문(잇단 규제에도 서울 아파트값 10억원 돌파…강남구 20억원 넘어) →
③ TBS, 김어준의 뉴스공장(서울 아파트값 평균이 10억원을 돌파했다는 뉴스는 가짜뉴스) →
④ 조선일보(김어준 방송 "서울 집값 10억은 가짜뉴스"...이 주장이 가짜)
시각화 및 분석 도구는 PowerBI를 사용하였다.
많은 기관에서 부동산 매매 관련 데이터들을 공개하고 있다. 그리고 그 데이터들은 서로 다른 특성이 있다.
국토교통부에서 제공하는 부동산 실거래가 데이터는 부동산 거래 사실을 매매가 단위로 기록한 데이터이다. 하지만, 거래가 발생한 물건의 매매가만을 기록하기 때문에 이 데이터를 이용하여 전체 부동산 거래 매매가의 변화 추이를 산출하는 것은 쉽지 않은 일이다. 예를 들어, 7월달에는 서울의 강북쪽에 있는 소형아파트가 많이 거래되었고 8월달에는 강남쪽에 있는 대형아파트가 많이 거래되었다면, 7월 대비 8월의 전체 아파트 평균 매매가가 크게 상승한 것으로 보이게 될 것이다.
KB국민은행에서 공개하는 KB주택가격동향 데이터는, 전체 부동산 모집단을 대표할 수 있도록 잘 설계된 표본으로부터 매매가를 산출(집계 또는 추정)하는 방식으로 만들어지기 때문에, 전체 부동산의 매매가 변화 추이를 쉽게 파악할 수 있다. 하지만 이 데이터는 가격이 아닌 지수 형태로 공개하기 때문에 실제 매매가는 알 수 없다(2019년 1월 시점으로 기준지수를 100으로 한다. 2020년 7월의 지수는 107.9이다)
당초 보고서에 의하면 서울의 아파트 매매가는 2013년 대비 2020년에 2배(100%) 증가하였다고 한다.
(5억1,753만원 → 10억509만원)
하지만 KB주택가격동향 데이터의 아파트 매매가격지수를 살펴보면, 2013년 대비 2020년의 증가 폭은 43.1%에 불과하다는 사실을 발견할 수 있다(75.4 → 107.9)
(2020년8월26일 다운로드 기준) 아파트 실거래가 데이터에 의하면, 2020년7월 아파트 매매 거래 건수는 강서구 950건을 비롯하여 총 10,516건이며,
평균 매매가는 85,900만원이다. 서초구가 176,798만원으로 가장 높고 도봉구가 46,978만원으로 가장 낮다.
매매 건수와 평균 매매가는 데이터 다운로드 시기에 따라 변화할 수 있다. 뒤늦게 거래 신고하는 사례가 있을 수 있으므로 거래 건수는 지속적으로 증가하고 그에 따라 평균 매매가도 변화할 가능성이 있다는 사실은 염두에 두어야 한다.
참고로 2019년 8월1일부터 2020년 7월31일까지(1년간) 아파트 평균 매매가는 80,022만원이며, 강남구가 179,938만원으로 가장 높은 것으로 나타났다.
부동산 실거래가 데이터와 KB주택가격동향 데이터를 분석한 결과, "2013년 대비 2배, 평균 매매가 10억 돌파" 는 사실과 다른 것으로 보인다.
'평균값의 함정'을 들어 보았는가?
이전에 쓴 글(데이터의 대푯값과 분포_1)에서 밝혔지만, 어떤 수들의 집합에서 대표로 쓸수 있는 값은 평균값(mean), 중앙값(median), 최빈값(mode)이 있다.
이중 평균값은 계산하기 쉽고 이해하기 쉬운 장점이 있으나, 극단적으로 크거나 작은 값에 의하여 왜곡될 가능성이 있다.
중앙값은 어떤 주어진 값들을 정렬했을 때 가장 중앙에 위치하는 값이다. 극단적으로 크거나 작은 값 때문에 전체 값에 불균형이 있는 경우, 평균값 보다 중앙값이 현실을 정확히 설명하는데 적합하다.
실제, 우리나라에서는 가구 소득을 산출할 때, 중앙값을 이용하고 있다.
2020년 7월 서울의 아파트 매매가는 6,750만원(구로구 오류동 썬앤빌, 14㎡)부터 542,500만원(강남구 도곡동 타워팰리스, 3, 235㎡)까지 다양하게 분포되어 있다.
아래의 그림은 히스토그램을 이용하여 전체 매매가를 시각화한 결과물이다. 오른쪽으로 치우친 양왜도(positive skew) 형태로, 평균값이 중앙값과 최빈값보다 크다는 사실을 발견할 수 있다(매매 평균값이 중위값보다 1억원 이상 크다)
매우 큰 값에 의하여 평균값이 왜곡될 우려가 있는 경우, 평균값보다 중앙값을 사용하는게 바람직하다. 2020년 서울의 아파트 중위값은 75,000만원이다.
아래의 그림은 아파트 면적과 매매가의 상관관계를 시각화한 결과물이다. 대각선 방향의 점선은 둘 사이의 관계를 나타내는 회귀곡선으로, 우상향이므로 강한 상관관계가 있음을 보여주고 있다.
서울은 지역별(강남구, 도봉구 등 자치구)로 부동산 가격의 차이가 상당히 크지만, 분석의 목적에 따라서 지역 범위를 서울 전역으로 설정할 수 있다. 하지만, 면적은 구분해서 산출하는 것이 바람직할 것으로 생각된다.
아래 그림은 2020년 7월 서울의 아파트 매매 건수를 면적별로 시각화한 결과물로, 전용면적 25평과 18평이 가장 많았음을 알 수 있다.
전용면적 18평과 25평 아파트의 중앙값을 산출하였다. 전용면적 18평의 중앙값은 71,000만원이며 전용면적 25평의 중앙값은 85,800만원이다.
평균값과 중앙값 모두 매매가의 전체 분포를 파악하는데 한계가 있다.
박스플롯(데이터의 대푯값과 분포 하단 참조)으로 데이터를 시각화하면, 매매가 분포를 쉽게 파악할 수 있다.
아래 그림에서 왼쪽 박스플롯은 전용면적 18평이며, 오른쪽 플롯은 전용면적 25평이다. 가운데 파란색 박스는 전체의 50% 분포를 나타내고 실선은 중앙값을, 점은 평균값을 나타낸다. 최대값 위의 점들은 이상값을 나타낸다.
전용면적 25평의 경우, 중앙값은 85,800만원이고 평균값은 94,550만원이다. 186,250만원을 초과하는 값은 전체의 0.35%에 해당하는 이상값이라고 볼 수 있다.
1. 부동산 가격의 변화 추이를 확인하고 싶다면, (지수 형태의) KB주택가격동향 데이터를 이용하는게 좋다.
2. 특정시점의 부동산 가격을 확인하고 싶다면, (매매가 형태의) 부동산 실거래가 데이터를 이용하는게 좋다.
3. 극단값으로 인한 왜곡이 우려될 경우, 평균값 대신 중위값을 사용하는게 좋다.
4. 분석할 때는 가능하면 대상을 세분화 하는게 좋다. 아파트 매매가의 경우, 면적이라도 구분하는게 좋겠다.
5. 적절한 시각화 도구를 이용하여 데이터의 분포를 시각화하면 보다 폭 넓은 이해가 가능해진다.
분석에 사용한 코드(PowerBI)와 소스 데이터는 아래에 공개합니다.