brunch

보스턴 주택(boston housing) 그리고 데이터

70년대의 보스턴에서는 무슨 일이 일어났는가?

by AIchemist

주택가격은 예나 지금이나 아주 중요한 이슈다

지금이야 정말 편리하게 매물찾기부터 시세 분석까지 지도 앱, 부동산 앱 가능한 시대다. 초품아, 대중교통, 고속도로, 강변 뷰 등 좋은 입지인지, 가격은 적당한지 쉽게 찾을 수 있다. 하지만 과거에는, 이런 주택 데이터를 수집하고 관리하기 위해 많은 발품을 팔았을 것이다.


미국 메사추세츠 주도 보스턴도 마찬가지였다. 좋은 환경에서 살고 싶은 사람들의 니즈는 현대의 우리처럼 동일했고, 그 니즈가 데이터과학에서 연습용 데이터로 널리 쓰는 boston_housing 데이터셋에 고스란히 들어가 있다.



Boston Housing 데이터셋이란?

보통 통계학, 계량경제학 등에서 주택가격 분석을 위한 데이터셋으로 교과서 등에 널리 실려 있는 데이터이고, 데이터 분석 입문가들이 회귀분석 연습용으로 많이 사용하고 있다. 이 데이터셋은 환경경제학 저널에서 처음 발표되었으며, 논문 제목은 다음과 같다.


Journal of Environmental Economics and Management
Hedonic housing prices and the demand for clean air(1978)(pdf)
저자 David Harrison(링크드인), Daniel Rubinfeld


환경경제학 레전드 논문의 표지
테이블 IV~V까지 데이터셋을 소개하고 있다.


1화에서 소개한 붓꽃 데이터와 비교하면 데이터 규모가 10배 가까이 늘었다. 1930년대 붓꽃 데이터는 변수 4종, 150개 데이터로 구성되었는데, 40년이 지난 후인 70년대의 데이터셋은 변수 13종, 506개 데이터셋으로 구성되었다.

> boston_housing.shape
>> (506, 14)


주택 506채의 가격이라고? 아니다.

보스턴 집값 데이터는 붓꼿 데이터셋과 비교하면 10배 규모이며, 그 내부를 들여다보면 더 큰 차이가 있다.

붓꽃은 개별 꽃에 관한 데이터이다. 반면 보스턴 집값은 개별 건축물의 가격이 아니라, 권역별 가격 데이터이다. 전체 지역을 506개 권역으로 나누어 평균한 데이터이다. 각 권역별로는 적어도 50여개의 집이 있을 것이다.(census)

이 데이터셋은 단일 데이터셋이 아니며, 다양한 자료를 조합해 구성된 데이터이다. 1970년 인구 센서스, FBI 범죄율, 도시계획 데이터, 대학 자체 조사 등 다양한 데이터를 조합한 데이터로 당시 기준으로도 매우 큰 프로젝트였으리라 생각된다.


각 컬럼은 다음과 같이 구성된다. TABLE III에서 각 데이터를 상세하게 설명하고 있다. MVDV를 Y(종속변수)로 두고 나머지 X(독립변수) 'CRIM, ZN, INDUS, CHAS(더미), NOX, RM, AGE, DIS, RAD, TAX, PTRATIO, B, LSTAT'로 구성된다.


테이블 4에는 당시 교수님들이 직접 계산한 상관계수(corr) 테이블이 있다. 당시에 이 숫자를 직접 구했다는 것 자체가 매우 큰 프로젝트였을 것이다.

논문에 수록된 상관계수


우리는 이 숫자들을 코드 한줄로 정말 쉽게 구현할 수 있다.

>> sns.heatmap(df.corr())
현대 파이썬으로 구한 상관계수

1970년대에 이것을 대체 어떻게 계산했는가?

미국은 60년대에 이미 달착륙을 성공시키지 않았던가. 70년대에는 IBM을 중심으로 현대의 컴퓨터가 연구소 등을 중심으로 보급되던 시기였다.(참고) 이 논문 저자는 하버드 교수님이었고, 당시의 최첨단 시스템인 IBM 메인프레임을 사용할 수 있었을 것이다. 언어는 fortran을 사용하고, 어쩌면 SAS를 사용했을 수도 있다.(sas 최초 버전 출시는 1972년이라 한다.) 코딩은 펀치카드를 사용하거나, 기계식 코딩(전선을 이리저리 붙여서 하는 방식)을 했을 것이다.

인구 센서스 데이터는 사진과 같이 수작업으로 집계되었을 것이며, 분석을 위한 데이터 정제에 적지않은 노력이 들어갔음을 알 수 있다.


무슨 문제를 해결하려고?

센서스 데이터가 어떤 특정한 문제를 해결하기 위한 것은 아니다. 정부 정책결정 전반에 참고하기 위한 데이터이다. 그러나, 이 논문의 목적은 분명하다: 공기의 가격을 측정하는 것.(willingness to pay for clean air)


이 동영상은 70년대 보스턴의 전경을 촬영한 영상이다.

1970년대 보스턴 전경 british pathe

1970년대 보스턴은 공장지대와 주거지역이 인접해 있었다. 공장에서 뿜어내는 매연, 찰스강으로 유입되는 폐수 등 도시 전체가 오염된, 환경오염이 일상적인 상황이었다. 환경 문제가 이슈가 되기 시작하었고, 1970년에 처음으로 미국 전역에서 지구의 날 행사가 열렸다.(유투브) 이 논문은 그러한 시대적 상황 속에서 공기질이 주택 가격에 미치는 영향을 계량경제학적으로 측정하려 한 시도로; 환경학, 경제학 두 분야에서 중요한 연구 논문이었을 것이다.


데이터셋을 살펴보면 'CHAS' 라는 컬럼이 있다. 이 데이터는 0과 1로 구성되었으며 그 의미는 찰스강 인접 여부를 말한다. 우리로 치면 한강뷰라고 할 수 있겠다. 프리미엄이 클 것 같지만, 위 동영상을 보면 알 수 있듯, 당시 찰스강은 오염되어 있었기에, CHAS와 MV(주택가격)은 0.18의 낮은 상관계수를 보인다.

강변 뷰를 누리고 싶은 욕망이 있으면서도, 한편으로는 공기오염은 피하고 싶은 그런 양가적 욕구가 반영된 것이 아닌가 싶다.


그래서 공기 가격이 얼마냐고?

주택가격을 통해 본 공기 가격은 대기오염물질 100ppm이 줄을수록 $2,050 늘어났다고 한다.

현재 기준으로 환산하면, 약 1만 달러, 한화로 1천5백만원이다.

모델은 R=0.8을 상회하는 놀라운 수준을 보이고 있다.


데이터의 윤리적 문제

이 데이터셋은 이후 데이터과학을 입문하는 사람들에게 널리 애용되었지만, 윤리적으로 문제가 있는 변수가 있었다. 바로 컬럼 B이다. B는 지역 내 흑인 인구 비율을 나타내는 지표다.

B = 1000 × (Bk - 0.63)^2 (Bk는 흑인 비율)
Neighborhood B - Black proportion of population.
At low to moderate levels of B, an increase in B should have a negative influence on housing value if Blacks are regarded as undesirable neighbors by Whites. However, market discrimination means that housing values are higher at very high levels of B. One expects, therefore, a parabolic relationship between proportion Black in a neighborhood and housing values.

즉, 인종차별적 시장 구조를 가정하며, 흑인 비율과 주택 가격간의 포물선 형태의 2차 함수를 모델링했다. 통계적 설명력을 높이기 위한 방식이지만, 사회적 편견을 공식화한 수식으로 현대의 기준으로는 매우 심각한 윤리적 문제가 된다..


왜 이런 변수를 썼는가?

헤도닉 가격 모형(Hedonic Pricing Model)에 기반한 주택가격 모형은, 주택의 자체 가치(건축년도, 크기, 자재 등)외에 다양한 요인이 가격 결정에 영향을 미친다는 모형이다. 따라서 인종, 범죄율, 학군 등을 회귀모형에 포함시켰다. 당시 미국은 인종 차별이 제도적으로 뿌리박혀 있었으며, 주택 가격에 실질적으로 영향을 미치고 있었기 때문이다. 공기의 가격을 측정하기 위해 인종 등 다양한 요인을 통제변수로 활용했던 것이다.

이러한 인종 변수는 통계적 설명력 향상이라는 명분 하에 자연스럽게 포함되었지만, 그 과정에서 차별적 현실을 암묵적으로 수용하고 정당화하는 오류를 범했다. 오늘날에는 이러한 변수의 사용을 매우 엄격하게 재검토하고 있으며, 공정성, 투명성, 설명 가능성이 AI와 데이터 과학의 필수 기준으로 자리잡고 있다.


그 이후: 데이터셋의 운명

이 데이터셋은 최근까지 sklearn 파이썬 라이브러리에서 쉽게 불러올 수 있었다. 널리 연습용으로 사용되다가, 윤리적 문제로 인해 결국 삭제되는 운명을 맞는다.

# sklearn 1.0버전까지는 데이터셋을 이렇게 불러올 수 있었다.
from sklearn.datasets import data_boston

이에 대한 찬반논란도 있었다. 데이터를 분석함에 있어 시대적 상황을 반영해야한다는 의견부터, 윤리적 문제가 있는 데이터를 무비판적으로 교육에 사용하는 것은 위험하다는 입장이 대립했다.

AI와 머신러닝은 과거 데이터를 학습하여 미래를 예측한다. 데이터에 시대적 차별과 편견이 그대로 녹아있다면, AI는 그 편견을 재생산하게 된다.

보스턴 하우징 데이터셋은 당시 사회적 구조가 복합적으로 얽힌 결과물이다. 우리는 단순한 숫자로 이루어진 데이터에서 그 이상의 맥락을 읽어내야 하는 시대에 살고 있다.




ps. 경제학이나 환경학을 공부한다면 논문에서 말하는 모델을 순서대로 구현하며 따라가볼 것을 권장한다. 환경 경제학의 시초가 이 논문으로 열렸다 해도 과언이 아니다.

keyword
작가의 이전글붓꽃(Iris) 그리고 데이터