싸고 좋은 집은 없다.
결혼을 앞두고 신혼집을 알아보기로 했다. 둘다 같은 지역에서 직장을 다니면 별로 고민할게 없겠지만, 여자친구와 나의 직장은 상당히 멀리 떨어져 있었다. 여자친구의 직장은 성수에 있고, 내 직장은 동탄에 있기 때문이다. 나와 여자친구 모두 자기가 살던 동네 외에 다른 곳에서 살아본 적이 없었기 때문에 신혼집을 어디다 구해야하는지 막막했다. 그래서 데이터분석을 통해 어느 지역의, 어느 건물에 살아야 좋은지 대략적인 가이드라인을 만들어보기로 했다.
우선 데이터분석에 앞서 고객(여자친구)에 대한 분석이 필요했다. 여자친구는 유흥업소가 없고, 집이 골목에 있지 않았으면 좋겠다고 했다. 이 외에 다른 조건들에 대해서도 여자친구와 논의를 했고, 그 결과 다음과 같은 여섯가지 조건들이 도출되었다.
1. 집 근처에 유흥업소가 없을 것(수원역 같은 분위기 X)
2. 집이 골목에 있지 않을 것, 즉 빌라는 제외(밤에 골목걷는게 무서움)
3. 신축/구축 여부는 상관없음
4. 월세 130만 이하
5. 보증금 3천만원 이하
6. 전용면적 35 제곱미터 이상
요구사항이 파악 후, 본격적으로 데이터분석을 진행했다.
인터넷조사와 직장동료 인터뷰를 통해 신혼집 후보지역 7곳을 선정하였다.
1. 송파구 : 성수동과 물리적인 거리가 가까움. 특히, 잠실 쪽은 환경 좋음.
2. 관악구 : 2호선 라인으로 성수역까지 환승없이 이동 가능
3. 성남시 수정구 : 7호선 라인에 여자친구 회사의 신혼부부들 많이 거주
4. 성남시 중원구 : 7호선 라인에 여자친구 회사의 신혼부부들 많이 거주
5. 성남시 분당구 : 중간지점, 성수까지 한 번에 가는 버스 있음
6. 용인시 수지구 : 수지구청역 근처 신혼부부 많이 거주
7. 동탄 : 동탄역 근처 거주시 GTX 활용 가능. 건물 대부분이 신축이라 주거 환경 좋음
데이터는 공공데이터포털(https://www.data.go.kr/)에서 제공하는 '전월세 실거래가 내역'데이터를 활용했으며, 공공데이터를 쉽게 불러올수 있도록 해주는 'PublicDataReader'라는 라이브러리를 사용했다. 데이터는 최근 시세를 잘 반영하기 위해 '24년 1월부터 '24년 12월까지의 거래내역 데이터로 국한하였으며, 분석에 사용한 데이터 List는 다음과 같다.
1. 국토교통부_아파트 전월세 실거래가 자료
2. 국토교통부_오피스텔_전월세_실거래가 자료
데이터를 불러와 위에서 말한 여섯가지 조건에 맞는 건물들을 추려보니 총 236개가 나왔다. 그리고 이 건물에서 인근역까지의 도보 이동시간과 인근역에서 성수역까지의 거리를 조사했다. 조사해야하는 건물들의 개수가 꽤 많아서 인근역까지 소요시간을 수집하는 코드를 짜볼까했지만, 검색을 조금 해보니 구현하기 쉽지 않을 것같다는 판단이 들었다. 때로는 머리를 쓰기 보다 몸으로 때우는게 더 빠른 경우도 있다. 네이버 길찾기 노가다를 통해 일일히 인근역까지 도보 이동시간과 인근역에서 성수역까지의 이동시간 데이터를 수집했다.
준공연도(buildYear), 월세(monthlyRent), 보증금(deposit), 전용면적(excluUseAr) Column은 int형식으로, 거래일(dealdate) Column은 datetime 형식으로 형변환을 진행했다.
분석에 필요한
건물유형 Column 추가 : 각 데이터테이블에는 건물유형에 대한 데이터가 없어서, 건물유형(오피스텔, 아파트) 정보에 대한 Column을 추가했다.
1㎡당 월세 column 추가 : 매물마다 면적이 다르므로, 가격을 비교하기 위해서 1㎡당 월세가 얼마인지 나타내는 Column을 추가했다.
필터1. 건물명이 '('로 시작하는 행 제거(일반적인 건물이 아님)
필터2. 거래횟수가 5회 이상일 것. 거래횟수가 적은 매물은 조건이 좋아도 거래가 불가능할 확률이 높음
필터3. 월세 50 미만 제외. 전용면적이 35제곱미터 이상인데 보증금이 3천만원 이하이고 월세가 50이 넘지 않는 매물의 경우 정상적인 매물이 아닐 가능성이 높음
필터4. 건물명에서 업무시설이라 기입되어 있는 데이터 제외
필터5. 임대아파트 제외, 현재 조건상 임대아파트에서 거주 불가능
필터6. 화성시 데이터에서 건물명에 '동탄역'이라는 단어가 포함되어 있는 데이터만 필터링. 성수역으로 출퇴근해야하기 때문에 반드시 GTX를 탈 수 있는 곳이어야 함.
필터7. 화성시 데이터에서 건물명에 '서동탄역'이라는 단어가 포함되어 있는 데이터는 제외. 서동탄역은 GTX가 아니라 1호선이 다니는 역임.
필터8. 성남시 분당구 데이터에서 '읍면동'이름이 '대장동'인 데이터 제외(대장동은 지하철이 없음)
필터9. 이상치 제거. 'e편한세상송파파크센트럴', '송파시그니처롯데캐슬', '잠실리시온' 등등 데이터에는 거래내역이 있지만, 실제 매물들과 가격 괴리가 큰 건물들은 제외
각각의 데이터 값의 범위와 수치가 다양하고, 약간의 차이가 결과에 큰 차이를 미치지 않는 항목들에 대해 범주화를 진행했다.
준공연도 : 5년 단위로, 범주화를 진행
전용면적 : 5㎡ 단위로 범주화를 진행
※주의
이 글의 데이터분석 결과는 위에서 말한 조건(월세 130만원 이하, 보증금 3천만원 이하, 전용면적 35제곱미터 이상 등)에 해당하는 데이터에 국한된 분석 결과입니다. 모든 매물을 분석한 결과가 아니므로 절대로 일반화해서는 안됩니다.
지역별로 언제 준공된 건물들이 많은지, 어떤 건물 유형이 많은지, 어떤 면적의 매물이 많은지 확인하기 위해 시각화를 진행했고, 다음과 같은 내용을 확인할 수 있었다.
1. 송파구는 우리가 원하는 조건에 맞는 건물이 거의 없다. 역시 비싼 동네이다.
2. 분당은 아파트와 오피스텔 매물 모두 가장 많다.
3. 분당이 매물이 많긴 하지만 역시 저렴한 지역은 아니다. 평수가 넓은 매물은 거의 없다.
4. 동탄의 건물들은 대부분 2015년 이후에 지어진 신축 건물이다.
5. 비슷한 예산이 있다면 수지구와 동탄에서는 보다 넓은 집에 거주할 수 있다.
지역별로 건무들의 시세가 어느 정도로 형성되어 있는지 확인하기 위해 매물들의 단위면적(㎡)당 월세 가격 분포를 시각화해보았다.
1. 단위면적당 월세는 확실히 서울(관악구, 송파구)이 다른 지역보다 높다.
2. 전반적으로 오피스텔의 단위면적당 월세가 아파트보다 높은 편이었다. 아무래도 임대수익을 주목적으로 하는 건물유형이다 보니 그런 것 같다.
3. 송파구는 집값이 꽤 비싼 지역임에도 불구하고 우리가 원하는 조건을 갖춘 매물들이 있었다.
특히 송파구에도 있는 매물들이 어떤 매물들인지 궁금했다. 같은 조건으로 살수만 있다면, 입지만큼은 송파구가 가장 최고아닌가. 좀 더 자세한 내용을 보기 위해 송파구 매물별 거래량을 시각화해서 확인해보았다.
거여1단지, 4단지 아파트는 거여동에 위치했고 1997년도 준공된 구축 아파트였다. 하지만 역 까지 도보로 10분 내로 이동 가능한 역세권이었고 근처에 남한산도 있어서 거주하기에는 아주 좋아보였다. 서울에서 이 정도 시세로 거주 가능한 역세권 아파트에서 살 수 있다는 사실이 놀라웠다. 하지만 시세가 저렴한데에는 내가 모르는 이유가 있지 않을까라는 의문도 들었다.
송파KCC웰츠타워 오피스텔은 3호선 경찰병원 역 근처에 있어 입지는 훌륭했으나, 유흥업소가 밀집한 지역이라 우리가 원하는 조건에 맞지 않았다.
'동인트루빌 오피스텔'의 경우 오금역 근처에 있었고, 오금역은 3호선과 5호선이 있는 일명 '더블 역세권'이었다. 심지어 근처에 '오금오름공원'도 있어서 주거 환경에서는 아주 좋아보였다. 하지만 오피스텔 자체에 무슨 문제가 있는지, 아니면 인기가 너무 좋아서 매물로 나오자마자 계약이되서 그런건지 부동산 플랫폼에 올라와있는 매물이 하나도 없었다.
전반적인 데이터를 살펴보았으니, 본격적으로 어느 건물이 가장 좋은지 평가를 해보기로 했다.
주거만족도를 어떻게 평가할지 고민한 결과 Min-Max Scaling을 활용하기로 했다.
* Min-Max Scaling : 수치들을 0~1 사이의 값으로 나타내는 것. 단위가 달라 항목들 간의 비교가 어려운 경우에 유용하다.
전용면적, 준공연도는 수치가 클수록 1에 가깝도록, 월세와 보증금은 수치가 작을수록 1에 가깝도록 했다. 그리고 보증금의 가중치는 0.1로 두었다. 보증금 3천 만원 이하의 건물들만 분석하는 만큼, 보증금 액수는 결정에 그렇게 큰 요인은 아니라고 생각했기 때문이다.
물론 거주 환경의 쾌적도 평가하기 위해서는 각 지역의 주거환경(체육시설, 문화시설, 유흥업소 등)에 고려도 필요하다. 하지만 당장 주거환경을 객관적인 평가할수 있는 데이터가 없었고, 추가 데이터 수집에 너무 많은 시간이 소요될 가능성이 높았다. 따라서 보증금 외에 다른 항목들에 대한 가중치는 별도로 부과하지 않았다.
대체적으로 성남시 수정구와, 성남시 중원구에 있는 건문들이 높은 점수를 받았다. 점수가 타당한지 확인하기 위해 순위가 높은 건물 몇 개를 확인해보니, 점수가 꽤 타당하다는 것을 알 수 있었다. 더그린시티 오피스텔의 경우 24년 4월에 입주한 신축 오피스텔에 방이 3개나 되었기에 무엇하나 아쉬운게 없어보였다.
그렇게 분석결과를 여자친구에게 자신있게 내밀면서 수정구나 중원구에 살면 되겠다고 말했다. 하지만 여자친구에게 단번에 퇴짜를 맞았다.(...) 수정구와 중원구는 유흥업소가 많아서 무섭다고 했다. 알고보니 성남시 중원구와 수정구는 일명 '구성남'이라 불리는 구시가지로 유흥업소가 밀집해있는 곳이었다. '수원역'과 비슷하다는 말을 듣고 어떤 분위기인지 대략적으로 이해할 수 있었다.
그렇게 수정구와 중원구는를 후보에서 제외했다. 수지구 역시 제외하기로 했다. 신분당선라인이 있긴 하지만 서울과 너무 멀다 보니 동탄역에서 GTX로 출퇴근을 하는 것과 출퇴근 시간이 큰 차이가 없다고 판단했기 때문이다. 아무래도 출퇴근 시간이 비슷하다면 건물들의 상태나 주거환경이 더 좋고, 내 직장과도 가까운 동탄이 더 나아보였다.
그렇게 후보지역은 송파구, 관악구, 분당구, 동탄으로 좁혀졌다. 하지만 여자친구는 갑자기 분당이나 동탄에 살고 싶다고 주장했다.(빨리좀 말해주지) 여자친구 부모님께서 한 번 자리를 잡게되면 생각보다 지역을 바꾸기 쉽지 않다고 조언을 해주셨기 때문이다. 차후 자녀계힉 등 여러 조건을 고려했을 때 분당이나 동탄이 좋을 것 같다고 말했다.
틀린 말이 아니라고 생각했기에 후보 지역을 분당구과 동탄으로 좁혔다. 후보를 좁히면서 두 가지 필터를 더 추가하였다.
필터1. 복층 제외 : 계단 사용시 전도의 위험성이 높고 냉난방이 불리한 복층 구조의 건물 제외
필터2. 건물에서 역까지 도보이상 시간 15분 이하 : 경험상 도보 이동시간이 15분이 넘어가면 힘듦.
그 결과 다음과 같은 건물들이 최종적으로 남았다.
각 항목들을 레이더 차트를 통해 확인해보니, 분당과 동탄의 장단점은 명확했다.
동탄은 신축 건물이 많고, 전용면적이 넓었다. 반면에 분당은 건물 대부분이 구축이고 면적이 좁았다. 하지만 출근시간(소요시간_회사)이 짧다는 장점이 있었다.
월세는 분당이 더 높은 점수를 받았다. 하지만 이상하다고 생각했다. 아무리 그래도 분당이 저렴한 동네가 아닌데 왜 이런 결과가 나오는지 의아했기 때문이다. 그 이유를 파악하기 위해 분당구와 동탄의 단위면적당 월세 분포를 시각화했다.
역까지 도보이동 시간이 15분 이하인 건물들의 거래량 분포를 확인한 결과, 동탄역 주위 건물들의 단위면적당 월세 가격이 상당히 높게 형성된 것을 확인할 수 있었다. 실제로 건물에서 동탄역까지 도보이동시간과 단위면적당 월세 분포를 시각화해보니, 역에 가까울수록 단위면적당 월세 가격이 비싸다는 유의미한(당연한) 결과를 확인할 수 있었다.
그리고 최종적으로, 각 역들의 매물들이 어떤 장단점을 가지고 있는지 쉽게 확인하기 위해 레이더 차트를 만들어보았다.
싸고 좋은 집은 없다. 저렴한데는 저렴한 이유가 있고, 비싼데는 비싼 이유가 있다.
이번 프로젝트를 진행하면서 느낀점은, 분석 결과가 집을 구할 때 참고할 수 있는 제법 타당한 가이드라인을 제시해줄 수 있다는 것이다. 내가 살고자 하는 지역에 내가 원하는 조건을 갖춘 매물이 있는지 파악할 수 있었으며, 내가 가장 중요하게 생각하는 것에 따라 어느 지역에 거주해야하는지 파악할 수 있었다.
이 프로젝트의 한계는 주거환경에 대한 부분에 대한 부분을 고려하지 않았다는 점이다. 주거 만족도에는 무엇보다 지역의 인프라나 분위기가 큰 영향을 미쳐야하기 때문에, 지역의 주거환경을 평가할 수 있는지표가 필요하다. 지역별 유흥업소 개수라든지, 지역별 학업성취도 데이터, 근처 대형마트 여부나 공원 존재 여부 등에 대한 데이터를 확보할 수 있다면, 훨씬 더 정교한 평가를 할 수 있을 것이다.