brunch

You can make anything
by writing

- C.S.Lewis -

by 빛그림 May 12. 2019

[월간 데이터 분석] 따릉이는 어떻게 이용될까?

4월호(2019)

개인적으로 모빌리티 서비스는 법적 문제와 문화적 적응기가 필요하겠지만, 소위 4차 산업혁명이라는 이름 하에 있는 다른 서비스들보다 상용화되기 좋고 일반인의 삶을 많이 바꿀 수 있다고 생각합니다. 

택시 호출, 카풀, 자전거, 킥보드 등 다양한 모빌리티 서비스들이 출시되었고 일부는 우리 생활을 많이 바꿔놨습니다. 특히 최근에는 전기자전거와 전동 킥보드 서비스를 제공하는 스타트업과 회사들이 많아졌는데요, 이런 서비스를 기획할 때 따릉이 데이터를 활용해 분석하지 않았을까라는 생각으로 따릉이 데이터를 분석해 봤습니다. 전국 단위의 서비스를 처음부터 제공할 수 없으니 어떤 지역 위주로 시작할지, 사람들이 이 서비스를 이용한다면 어떻게 많이 이용할지를 알아야 하는데 자사의 데이터가 없다면 비슷한 서비스의 데이터를 분석해 힌트를 얻어야 하는데 따릉이가 적합할 것 같았습니다. 제가 활용한 데이터는 서울 열린 데이터 광장에서 다운로드하였습니다.



데이터 제거


이번 분석은 목표가 명확했습니다. 따릉이를 이용해 어디서 출발해 어디로 도착하는지 알아내는 것이었죠. 그렇기 때문에 대여하고 같은 곳에 반납하는 경우의 데이터는 활용하지 않았습니다. 또 2017년, 2018년 대부분의 데이터를 활용했기 때문에 이 기간 동안 300번 이상의 기록이 없다면 고려할 필요 없는 조합이라 생각해 지웠습니다. 


따릉이는 하루짜리 2시간(120분) 이용권을 구매했을 때 2시간 타고 반납 후 다시 대여하는 것은 추가 요금이 부과되지 않지만, 2시간 넘게 반납하지 않았다면 추가 요금이 부여됩니다. 제때 반납하지 못하는 것은 가능하지만 지나치게 오래 사용한 것까지 활용할 필요는 없겠죠. 그래서 200분 이상 사용한 기록은 지웠습니다. 

자전거 이용시간 분포 (대부분 20분 이하로 이용한다)


추가로 궁금한 것이 있는데 A대여소에서 대여해 B대여소로 반납하는 경우를 보던 중 8196회로 유독 다른 곳보다 많이 나타나는 조합이 있었습니다. 

90%가 40회 미만인 걸 고려했을 때, 8196은 압도적으로 큰 수치입니다

'홍대입구역 2번 출구 앞' 대여소에서 '하늘채 코오롱아파트 건너편' 대여소로 이동하는 경우였는데요, 왜 이곳이 많이 나타나는지 잘 모르겠지만 아마도 중요한 교통수단이 있거나 놀 곳이 밀집되어 있거나 같은 이유가 아닐까 싶네요.



출퇴근 시간


따릉이 대여 시간을 0부터 23으로 만들었습니다. 7시 48분에 대여했다면 7이 되게 말이죠. 그리고 이걸 시각화했을 때 8시, 18시에 급격히 솟아오르는 것을 확인했습니다. 당연히 출퇴근 시간을 생각하게 되었고 평일과 주말로 나눠보았습니다.

전체/주중/주말 순이며, 파란 바가 대여 시간, 노란 바가 반납 시간입니다


전체를 시각화한 것과 주중만 시각화한 것은 비슷하게 보이지만 주말에는 오후 시간대에 많이 이용된다는 것을 확인할 수 있습니다. 참고로 주중 데이터가 주말 데이터보다 3배 이상 많았습니다.


지금 얻은 정보를 바탕으로 출근 시간인 8시 무렵, 퇴근 시간인 18시 무렵, 주말에 어디에서 어디로 이동하는지 알아보았습니다. 사람들이 어떤 대여소에서 빌려 어떤 대여소에 반납했는지도 중요할 수 있지만, 어떤 지역에서 어떤 지역으로 이동하는지가 더 중요하다고 생각했습니다.  이를 위해 따릉이 서비스가 시행되는 서울을 여러 구역으로 나눴습니다.



지역 클러스터링


활용한 데이터 중엔 각 대여소의 위도, 경도 정보를 제공하는 데이터가 있었습니다. 먼저 지도에 대여소 위치를 시각화했습니다. folium 라이브러리를 활용했는데 직접 조정하면서 보면 더 좋지만 사진으로 첨부하겠습니다.

파란 점이 대여소이고 나머지는 지도입니다

저는 평소에 계층적 클러스터링이 좋은 클러스터링 기법이 아니라고 생각했는데, 이번 분석에서 제가 나누고 싶은 형태에 맞게 잘 나눠줄 것 같다는 생각이 들었습니다. 

와드 연결법으로 구한 계층 덴드로그램

총 1460개의 대여소가 있었는데, 저는 무려 500개의 클러스터를 만들었습니다. 따릉이 자전거를 타보면 생각보다 대여소간 거리가 멀기 때문에 작은 클러스터 수로는 '마포구에서 대여 해 마포구에 반납하는 사람들이 많았다' 같은 추상적인 정보만 얻을 것 같았습니다. 이렇게 클러스터화한 지역을 다시 시각화했습니다.

클러스터에 속한 대여소들의 위도, 경도의 평균을 중심으로 대여소 수에 따라 크기를 조절했습니다



이동 방향 시각화


출근 시간, 퇴근 시간, 주말로 나누어 Top 20개의 대여/반납 조합을 선정했습니다. 

다음으로는 어떻게 시각화하는 게 좋을까 고민했고, 다음과 같은 후보들이 있었습니다.

왼쪽은 chord diagram, 오른쪽은 방향성 있는 네트워크 형태입니다. 모두 어디서 빌리고 어디서 반납하는지 알려주긴 하지만 직관성이 많이 떨어진다는 생각이 들었습니다. 그래서 앞서 보여드린 지도에 직접 시각화했습니다. 초록 선이 대여 지역과 반납 지역을 이은 것이고, 육각형이 반납 지역을 표기한 것입니다. 선 없이 육각형만 있다면 해당 지역에서 대여하고 해당 지역에 반납했다는 것을 의미하고 양쪽이 육각형이라면 서로 왔다 갔다 하는 관계를 의미합니다. 제 주피터 노트북으로는 인터액티브하게 조절이 가능하지만 정적인 사진으로는 아래와 같이 보여드리는 게 최선일 것 같습니다.


주중 8시의 이동 방향
주중 18시의 이동 방향
주말 이동 방향

제가 길게 설명을 붙이기보다는 출퇴근 시간에 어느 지역에서 어느 지역으로의 이동이 많았는지, 주말에 주중 출퇴근 시간과 달라진 점은 무엇인지 시점에 상관없이 따릉이 이용량이 많은 곳은 어디인지 확인하시면 재밌을 것 같습니다. 



마치며


https://brunch.co.kr/@kakaomobility/30

https://brunch.co.kr/@kakaomobility/29

카카오 T바이크는 경기도 성남시와 인천광역시 연수구에서 시험 서비스 중인데 서울로 확장된다면 이번 분석에 나온 위치들 위주로 배치가 많이 될 것 같다는 예상을 해봅니다.




* 재현하기에는 마구잡이로 분석해서 좋지 않지만 이곳에 공유했습니다.

매거진의 이전글 [월간 데이터 분석] XAI

매거진 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari