종이지도를 분석한 도봉구 어린이 등하굣길
데이원컴퍼니(패스트캠퍼스)와 문답 형식으로 작성한 글을 옮겼습니다.
Q. 어떤 데이터 분석 프로젝트를 진행하셨는지 간단히 소개해 주세요!
소개할 프로젝트는 서울시 도봉구청과 함께 진행한 프로젝트인데요, 초등학생들이 통학하는 길목에서 안전하다고 느끼는지, 불안감을 느낀다면 어떠한 부분들을 우려하는지 분석하여 정책기획실과 액션 아이템까지 발굴한 사례입니다.
특별한 점은 이미 갖추어진 데이터나 설문조사 결과를 이용한 것이 아니라, 매일 등하교를 하는 아이들과 부모님들로부터 정교한 데이터를 전달받아 분석했다는 점입니다. 20개 학교, 4천 여 학생과 학부모로부터 데이터를 수집하고 분석한 결과는 각 학교별로 ‘어린이 통학안전 정책지도'로 제작되었는데요, 이 지도를 손에 들고 구청과 경찰서, 학교가 머리를 맞대어 행정적으로 대응할 사안들을 발굴하고 예산 집행까지 이어진 프로젝트였습니다.
Q. 어떤 데이터를 사용하셨나요? 수집 과정이 있다면 공유해 주세요!
사실 프로젝트 초기에 검토한 데이터는 여러 행정 부서에 쌓인 각종 사고이력 데이터와 통신사와 신용카드사가 제공하는 빅데이터였습니다. 교통사고, 각종 범죄 데이터는 이미 일어난 사건이 기록된 결과입니다. 이를 토대로 사후적인 예방에 도움이 될 수 있겠지만, 주민들이 우려하는 장소, 걱정하는 사건사고에 대해 행정이 선제적으로 대처할 수 있기 위해서는 더 넓은 의미의 안전과 관련한 데이터가 필요했습니다.
좀 더 다양한 오프라인 행동을 파악해보기 위해 대기업이 제공하는 빅데이터를 함께 검토했습니다. 통신사 유동인구 데이터와 신용카드 결제 정보는 오프라인에서 다양한 사람들의 특징과 활동을 추적할 수 있는 양질의 정보입니다. 하지만 우리 아이들은 스마트폰도 신용카드도 소지하지 않기 때문에 사용할 수 없는 데이터였습니다.
이러한 이유로 정책 의사결정에 필요한 데이터를 직접 수집하기로 했습니다. 도봉구 정책기획실과 각 학급의 선생님들을 통해 모든 초등학교 저학년 학생들에게 종이지도를 전달했습니다. 우리가 잘 아는 네이버 지도나 카카오 지도가 아닌, 학생들이 매일 오가는 등하굣길 범위로 제한하여 골목길과 건물만 까만색 선으로 표현한 지도였습니다. 아이들은 집으로 돌아가 엄마와 함께 아침마다 어느 골목으로 등교하는지, 그리고 그 주변에서 불안하다고 느꼈던 부분은 없는지 꼼꼼히 적었습니다. 예를 들어 ‘여기 골목에서 자동차가 빨리 달려요’, ‘마트 앞이라 트럭이 늘 서있어서 불안해요’ 같은 응답입니다.
일반적인 유저 조사와 다른 점이 있다면, 이 모든 응답들이 ‘종이지도’ 위에 기록되었기 때문에 불안을 느끼는 위치를 정확히 파악할 수 있었다는 점입니다. 이렇게 아날로그로 모은 낱장의 종이들을 네 분의 주부님들과 함께 지도분석 전문 프로그램을 활용하여 하나의 응답에 대해 위치정보와 텍스트 한 쌍으로 입력했습니다. 이 작업에 참여하신 분들 모두 초등학생 자녀를 두셨던 만큼 마음을 담아 꼼꼼하게 작성해주셨습니다. 그 결과 4천 장 가량의 종이지도가 디지털로 변환되어 분석 팀에게 전달되었습니다.
Q. 어떤 가설을 설정하고 데이터 분석 과정을 계획하셨나요?
조금 막연한 생각이었는데요, 학부모님들이 작성해주시는 서술형 텍스트를 모아서 읽게 되면 아이들이 통학할 때 어떤 점들을 우려하는지 유형을 발견할 수 있을 거라 생각했습니다. 그리고 그 내용은 위치마다 개별적인 특징을 가질 수 있으므로, 가능한 구체적으로 응답을 받게 되면 액션 아이템을 도출하고 실제 실행에 옮기기까지 수월하겠다(그리고 거의 자동화할 수 있겠다)고 생각했습니다.
그리고 각자가 느끼는 위험지역은 서로 조금씩 다를 수 있지만, 이를 다 모아 보면 공통으로 지목하는 장소를 찾을 수 있을 거라는 기대도 있었습니다. 예를 들어, 통행이 잦지만 밤길이 어두운 골목은 누구나 가로등이 필요하다고 생각할 수 있습니다. 그 지역에 사는 사람들 누구나 생각하지만 목소리를 모으지 않으면 알 수 없는 인식들을 끄집어낼 수 있지 않을까, 하는 것이 가설이었습니다.
Q. 데이터 분석 과정을 조금 더 자세히 설명해 주세요!
앞서 설명한 디지털로 변환된 데이터는 다음과 같이 두 가지 형태로 분석하였습니다.
첫째, 수집한 텍스트에서 가장 많이 등장하는 단어 300개를 골라내고, 단어들 간 연관성을 확인했습니다. 이를 통해, 각 단어가 ‘위험하다고 인식하는 유형’ 중 어느 것에 해당하는지 분류했습니다. 전체 유형은 총 9가지였는데, 차량밀집, 사각지대, 낯선사람, 운전자의식 등이었습니다. 예상외로 차량에 대한 두려움이 가장 컸습니다. 그래서 이에 대한 응답은 차량밀집, 운전자의식, 보차미분리, 시야미확보, 교통안전인프라 등 5가지 유형으로 세분화되었습니다. (제가 당시에는 아이가 없던 시기였는데, 지금 두 아이를 키우다 보니 어떤 심정인지 충분히 이해가 갑니다. 도로 위의 자동차만큼 위협이 되는 상황이 또 없습니다)
텍스트마이닝 방법 중 단어 간 연관성 분석은 분류하기에 모호한 단어들의 특징을 잡아내는데 유용했습니다. 예를 들어, ‘택시’라고 하는 단어는 얼핏 생각하기에 ‘빠르게 달리기 때문에 교통사고가 걱정되는’ 상황으로 이해할 수 있을 텐데, 실제로는 ’ 흡연’이라는 단어와 연관성이 높았습니다. 원문을 직접 살펴보면, 초등학교 근처에 택시기사님들이 잠시 정차하고 담배를 피우는 모습들이 간혹 목격되었기 때문입니다. 이런 맥락을 고려하여 ‘택시’가 포함된 경우 ‘유해요소’ 텍스트로 태깅하였습니다.
그다음으로 공간정보분석(GIS 분석)을 접목했습니다. 학부모님들이 응답할 때 위하다고 그린 영역(폴리곤)마다 좌표를 입력하고 포개었을 때 격자 단위로 서로 겹치는 곳이 얼마나 되는지 세었습니다. 4천 여 장에서 수집한 수 만개의 폴리곤을 다시 30X30 격자 위에 올려놓고 빈도를 계산해보면, 각 학교 주변에 위험 요소가 있다고 가장 많이 응답한 지역이 떠오릅니다. 이런 곳은 행정에서 선택과 집중이 필요한 핵심 지역이 되는 것입니다. 이러한 분석을 일반적으로 핫스팟 분석(hot spot analysis) 라 부르고, 결과로 지목된 장소를 핫스팟(hot spot)이라고 부릅니다.
마지막으로, 각 핫스팟에 대해 텍스트마이닝 결과를 결합합니다. A 학교의 첫 번째 핫스팟은 ‘차량밀집’ 유형일 수 있고, 두 번째 핫스팟은 ‘낯선사람’ 유형으로 지목된 장소일 수 있습니다. 이렇게 핫스팟의 유형을 텍스트 분석 결과로 매기게 되면, 각 장소별로, 그리고 각 학교별로 가장 우선하여 해결해야 할 안전 이슈가 떠오르게 됩니다.
Q. 어떤 결과와 인사이트를 도출하셨나요?
최종적으로 20개 학교마다 데이터 분석 결과가 잘 녹아든 ‘정보지도(info-map)’을 제작했습니다. 이 지도는 각 학교의 통학 반경 내에 학무보님들이 위험하다고 인식하는 요소들을 읽기 좋게 요약하여 작성한 안전지도입니다. 부동산에 들렀을 때 중개인들이 각 블록마다 아파트 이름, 주소명, 개발계획, 학군 범위 등이 그려진 지도를 보고 고객들에게 설명하는 것처럼, 각 학교의 선생님들과 도봉구청 정책팀, 경찰서가 ‘시민들이 참여한 어린이 안전지도’를 들여다보며 행정계획을 논의할 수 있도록 한 것입니다.
실제 프로젝트 최종보고회에 각 학교 교장선생님들도 함께 참석해주셨습니다. 데이터로 발굴한 각 학교 주변의 주요 안전 이슈들은 평소 인지하고 있는 민원과 어느 정도 일치한다는 피드백을 받았습니다. 그리고 자체적으로 대응하기에 어려운 점이 무엇이었는지, 행정에서 해결해주면 좋을 지점들에 대해 허심탄회하게 의견이 오갈 수 있었습니다.
Q. 데이터 분석 결과를 활용한 액션플랜 또는 변화가 있었나요?
이 지도를 들고 구청의 관련 부서에서 현장을 방문했습니다. 어떤 경우에는 학부모들의 인식 상으로 안전을 위한 인프라가 더 필요한 위치라고 응답했지만, 실제로는 CCTV와 반사경(반대편 차량이 오는지 확인할 수 있는 거울) 등이 잘 설치된 경우도 있었습니다. 정책기획실은 이런 점들을 꼼꼼히 체크하여 학교 별로 실제로 예산이 투입되어야 하는 장소와 방안을 정리하였습니다. 최종본으로 제작된 안전지도는 행정의 액션 아이템이 함께 반영되었습니다.
Q. 기타 공유하고 싶은 데이터 분석 인사이트가 있으시다면, 자유롭게 작성해 주세요!
이번에 소개한 분석 프로젝트는 텍스트마이닝과 공간정보분석(GIS 분석) 두 가지를 결합한 사례입니다. 각각의 분석방법에서 차용한 방법론은 매우 기본적인 방식입니다. 텍스트마이닝에서는 단어 빈도를 체크한 것에 연관성 분석을 통해 해석한 것, GIS 분석에서는 셀 단위 응답 빈도를 분석한 것이 전부입니다. 꼭 복잡하고 어려운 알고리즘을 사용하지 않더라도, 풀어야 할 문제와 전달할 액션 아이템에 초점을 맞추면 적용할 수 있는 방법론의 범위는 매우 넓어진다고 볼 수 있고, 심플한 방법론으로도 효과적인 분석이 가능하다고 말할 수 있겠습니다.
분석 프로세스를 잘 디자인하면 그 자체로 비즈니스 모델로 작동할 수 있다는 점도 확인했습니다. 도봉구 프로젝트를 통해 초기의 데이터 수집부터 최종적인 지도 제작까지 전체 과정에 대해 참여 기관별 역할, 필요한 인원 및 소요되는 시간 등을 정형화할 수 있었습니다. 그 결과로 경기도, 서울 성북구 등 타 지자체에 이 분석 패키지를 그대로 적용하여 결과를 내고 관계자들의 호응을 얻기도 했습니다.
데이터 분석가의 역할에 대해 한번 더 되돌아보는 계기가 되었습니다. 조직과 이슈에 대해 데이터가 할 수 있는 역할과 기여는 상당히 많을 수 있습니다. 저는 그중에서 ‘중재’를 가장 중요한 역할 중 하나로 꼽습니다. 동일한 사안에 대해서도 조직마다 산발적인 이슈들을 병렬적으로 해결하게 되는데, 데이터 분석가는 이들의 방향이 서로 흐트러지지 않고 큰 틀에서 같은 방향을 바라볼 수 있도록 초점을 모아주는 중재자 역할을 할 수 있습니다. 이 프로젝트의 경우 4천 장의 종이지도를 녹여 만든 ‘어린이 통학안전 정책지도'가 그 역할을 했다고 볼 수 있겠습니다. 데이터 그 자체로도 귀중한 자료이겠지만, 분석가가 그것들을 통합하고 해체하고 재조립하는 과정을 거쳐야만 가능한 것입니다.
위 내용에 대해 2015년 FOSS4G Seoul에서 발표한 자료는 아래 링크에서 보실 수 있습니다.