brunch

You can make anything
by writing

C.S.Lewis

by 재주아빠 Jan 28. 2020

데이터 분석가에게 주어지는 세 가지 일들

풀어나갈 질문들을 유형화해보자

데이터 분석가는 뭘 하는 사람인가


주변 친구들은 '데이터 분석가'는 어떤 일을 하는 것인지 종종 묻습니다. 몇 년 전까지는 이 직업을 생소한 일로 여기는 경우가 매우 흔했습니다. 그럴 때마다 당시 하고 있는 일 내용을 장황하게 풀어서 이야기하는 경우가 많았고, 오히려 상대방이 '아 그러니까 네가 하는 일이 이런 거네' 하고 거꾸로 요약해주는 일도 자주 있었습니다.


실제로 데이터 분석가에게 주어지는 일, 그리고 할 수 있는 일은 매우 다양합니다. 그렇기에 일의 범위를 명확히 구분 짓기보다는 일의 범주를 나누어보는 것이 분석가 스스로에게, 분석가와 협업하는 관계자들에게 생산적이 글이 되지 않을까 싶은 생각으로 글을 시작해봅니다.



세 가지 유형의 질문


1. 의사결정 방향: 이거 진행해야 맞을까요? 

2. 효과적인 방법: 어떻게 해야 성과가 날까요? 

3. 근본적인 질문: 새로운 거 뭐 없을까요?


처음에 주어지는 질문은 대부분 세 가지 유형 중 하나로 시작됩니다. 하지만 주어지는 질문 유형만 깊게 분석하기보다, 자연스럽게 세 가지 유형을 오가며 고민해야 하는 경우가 훨씬 많았습니다. 그래서 5년 전 도봉구와 진행한 프로젝트들을 예로 들어 풀어나간 과정을 짧게 되짚어보았습니다. (여담으로 도봉구는 당시 ‘응답하라 1988’의 배경이 되는 장소이기도 했습니다.)


주차 문제 해결을 고민하는 정책부서와 이런 질문들을 풀었습니다.


1. 주차공간은 진짜 부족한 거 맞아요? 얼마나 부족한 걸까요?

2. 주차장을 더 지어야 하는데, 어디에 먼저 해야 할까요?

3. 주차장을 짓고 나면 문제가 다 해결될까요?



주차 문제를 풀어보자


사실 프로젝트의 출발은 ‘주차면 1000면 추가 공급’ 공약 때문이었습니다. 지역 내에서 주거지역 주차공간 부족 문제는 지속적으로 제기가 되었고, 구청장의 새 임기에서 이를 적극적으로 풀어보기로 했습니다. 즉, 두 번째 유형 ‘어떻게 해야 성과가 날까요?’로 시작했습니다. 


그래서 전체 도봉구 내에서 불법 주정차 단속이력을 들추는 것으로 프로젝트 초반부를 보냈습니다. '단속이 많은 지역은 주차장이 부족할 것이다'라는 아주 단순한 가설로 시작한 것입니다. 시간대별로 나누어 분석해보기도 하고, 밀집도 지도를 그려서 빠르게 정답을 찾으려 했지만 크게 설득력이 없었습니다. 도리어 근본적인 질문에 봉착했습니다. 


그런데 왜 ‘1000면’을 공급해야 하는가?


과제 담당부서에 질문하고 자료를 찾아보니, 구민들이 체감하는 정도와 예산 범위를 고려하여 정책 메시지로 선언한 것이 ‘1000면 추가 공급’이었습니다. 그래서 프로젝트를 원점으로 돌려 ‘정말 부족한 것은 맞는가, 부족하다면 몇 개가 부족한 것인가’로 질문을 바꾸었습니다. 첫 번째 유형 ‘이거 진행해야 맞을까요?’로 바꾼 것입니다.


기존 행정지표 ’ 주차장 확보율’ 대신 ‘주차문제 체감도’라는 새로운 지표를 개발했습니다. 기존 행정지표는 도봉구 전체 등록차량과 전체 주차 가능대수를 비교합니다. 이렇게 계산하면 주차장이 남습니다. 새로운 지표는 개별 ‘필지’ 단위로 등록차량에 비해 주차공간이 남는지 혹은 부족한지를 판별합니다. 그리고 주차공간이 부족한 필지만 지표로 계산합니다. 


주차공간이 여유 있는 주택의 필지는 가용한 자원으로 생각하지 않습니다. 남의 사유지에 마음대로 주차를 수 없기 때문입니다. 이렇게 모든 주거지역을 계산하고 나니 약 9,000면의 주차공간이 부족한 것으로 파악되었습니다.


하지만 주차공간 9,000면을 새로 짓는 것은 예산에 큰 부담이 될뿐더러 지을 수 있는 땅도 없습니다. 땅값이 비싼 강남구에서는 주차공간 1면을 확보하기 위해 필요한 예산은 최소 2억 원이 넘는다고 알려져 있습니다. 


돈 들이지 않고 쓸 수 있는 자원을 찾아봤습니다. 사유지는 마음대로 쓸 수 없으니, 국가나 시에서 관리하는 땅 등 협의를 통해 개방할 수 있는 ‘공유주차장’을 모두 모았습니다. 흥미롭게도 이를 통해 해결할 수 있는 최대치는 8,300대가량 되었습니다. 단순한 셈법으로 9,000대 중 (영혼까지 끌어모아) 8,300대를 해결할 수 있다면, 약 700개의 주차공간을 새로 지으면 되었습니다.


그렇다면 어디에 짓는 것이 좋은가?

새롭게 제시한 '주거지 주차문제 체감도'는 그 계산방법과 결과에 대해 정책 관계자들의 동의를 얻었습니다. 이제 효과적인 방법을 찾는 두 번째 유형의 질문으로 다시 돌아왔습니다. 사실 새로운 지표 개발로 우선 지역을 찾는 방법은 어느 정도 해결되었습니다. 주차장이 부족한 필지가 ‘모여있는’ 지역이 주차문제에 취약한 곳이기 때문입니다. 


이 과정을 간결하게 하기 위해 주차정책부서에서 오랫동안 다듬은 ‘주차관리구역 지도'와 '주차문제 체감도 지도’를 포개었습니다. 주차관리구역은 주차정책 운영을 위해 행정동 크기를 3-4배 더 상세하게 구분한 구획입니다. 데이터 분석 결과를 행정으로 전환하여 적용할 수 있는 가장 적절한 프레임이었습니다. 


각각의 구역에 ‘주차부족 수’와 ‘공유주차 수’를 함께 입력했습니다. 그리고 공유주차가 가능한 시설은 어디인지도 함께 작성했습니다. 이제부터는 행정절차로 풀어나가야 했기 때문입니다. 지도가 작성된 후, 주차정책팀은 연말에 남아 있던 주차 예산을 배정할 지역을 빠르게 선정했습니다.


새로운 방법은 없나?

시간이 더 지나면 주차장을 새로 짓고 있던 주차장으로 개방하는 것으로 충분하지 않을 수 있습니다. 앞부분에서 생략했지만, 사실 주차공간이 넉넉한 주택 필지에는 1만 개의 주차공간이 비어있었습니다. 쓸 수만 있다면 주차공간이 없는 차량 9,000대를 채우고도 남는 면적입니다. 그대로 두기에는 너무 아까워 사유지를 공유할 수 있는 방법을 제시해보기로 했습니다. 세 번째 유형: 새로운 거 뭐 없을까요? 에 해당하는 주제입니다.


거리를 기준으로 주차공간이 넉넉한 주택 필지와 주차장 확보가 필요한 필지를 서로 매칭 하는 간단한 알고리즘을 테스트해보았습니다. 우버가 승객과 차량을 매칭 하는 것과 같이, 서로 가까운 필지와 필지를 맺어주는 것입니다. 


실험적으로 적용해볼 주거지도 검토해보았습니다. LH공사에서 매입한 임대주택은 등록된 차량이 적어 주차공간이 비교적 여유가 있었습니다. 이 중 일부 지역 대상으로 테스트해보고, 결과가 괜찮다면 적합한 리워드를 설계하여 사유지로 확대 적용해보면 좋겠다는 제안으로 분석을 마무리했습니다.



질문들에 대한 질문


저는 오늘까지 금융, 커머스, 모바일 메신저 등 네 군데의 회사와 업종에서 데이터 분석을 하고 있습니다. 돌이켜보면 데이터와 사업영역은 서로 다르지만 질문의 뿌리는 다르지 않았습니다. 대표적인 질문만 나열해보면 아래와 같습니다.


(의사결정 방향) 상품정보를 보여주는 화면 UI를 개선하는 게 좋을까요, 그대로 둘까요? 리뉴얼이 필요한데, 디자인으로만 접근하는 것은 한계가 있어요.

(효과적인 방법) 신규 카드 초기 이탈이 심각합니다. 카드 발급 후 첫 100일 간 운영할 수 있는 개인화된 타기팅 모델을 만들 수 있을까요?

(근본적인 질문) 다른 사람과 협업하는 과정에서 메신저에 기대하는 니즈가 있을까요? 많이 쓰이는 협업 툴에서 유저들이 만족하는 포인트가 뭘까요?


분석가로서 세 유형의 질문에 유연하게 대처하는 능력이 필요하지만, 반드시 모두 잘 풀어내야만 하는 것은 아닙니다. 이걸 다 깊이 있게 잘 해내는 것은 풀 스택(full-stack) 개발자만큼이나 드문 일입니다. 개인뿐 아니라 데이터 분석만 전문으로 하는 기업들도 각자 초점을 맞추는 질문 유형이 있습니다.


링크드인에서 'Data Scientist', 'Data Analyst'를 키워드를 통해 주요 테크 기업들의 Job description을 유심히 읽어보면, 해당 포지션에서 풀어내길 기대하는 질문 유형과 대상이 명료하게 담겨있음을 알 수 있습니다. 역할을 잘 이해하는 기업은 Data Scientist/Analyst 옆에 'Product Analytics', 'Business Analytics', 'Insight Analytics', 'Policy Data Science' 등의 단어를 덧붙여 구체화하여 공고를 내는 경우도 잦아지고 있습니다.




그래서 새로운 프로젝트를 기획한다면, 데이터 조직을 새롭게 꾸릴 준비를 하고 있다면, 커리어 도약을 시도하고 있다면 세 가지 유형을 놓고 다시 스스로에게 질문을 던져보는 것은 어떨지 제안하고 싶습니다.


이번 프로젝트는 어떤 질문을 풀기 위한 것인가? 기계학습으로 해결할 수 있는가? 전반적인 진단을 먼저 거쳐야 할까?

우리 팀이 잘 푸는 질문과 못 푸는 질문은 무엇인가? 어떤 사람과 협업을 해야 보완이 될까?

나는 어느 질문에 흥미와 강점이 있는가? 지금 지원하는 포지션은 이를 잘 발휘할 수 있을까?



매거진의 이전글 진짜 기여자는 누구인가? (2편)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari