brunch

You can make anything
by writing

C.S.Lewis

by 패쓰파인더 Jan 27. 2022

시민은 경찰에게 무슨 말을 하나

치안고객만족도 비정형 데이터 의견 분석 

만족도, 안전도를 조사해서 집계한 수치를 분석하는 것 외에 수집한 의견을 분석하기도 한다.  대부분의 조사가 그렇듯 경찰도 가장 궁금한 요소들을 객관식 선택으로 묻지만, 마지막에는 기타 의견을 주관식으로 묻는다. 이때 수집한 주관식 답변을 분석하려고 시도한다.

.

고객들의 개방적 의견은 데이터 기술로 자동 유형화기 어렵다. 우선 분석자가 직접 유형화를 해서 분류하고 그 항목을 수치화하는 방식을 많이 택한다. 2019년 센터에 의뢰한 충남경찰의 자체 체감안전도 조사의 사례를 보자. 당시 충남경찰은 경찰청 조사로 파악하지 못하는 자세한 의견을 도민들에게 듣고 싶었다. 1차~4차까지 진행한 조사는 경찰청 조사보다 자세한 항목을 수집했다. 예컨대, 800명의 도민들에게 1)일상생활에서 불안감을 느낄 때가 어떨때인가? 2)경찰이 사회적 약자를 위해 해야 할 일은 무엇인가? 질문에 대한 답을 모았다. 분석관은 각 항목당 800개의 답변을 재분류해서 수치화했다. 예를 들어 '사회적 약자를 보호하기 위해 경찰이 해야할 말이 무엇인가'에 대한 답변을 유형화해서 수치로 나타내면 아래와 같다. 

2019 스마트치안 연구 분석 : 충남 체감안전도 분석(홍세은 등 4명)

여성 범죄 예방을 24%, 아동학대 예방 20%, 학교폭력 예방 17%, 청소년선도와 비행예방 13% 등 순이다. 충남 도민들은 사회적 약자를 여성과 아동, 학생으로 인식하고 있고 이들에 대한 보호를  요청하고 있다. 


이런 답변은 자동적으로 시각화하기 어렵다. 예를 들어 '경찰에 대한 신뢰가 낮아질 때는 어떨 때인가?'라는 질문에 대한 답변을 유형화한 것이다. 아래 표의 왼쪽은 답변을 유형화해서 집계한 것이고, 오른쪽은 이를 워드클라우드로 시각화한 것이다. 적극적으로 대처히자 않을때가 가장 많았다. 그리고 공정성 부족, 부정적 언론보도를 볼때가 35건으로 다음 순위었다. 그런데 '적극이라는 키워드를 워드 클라우드에서 찾아보면 그리 크지 않다. 

출처 : 위와 같음

'적극'이라는 키워드를 55명개에 공통으로 등장하지 않기 때문이다. 분석자가 비슷한 답변을 55건으로 묶어서 가장 많은 의견으로 집계했을 뿐, 이 답변이 자동화해서 가장 크게 나타나진 않는다.  워드클라우드는 이렇게 실제 작성한 단어가 아니라 분석자의 식견으로 단어를 선택하고 혹은 배제해야 한다. 오른쪽의 화면에서 경찰이라는 단어가 가장 크다. '경찰에 대한 신뢰가 낮게 느껴질 때는 어떨 때인가'라는 질문에 대한 답이기 때문이다. 답변자들이 '경찰'을 답에 가장 많이 쓰리라 예상할 수 있다. 의사결정자들에게는 '경찰'은 의미없는 고정된 단어이다. 분석자는 이를 제외하는 것이 타당할 것이다. 그런데 그렇게 따지만 '신뢰'도 그러할까? '범죄'도 그러할까? 어떤 단어를 넣고 빼는가 하는 것도 훈련과 유사 의미를 묶어주는 처리 수단이 필요하다.

.

2020년에 우리 센터의 김혜진 박사는 여성 고객만을 대상으로 수사부서에서 느끼는 만족도 답변을 정리했다. 공통 키워드별로 유형을 묶어서 세부 의견을 보여주는 방식이었다. '부탁드립니다'라는 공통 문장의 목적어로 '신속하게', '투명하게', '사무환경 조성'을, '사건 접수하는 것을', '수사진행에 대한 안내'를 등으로 나눴다. 이런 내용을 보면 수사부서에 고소고발한 여성들이 경찰에 대해 무엇을 부탁하고 싶은지 알수 있다.

(출처 : 2020 스마트치안연구분석, 김혜진)

나눌 수 있는 내용을 공통 키워드로 묶어서 보여주는 방식이 트리형 표현이다. 위 그림 오른쪽 아래는 항목을 분류해서 그래프로 보여줬다. 공정한 사건처리가 120건으로 가장 많고, 적극적인 수사가 70건이다.

.

2021년에는 그간 쌓인 기술로 비정형 의견을 자연어 처리해봤다. 딥러닝으로 단어 사이의 유사성을 구하는 워드투백터(word2vec) 방식을 사용해 수사부서를 찾는 시민들이 보낸 의견을 군집화했다. 

2021 스마트치안지능센터 r&d 보고서 : 김희두 등 4명 

위 그림은 학습한 시민 의견을 군집으로 표현한 것이다. 시각적으로 표현 12개의 군집은 색깔과 모양에서 서로 다른 형태를 띠고 있다. 그 각각의 내용들 중에서 의미가 있을만큼의 유사한 집단을 8개로 정했다. 8개의 시민 집단이 남긴 의견에서 자주 등장한 단어를 워드 클라우드 방식으로 표현하면 아래와 같다. 

출처 : 위와 같음

8개 군집들이 제시한 단어들을 보자. 각 특징을 뚜렷하게 구분할 수 있나?  아쉽게도 육안으로 구분하기 어렵다. 계산한 숫자로는 구분할 수 있을지언정 8개의 집단이 어떤 점에 불만 혹은 만족을 느끼는 집단인지 알수 없다. 보완하기 위해 어떤 연구가 더 필요할까? 위 군집들에서 대부분 경찰, 경찰서, 수사, 조사, 사건, 피해자, 처리, 과정 등은 반복해서 등장한다. 공통적으로 등장하는 단어들을 뺄 수 있도록 정리해야 한다. 이를 '불용어'라 한다.  

.

이런 언어 이해 기술의 핵심 기반은 '언어모델'이다. '언어모델'은 컴퓨터가 자동으로 문장을 학습하여 단어들간의 관계를 추론하는 기술이다. 경찰이 사용할 수 있는 언어 모델을 잘 만들수록 시민 의견을 더 잘 분석할 수 있다. 

작가의 이전글 경찰도 고객이 있다
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari