brunch

You can make anything
by writing

C.S.Lewis

by 범인 Jan 29. 2020

빅데이터와 형사정책

팟캐스트 '범인은 이안에 있다'



연관 콘텐츠


◆ 팟캐스트 '범인은 이안에 있다'는 아이튠즈 팟캐스트팟빵네이버 오디오클립유튜브(오디오)에서 청취 가능합니다.



일상 속의 빅데이터


최근 몇 년 사이 여러 분야에서 빅데이터와 그 활용에 대한 관심도가 높아지고 있다. 이러한 빅데이터 관련 분석은 기존 사회과학 연구를 위해 수집된 정형화된 통계 자료의 활용보다 일상의 개개인에게 더욱 친근하게 접근하여 실질적인 영향을 주는 듯한 흐름을 보인다. 


전 세계적인 쇼핑몰 아마존의 유저가 평소에 쇼핑을 했던 데이터(상품 클릭, 구매 기록 등)를 활용해 필요하거나 좋아할 만한 상품 광고를 노출시켜주는 형태의 활용이나 구글이 이용자들의 검색어를 대량 분석해 다가올 전염성 독감을 예측했던 활용사례가 이러한 빅데이터 활용의 대표적인 예시이다. 또한, 최근 19대 대선을 앞뒀던 기간에는 각 방송사나 신문사에서 소셜미디어(SNS)의 빅데이터를 활용한 다양한 분석을 앞다투어 내놓기도 해, 국민들은 기존의 대선후보 여론조사와 더불어 이슈화 되고 있는 사안들과 대중의 여론 등을 보다 쉽게 접할 수 있는 계기가 되었고, 이는 그 어느 때보다 빅데이터 분석이 활발하게 일상에 적용된 사례 중의 하나로 보인다.


이렇듯 빅데이터는 최근 몇 년 사이 사회현상을 분석하는 하나의 도구로 자리매김하였다. 더불어 다양한 학문분야에서 빅데이터를 활용하여 이전까지 분석하지 못했던, 혹은 객관적인 자료로서 분석할 수 없을 것이라 여겼던 파편적인 자료들[1]까지 분석에 활용할 수 있게 됨으로써, 학자들의 빅데이터에 대한 학구적 열망이 높아지게 되었다.


미국 형사정책의 빅데이터 활용


빅데이터를 활용함에 있어서 다양한 분야의 사회과학 분야가 활용을 시도하고 있으며, 형사정책 분야도 예외는 아니다. 형사정책연구원에서도 이러한 흐름에 발맞추어 2014년과 2015년에 각각 ‘범죄 빅데이터를 활용한 범죄예방시스템 구축을 위한 예비연구(I), (II)’를 통해, 국내에서 범죄 빅데이터를 어떻게 수집, 활용해야 할 것인지에 대해 광범위한 문헌 연구와 분석을 실시하여 미래성을 논의하기도 하였다.


미국의 경우 그 어떤 나라보다 앞서 빅데이터를 형사정책 분야에 적용시키려는 노력을 기울였고, 그 결과 미국 형사정책분야에서의 빅데이터는 다양한 방면으로 활용되고 있다. 대표적인 형사정책분야의 빅데이터 활용분야는 범죄, 범죄자, 피해자의 예측으로, 그와 연계된 범죄의 예방, 경찰의 활동, 양형 등의 과학적 근거가 된다. 범죄 빅데이터와 그 분석을 활용한 이론적인 연구도 부분적으로 이루어지고 있지만, 대부분의 범죄 빅데이터는 실질적인 범죄를 예측하는데 활용되고 있고 [2] 최근 들어 이러한 실무에서의 활용도가 얼마나 효율적인가를 분석하는 연구들이 수행되기 시작하고 있다.


데이터의 본격적인 디지털화가 시작된 2002년[3]을 빅데이터에 대한 인식과 활용에 대한 시작점이라고 한다면, 최장기간으로 보아도 현재 빅데이터는 약 15년 정도의 역사를 가진다. 더불어 미국 형사정책 관련 분야에서 빅데이터를 활발히 활용하기 시작한 것은 2010년 이후로 보이는데, 짧은 역사에도 불구하고 미국 형사정책 분야는 범죄 빅데이터의 활용에 대한 효율성, 그에 따른 어려움과 개선해야 할 부분들에 대해서도 인식해 나아가고 있다. 


본문에서는 미국 형사정책 분야에서의 빅데이터 활용에 대해 논의되고 있는 다양한 내용을 정리해 긍정적인 입장과 부정적인 입장으로 나누어 살펴보고자 한다. 이는 곧 국내 형사정책 분야에서도 활용될 빅데이터와 관련하여 이를 선행한 미국의 경우를 본보기 삼아 더욱 견고하고 문제점이 없는 적용을 위한 첫걸음이라고 하겠다.


미국의 범죄분석을 위한 빅데이터의 명(明)


범죄예방을 하는 데 있어 가장 효율적인 방법은 ‘범죄가 일어나기 전에 예측하여 차단하는 것’이라 할 수 있다. 하지만, 범죄학의 역사에서 알 수 있듯이 범죄를 예측한다는 것은 결코 단순할 수 없는 문제로, 현재까지도 많은 이론적 검증과 실증적 분석이 있었지만 명확한 답을 도출하기는 어려운 것이 사실이다. 이러한 와중에 빅데이터 분석은 비교적 명확한 범죄의 예측을 다각도로 보여줄 수 있는, 현재 범죄 예측에 있어서 가장 강력한 척도가 되어가고 있다(Simmons, 2016).


미국의 빅데이터 범죄예측을 적극적으로 활용한 곳은 경찰활동이다. 범죄예측에는 범죄의 특성(범행 장소, 범죄의 종류, 범행 시간 등)을 예측하는 것과 범죄자(성별, 연령, 인종, 거주지 등)를 예측하는 경우로 나뉜다. 이러한 분석은 기본적으로 과거의 축적된 자료를 기반으로 미래를 예측하는 알고리즘을 가지는데, 미국 경찰이 이를 활용한 경우 높은 효과성을 검증되어 이를 유지, 확대하는 모습을 보이고 있다(Joh, 2014). 빅데이터의 활용은 핫스팟(Hot-Spot)을 활용해 해당 지역을 집중 순찰하고, 주민들과 접촉을 강화하는 등의 사회의 범죄를 예측, 그에 대응하는 활동으로 활용되기도 했고(뉴욕, 시카고, 로스앤젤레스), 테러활동을 감지(뉴욕, 워싱턴DC)하는 테러예측활동에 활용되기도 하였다. 이러한 활동은 실제로 해당 지역에 범죄 발생 건수를 낮추는 결과로 이어졌으며, 이는 이전에 수동적(reactive)이었던 경찰의 활동을 보다 적극적(proactive)으로 변화시키는 계기가 되기도 했다. 주민들 또한 이러한 경찰의 변화를 긍정적으로 받아들이고 있다(McClure et al., 2014).


이러한 범죄 예측에서 활용된 자료는 특별히 분석을 위해 따로 취합된 자료가 아닌 기존에 축적된 자료를 활용할 수 있다는 것이 또 다른 장점 중의 하나다(Hassani et al., 2016). 미국의 경우 과거의 디지털 빅데이터의 분석이 용이하지 않았을 때부터, 범죄와 범죄자에 대한 다양한 자료를 수집해 축적해오고 있다. 이는 빅데이터 분석에 큰 이점중의 하나로 빅데이터를 활용한 분석에 빠르게 접근할 수 있었던 계기가 된 것으로 보인다. 기존에 축적된 대량의 데이터를 활용하는 방향은 자료 수집에 해당하는 인력과 비용, 시간의 소비가 줄어들고, 기존에 진행하고 있는 자료 축적 방식에 큰 영향을 주지 않아 새로운 분석을 적용하기 용이하다는 장점을 가진다.


또한, 대부분의 수집된 자료를 통한 분석에서 나타날 수 있는 연구자나 분석가의 개인적인 시각이 결과에 드러나는 경우보다는 노출된 모든 자료를 활용하여 분석하는 빅데이터의 경우 자료 자체가 분석의 결과를 나타낸다는 차이를 보인다. 흔히 연구에서 일컫는 설명도가 낮은 것은 다양한 사회현상의 변수를 포함하지 못하는 이유가 큰데, 부분 자료가 아닌 활용 가능한 모든 자료를 분석에 포함시킴으로써 범죄현상을 더욱 직접적으로 파악할 수 있다. 이러한 분석은 특히 신종범죄 등 가시적으로 드러나지 않는 현상을 파악할 때에도 효과적으로 쓰이고 있다.


특정한 접근법을 적용했을 때 무엇보다 중요한 사항은 효과성과 실현성에 있다. 현재 미국은 빅데이터를 형사정책에 사용함에 있어서 경찰의 현장 대응과 관리에서 두각을 보이고 있으며, 그 효과성 또한 입증되고 있는 상태이다. 이와 더불어 빅데이터를 형사정책 분야에서 활용하고자 하는 움직임이 계속되고 있으며 이는 새로운 이론의 발생이나 기존 이론의 검증 등으로 발전하는 방향으로 발전되고 있다.


미국의 범죄분석을 위한 빅데이터의 암(暗)


현재까지 미국뿐만 아니라 범죄 빅데이터를 적용하는 서구 국가들 사이에서의 가장 큰 문제점은 개인정보 보호문제이다. 빅데이터의 자료 수집 및 분석 특성상 불특정한 항목의 다양한 자료를 취합하게 되는데 여기에서 오는 개인정보 침해 문제는 미국에서도 꾸준히 주요한 쟁점이다. 이러한 개인정보 보호 취약성을 보완하기 위해 미국은 정부 차원에서 개인정보 식별을 배제하는 기술을 발전시키거나 법제적으로 개인정보보호 관련 법과 규제를 강화하는 등의 다양한 방면으로 노력을 기울이고 있다(Tene & Polonetsky, 2013).


이렇듯 법제적으로 보호의 노력을 하고 있지만, 빅데이터는 그 양이 방대하고 어떻게 분석을 하는가에 따라 개인식별이 가능한 정보들이 포함되어 있는 경우가 많다. 자료들은 축적되면 축적될수록 개인정보를 침해하게 될 확률이 높아지며, 이를 가중효과(Incremental or aggregation effect)라 칭한다(Solove, 2006). 이러한 가중효과는 정보의 조각 중 단 하나만이 개인식별과 연계되어 있다 해도 빅데이터 분석은 이를 식별해 개인정보와 그에 연결된 모든 자료를 분류할 수 있어 전체 자료의 공정성을 해치게 될 수 있음을 경고하고 있다(Narayanan & Shmatikov, 2008). 


빅데이터를 범죄와 관련된 분석에 활용할 때의 또 다른 중점적인 쟁점은 이러한 분석에는 불가피하게 차별적인 요소를 포함하고 있다는 것이다. 빅데이터가 이렇듯 형사정책에서 관심을 받기 전에도, 미국 형사정책분야는 프로파일링(profiling)을 적극적으로 활용하고 있었다. 특히 테러의 위협이 될 수 있는 장소(공항이나 쇼핑몰 등)에서는 중동인으로 보이는 사람들이 더욱 집중적으로 검열당했고, 범죄의 위험성이 높은 지역(현재 ‘핫스팟’으로 분석되는 지역)에서는 주로 흑인을 대상으로 불심신체수색(stop and frisk)이 행해졌다. 빅데이터는 이러한 프로파일링에 더욱 광범위한 자료를 포함시킴으로써 더욱 강력한 근거가 되면서, 프로파일링과 더불어 경찰과 형법의 차별적 행태에 증거를 제공하고 있는 것이 아닌지 논의가 이루어지고 있다. 


만약 빅데이터의 분석 결과 특정한 지역이 범죄가 일어날 확률이 높고, 특정한 사람들이 범죄를 행할 확률이 높다면 경찰의 활동은 이러한 지역에 순찰을 강화하고, 특정한 사람들을 불심검문하는 등의 활동으로 해결할 수 있을 가능성이 있으나 그 과정에서 범죄와 관련성이 없으나 범죄가 일어날 확률이 높은 지역에 분류된 지역에 살고 있기 때문에, 혹은 특정하게 분류된 사람의 특성을 몇 가지 가지고 있다는 이유로 차별의 대상이 되거나 인권을 침해당할 수 있다. 우범 지역 출신의 사람들이나 특정한 사람들이라고 할 경우 재범률이 높다고 했을 때, 이러한 사항들이 형량에 영향 미치는 것은 미국 형사정책에서 오랜 역사를 가지고 있다[4]. 


그러나 빅데이터의 근거만으로 이를 판단하게 되는 경우가 도래한다면 경찰의 활동 에서와 마찬가지로 특정한 지역에 살거나 특성을 가진 개인이라고 해서 부당한 형량을 받게 될 수도 있다. 현재도 형사정책시스템에서 부당한 차별적 대우로 문제가 되고 있으나, 빅데이터의 적용으로 미국에서 흑인이나 소수자의 경우 이러한 부당한 대우에 더욱 노출될 것으로 예상하여 많은 인권 전문가들이 우려를 나타내고 있다.


또한 범죄데이터를 축적해온 기관인 정부기관이 공식적인 자료에서 모든 범죄를 포함하지 못하고 있다는 것도 미국 범죄 빅데이터 관련 분야에서의 가장 큰 해결해야 할 과제 중의 하나로 보인다. 


형사정책에서의 빅데이터의 미래


빅데이터라는 새로운 패러다임이 등장하면서, 다양한 분야가 이를 앞다투어 활용하고자 노력하고 있으며, 형사정책 분야도 그중의 하나로 점점 그 활용도를 넓혀가고 있는 것으로 보인다. 특히 범죄 빅데이터 분석의 선두국가인 미국의 경우 실무에서의 적용과 그 효율성까지 검증하는 등 그 변화의 속도가 빠르다. 


그러나 궁극적으로 살펴보았을 때, 이러한 범죄분석과 적용은 기존에 진행되고 있던 범죄에 대한 다양한 양적 분석방법과 대동소이한 모습을 보이고 있다. 전범위의 데이터를 수집하여 이를 분석하지만, 모든 것을 포함할 수는 없기 때문에 특정한 매체나 자료의 범위를 정해야 하고, 개별적으로 노출에 적극적인 개인의 자료와 노출을 하지 않는 개인의 자료를 동등한 입장에서 분석하여야 한다는 것에서 ‘빅’데이터의 기준이 모호해지는 듯해 보이기도 한다. 또한, 어느 순간에는 정제된 자료로 결과물을 도출해야 하는 방법은 기존의 양적분석방법과 근원적으로는 유사한 모습을 보인다. 더불어, 개인정보침해 관련 사항을 제외한 빅데이터에 대한 비판들은 범죄를 양적으로 분석하는 관련 분석과 그 성질을 같이 하고 있다. 


이러한 빅데이터의 분석은 과거의 자료를 근거로 현재와 미래의 현상을 예측하는데 큰 장점을 가지는데 반해 현상의 원인을 파악하는 데에는 적극적으로 활용되지 않고 있다. 이는 기존의 범죄의 원인을 분석하고자 했던 다수의 연구에서 목적성 있는 정제된 자료를 활용했던 것과는 다르게 노출된 모든 자료를 활용해 나타나는 현상들 사이의 관계를 추측만으로 연계해 나가야 한다는 데에 있는 것으로 보인다. 이는 기존의 가설을 적립하고 그 가설을 검증하는 형식이 아닌 새로운 형식의 현상 분석으로, 점차적인 이론적 적립이 필요하다.


그럼에도 불구하고 형사정책분야에서의 빅데이터는 범죄현상분석의 하나의 도구로써 자리매김하고 있으며, 효율성이 점차 입증되고 있어 국내에서 활발히 활용했을 경우의 적용성이 기대된다. 국내에 빅데이터가 본격적으로 적용되기 이전인 현재의 시점에서 국내만의 ‘한국 범죄 빅데이터’의 정의와 그 범위, 정보의 활용에 대한 심층적인 논의와 전문가 양성 등의 노력이 동시에 이루어져 한국의 형사정책 빅데이터 시스템이 미국을 뛰어넘는 다양성과 활용성을 가지기를 바라며, 그 중심에 형사정책연구원이 함께하기를 기대해 본다.


참고문헌

탁희성, 박준희, 정진성, 윤지원 “범죄 빅데이터를 활용한 범죄예방 시스템 구축을 위한 예비 연구(II), 한국형사정책연구원, 2015.

Hassani, H., Huang, X., Silva, E. S., & Ghodsi, M. (2016). A review of data mining applications in crime. Statistical Analysis and Data Mining: The ASA Data Science Journal, 9(3), 139-154.

Hilbert, M., & López, P. (2011). The world’s technological capacity to store, communicate, and compute information. science, 332(6025), 60-65.

Joh, E. E. (2014). Policing by numbers: big data and the Fourth Amendment.

Polonetsky, J., & Tene, O. (2013). Privacy and big data: making ends meet.

McClure, D., Levy, J., La Vigne, N., & Hayeslip, D., DDACTS Evaluability Assessment: Final Report on Individual and Cross-Site Findings, Urban Institute, 2014.

Narayanan, A., & Shmatikov, V. (2008, May). Robust de-anonymization of large sparse datasets. In Security and Privacy, 2008. SP 2008. IEEE Symposium on (pp. 111-125). IEEE.

Simmons, R. (2016). Quantifying Criminal Procedure: How to Unlock the Potential of Big Data in Our Criminal Justice System.



[1] 대표적인 비정형 빅데이터로는 규격화 되어있지 않은 텍스트, 음성, 이미지, 동영상이 있다.

[2] 이러한 예측을 위한 분석으로는 빅데이터 회귀분석, 데이터 마이닝, 근접-반복 모델링, 시공간분석, 지리적 프로파일링, 위험지역 분석 등이 있다 (탁희성 외, 2015).

[3] 1986년에 전체 저장 자료의 1%가 디지털화 되었던 것에 반해, 1993년 3%, 2000년 20%, 2002년에는 50%로 급격히 증가하였다. 이러한 급격한 변화속에서 자료의 디지털 저장화가 50% 수준을 넘긴 2002년을 

‘디지털 시대의 시작(beginning of the digital age)’로 지칭하며, 이후 2007년 전체 저장자료의 94%를 디지털화 하게 되었다 (Hilbert & Lopez, 2011).

[4] 현재 미국의 20개 이상의 주가 자료의 분석을 토대로한 위험분석(risk-assessment program)으로 형량을 결정한다. 이를 결정하는 명확한 방법론에 대한 내용은 알려진 바가 없으나, 다양한 요소들(범죄경력, 성별, 연령, 교육수준, 재정상황, 가족관계, 주거상황 등)이 형량 결정에 영향을 미친다.


*출처: 형사정책연구소식 (2017년 여름호) '형사정책분야에서 빅데이터 활용의 명암미국 사례를 중심으로'


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari