범죄 데이터의 다중 특징값을 반영한 유사도 측정 알고리즘
지난 달, 우리 연구소 동료들과 인공지능학회에 참석해 발표한 논문을 소개한다.
이 논문을 작성한 사람은 김희두, 김창식, 최주현, 장광호이다.
요 약
보이스피싱 범죄 수사를 할 때 동일 범인이나 조직의 과거 범죄 리스트를 추정하는 분석이 필요하다. 그 정확도를 높이고자 범죄 데이터를 하나로 통합하고, 딥러닝 기반의 다중 특성 추출 결과를 종합하여 유사도 값을 계산하는 알고리즘을 제시하였다. 이 알고리즘을 통해 여러 출처에 흩어져 존재하는 보이스피싱 데이터를 개체 식별과 결합 방식으로 통합하여 저장할 수 있다. 딥러닝을 활용한 텍스트와 음성의 다중 특징 추출 및 유사도를 측정해 정확하게 범죄 리스트를 추출했다.
Ⅰ. 서 론
보이스피싱 조직 수사의 목적 중 하나는 조직원 전체를 검거해 핵심 범인의 형량을 높여 다음 범죄의 발생을 막는 것이다. 이를 위해서 많은 자료에서 관련된 범죄 리스트를 선별해 동일 사건임을 추정하는 분석이 필요하다.
최근 범인들이 남긴 음성, 텍스트를 활용해 동일 범죄를 추정하는 인공지능 기술을 개발하고 있다. 주로 사건마다 드러난 특징을 추출하여 범죄 유사도라는 척도로 비교하는 접근 방식이다. 그러나 각 기술들은 수집된 정보량의 제한으로 단일 기술만으로는 동일성을 정밀하게 측정하기가 힘들다. 가령 A 사건의 수사 중 목소리만으로 높은 유사도가 측정된 B 사건을 찾아도, 범죄의 시기나 사용 수법이 다르면 같은 범죄로 추정하기 힘들다. 그렇지만 같은 목소리로 추정되는 범죄를 수사 대상에서 제외하는 것도 수사관에게는 부담이 된다. 아직 알지못하는 단서가 더 있을 수 있기 때문이다.
본 논문은 이같이 단일 특징으로 측정하는 유사도 기술의 한계점을 극복하고자 했다. 임베딩 추출 기반의 여러 인공지능 기술을 중첩적으로 사용하는 다중 특징값 조합 방식의 동일 범죄 추정 알고리즘을 제시한다. 본 논문에서 제시하는 알고리즘을 통해 범인의 목소리, 사칭 수법, 범인의 발화패턴이 모두 유사한 두 개의 사건을 찾아낸다면 단일 특징만으로 검색된 수백 건의 사건보다 우선하여 수사 대상에 포함할 수 있어 사건 처리의 속도와 동일 사건 추정의 신뢰도를 기존보다 높일 수 있다.
Ⅱ. 추론 알고리즘의 설계
보이스피싱 범죄의 동일 사건 추정 분석을 위해서는 그림 1과 같이 검색용 데이터베이스를 구축하기 위한 데이터 통합 알고리즘과, 새로운 입력데이터와 기존의 통합 데이터를 비교하여 동일 사건을 추론하는 유사도 측정 알고리즘을 종합하여 설계할 필요가 있다.
데이터 통합을 위해서는 (1)보이스피싱 데이터 수집, (2)유형에 따른 다중 특징 추출 기술의 적용, (3)엔티티 참조를 통한 데이터베이스 통합의 과정을 거친다. 보이스피싱 범죄는 범인의 음성, 콜센터에서 사용한 대본, 계좌 이체 및 통신 내역 등의 단서를 남긴다. 이 정보들은 사건 기록의 형태로 경찰에 접수되어 저장되거나, 피해 사실을 공유하는 인터넷 커뮤니티 등으로 모두 흩어진다. 따라서 단서를 종합할 수 있는 데이터를 여러 출처에서 수집하여 같은 저장소에 모으는 것이 필수적이다. 두 번째로, 수집된 데이터들은 동일 킷값으로 참조할 수 있는 엔티티가 존재하지 않는 상태이기 때문에 다중 특징 추출 기술을 이용해 범행일시, 장소, 사칭 수법, 범인의 성별, 나이, 목소리 특징들을 다양하게 추출한다. 추출한 정보를 바탕으로 동일 값을 기반으로 테이블을 병합하고 중복을 제거(merge and perge)하는 개체 식별 및 결합(Entity Resolution)의 과정을 거친다. 요약하면 음성, 경찰 범죄정보, 인터넷 정보를 모아 딥러닝 기반 특징을 추출하고, 결합해 DB를 만드는 것이다[1].
그림 1. 보이스피싱 데이터의 통합과 동일 조직 추정 단계의 구분
입력데이터를 사용하여 동일 사건을 추론하기 위해서는 그림 2와 같이 설계된 알고리즘에 따른 추론 과정이 필요하다. 먼저 통합 데이터베이스 내에서 입력으로 들어오는 정보의 속성을 음성과 텍스트로 구분한 뒤, 데이터베이스 내의 동일 유형의 데이터와 비교하여 유사도를 측정한다. 이때 텍스트의 경우에는 대화 형태의 텍스트와 범죄 사실 요약 형태의 텍스트에 따라 언어모델을 이용해 서로 다른 임베딩 값을 추출하여 유사도를 측정할 수 있다[6,7] 음성은 화자 인식한 화자별 임베딩 값으로 유사도를 측정한다[4,5].언어 모델을 활용해 범죄의 수법 정보를 추출한 뒤 고유의 특징값으로 활용할 수 있도록 별도의 필드를 구성하는 event detection 또는 event coding 기술을 응용한다면 추출된 정보를 비정형의 음성과 텍스트 데이터와 결합하여 유사도를 측정할 수 있다[2,3]. 예를 들어, 보이스피싱 데이터는 전문 경험이 있는 수사관들의 레이블링 방식을 따를 때 사칭 기관, 사칭명 등 기망 수법에 따른 범죄 개체명을 추출할 수 있다. 대면편취, 계좌이체 방식 등의 편취 방법에 따른 범죄 event를 분류할 수 있다.
추출된 특징값들은 언어모델 또는 딥러닝 모델의 신경망을 통과하여 추출한 임베딩 값에 해당한다. 해당 벡터들을 cosine similarity와 같은 벡터 간 거리 측정 방법을 이용해 유사도를 측정할 수 있다. 계산한 유사도 값들에 따라 Top k에 해당하는 사건들을 검색할 수 있다. 각 사건의 상세 정보를 조회하여 가장 유사한 사건을 선별해 낼 수 있다.
그림 2. 보이스피싱 동일 범죄 조직 추정 알고리즘
이 분석 기술을 활용할 수 있는 분야는 다음과 같다. 첫째 이미 검거한 범인들이 과거에 어떤 범죄를 저질렀는지 추가 범행을 밝힐 수 있다. 둘째 현재 수사하고 있는 사건이 어떤 범죄들과 같은지 그룹화할 수 있다. 그룹화한 범행의 단서를 모아 범인 검거에 활용할 수 있다. 셋째 발생하고 있는 범죄시도의 데이터(녹음음성, 문자, 사진파일)등을 대조해서 피싱범죄시도를 밝히는 위험탐지 서비스에 활용할 수 있다. 위험탐지 서비스를 위해서는 수집한 통합DB의 유사도측정 알고리즘 외에 ‘위험도 등급’을 판단하는 기술을 더 연구해 활용해야 할 것이다.
Ⅲ. 결론
본 논문에서는 보이스피싱 데이터의 범죄 분석 관점의 특성을 고려한 다중 특징 추출 기술을 조합하여 통합 보이스피싱 범죄 데이터베이스를 구축하고, 새로운 데이터를 입력받았을 때 동일한 사건을 찾아냄으로써 동일 범죄 조직을 추정할 수 있는 딥러닝 기술 활용 알고리즘을 제안했다.
현재 수사관들은 엑셀 시트를 이용해 개별적으로 사건 목록을 관리하는데, 각 1건의 사건에는 획득한 정보 유형과 정보량이 달라 육안으로 직접 동일 여부를 필터링하는 비효율적인 수사 방식으로 어려움을 겪고 있다. 본 논문의 연구에서 개발된 알고리즘을 이용해 실제 수사 시스템의 기능이 개발된다면 더욱 효율적인 범죄 수사가 가능해질 것으로 기대한다. 더 나아가 통신서비스와 결합해 시민들이 전화통화, 문자 등을 입력해 피싱 범죄 해당 여부를 탐지할 수 있는 서비스로 나아갈 수 있다.
ACKNOWLEDGMENT
이 논문은 2022년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No. 2022-0-00653, 보이스피싱 정보 수집·가공 및 빅데이터 기반 수사지원시스템 개발)
참 고 문 헌
[1] Ahmed, S., Gentili, M., Sierra-Sosa, D., and Elmaghraby, A. S. “Multi-layer data integration technique for combining heterogeneous crime data". Information Processing & Management, 59(3), 102879. 2022.
[2] Parolin, E. S., Khan, L., Osorio, J., Brandt, P. T., D'Orazio, V., and Holmes, J. “3M-transformers for event coding on organized crime domain”. In 2021 IEEE 8th International Conference on Data Science and Advanced Analytics (DSAA) (pp. 1-10). IEEE. October. 2021.
[3] Lwin Tun, Z., and Birks, D. “Supporting crime script analyses of scams with natural language processing”. Crime Science, 12(1), 1-22. 2023.
[4] E. Variani, X. Lei, E. McDermott, I. L. Moreno, and J.Gonzalez-Dominguez, “Deep neural networks for smallfootprint text dependent speaker verification,” Proc.IEEE ICASSP. 4052-4056, 2014.
[5] D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, and S. Khudanpur, “X-vectors: Robust dnn embeddingsfor speaker recognition,” Proc. IEEE ICASSP. 5329-5333, 2018.
[6] Nils Reimers and Iryna Gurevych. “Sentencebert: Sentence embeddings using siamese bert networks”. arXiv preprint arXiv:1908.10084, 2019.
[7] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. “Bert: Pre-training of deepbidirectional transformers for language understanding”, 2019.