뉴스스크랩
https://www.aitimes.kr/news/articleView.html?idxno=27418&page=2&total=1734
세계 최초로 전화사기 검거에 초점을 맞춘 인공지능(AI) 기반 ‘보이스피싱 음성분석 모델’이 개발되어 범죄 수사와 범죄자 검거에 속도가 붙게 될 것으로 기대된다.
행정안전부(이하, 행안부)는 보이스피싱 사기범 검거에 활용할 수 있는 ‘보이스피싱 음성분석 모델’을 개발하고, 이달 말부터 음성 감정 등 사기범 수사 과정에 활용한다고 (2023년 2월) 22일 밝혔다.
그동안 국내에서는 국립과학수사연구원(원장 박남규)이 러시아와 영국에서 개발한 음성분석 모델을 활용하여 보이스피싱 수사에 필요한 음성감정을 진행해 왔다. 하지만 외국어로 학습된 음성분석 모델 특성상, 한국어를 사용하는 범죄자의 동일인 여부를 판별하는 정확도에 한계가 있었다.
특히, 단일 범죄자의 음성 일치 여부 확인뿐 아니라 보이스피싱 범죄조직의 특성상 역할(수사관, 검사 등)을 나누어 그룹별로 활동하고 있어, 범죄에 연루된 범죄자들을 군집화하는 기능이 반드시 필요했으나 기존모델에는 이러한 기능이 없었다.
이에, 행안부 통합데이터분석센터는 국립과학수사연구원(이하, 국과수)와 함께 지난해부터 보이스피싱 범죄자 검거에 초점을 두고 화자(話者) 구분 정확도 개선과 범죄연루자 그룹화가 가능한 모델 개발을 추진하였다.
최신 인공지능 딥러닝 기술을 활용하여 탄생한 이번 모델은, 개발과정에서 국내외 약 6,000여 명으로부터 추출한 100만 개 이상의 외국어와 한국어 음성데이터를 활용하였다.
특히 한국어의 경우, 약 10만 개 이상의 일반인 음성데이터와 국과수가 보유 중인 실제 보이스피싱 사기범 음성데이터를 함께 사용하여 다양한 학습 과정과 성능 검증과정을 반복 시행함으로써 보이스피싱 화자 구분 등에 필요한 최적의 알고리즘을 만들어 낼 수 있었다.
모델 개발 이후, 두 차례에 걸쳐 진행된 정확도 검증은 1차에서 150명 660여 개, 2차는 200명 12,000여 개의 별도 음성데이터를 사용하여 다양한 상황 가정하에 이루어졌다.
성능 검증결과, 범죄자의 음성을 정확하게 판별해 내는 판독률이 기존 외산 분석모델 대비 약 77% 향상(100개의 범죄자 음성 감정 시, 기존모델에서는 목소리 동일성 여부를 28개 정도만 판별해 낼 수 있었지만, 새로운 모델에서는 51개까지 판별 가능)된 것이 확인됐다.
또한, 행안부 통합데이터분석센터는 기존 모델에서는 기대할 수 없었던 범죄가담자 그룹화(아래 표 참조) 기능도 세계 최초로 구현할 수 있게 되었다고 밝혔다.
범죄자 그룹화(사건별 범죄자 목소리의 연쇄 비교과정을 거쳐 동일인 확인 및 군집화) 개요로 분석과정을 거쳐 가담자①~④가 동일 범죄조직에 소속되어 있음을 확인 가능하다.
행안부 통합데이터분석센터는 모델 개발이 성공적으로 완료됨에 따라 국과수, 경찰청과 협력하여 보이스피싱범 수사와 검거 과정에 적극적으로 활용하고 해외 확산도 추진할 방침이다.
음성분석은 음성 콘텐츠를 자동으로 검색, 식별, 분류 및 상호 참조할 수 있는 기능을 제공하는 기술을 뜻한다. 사람의 음성언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리를 말하며 STT(Speech-to-Text)라고도 부른다. 대화체 음성인식이 어려운 이유는 많은 간투사가 사용되는 등 비정형 자연어(Unstructured Spontaneous Speech)이기 때문이다. 비정형 자연어를 처리하기 위해 음성인식 딥러닝 알고리즘을 활용한다.
음성 데이터는 Waveform파일로 저장이 된다. Waveform 형태의 데이터는 전처리를 통해서 유의미한 정보를 가지는 형태로 만든다. 이는 푸리에 변환(Fourier transform)을 거쳐 스펙트로그램(Spectogram, 시간 변화에 따른 스펙트럼의 변화)으로 바꿀 수 있다. 특정 시간 길이의 음성 조각(프레임)이 각 주파수 성분을 얼마나 가지고 있는지를 의미하는 스펙트럼을 얻고, 이 여러 개의 스펙트럼을 시간 축에 나열하면 스펙트로그램을 얻게 된다.
전통적인 STT에서는 푸리에 변환을 거친 후 청각 모델, 언어 모델, 렉시콘(Lexicon)을 합쳐 디코더(Decoder)로 만들어 각 과정을 조합해야 했지만, 딥러닝을 적용한 이후 별도의 중간 매개 없이 학습이 가능해졌다.
군집화(Clustering)란 비지도학습의 대표적인 기술로 x에 대한 레이블이 지정되어 있지 않은 데이터를 Grouping 하는 분석 알고리즘으로, 데이터들의 특성을 고려해 데이터 집단(Cluster)을 정의하고 데이터 집단을 대표할 수 있는 중심점을 찾는 것으로 데이터 마이닝의 한 방법이다.
군집화 알고리즘의 종류로는 K 평균(K-means), 평균이동(Mean Shift), GMM(Gaussian Mixture Model), DBSCAN이 있다. 이 중 K 평균(K-Means)이 음성분석 알고리즘에 주로 사용된다.
(1) K 평균(K-Means)
군집 중심점(Centroid)이라는 특정 임의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화기법이다. 선택된 포인트의 평균지점으로 이동한 후 이동한 중심점에서 다시 가까운 포인트를 선택하고, 다시 중심점을 평균 지점으로 이동하는 과정을 반복 수행한다.
알고리즘이 쉽고 간결하나 거리기반 알고리즘이기 때문에 속성의 개수가 매우 많을수록 정확도가 떨어진다. 음성인식의 기본 알고리즘으로 사용되는 것이 바로 ‘K-means’이다. 데이터가 불규칙하고 내부 특징이 알려지지 않은 분류 초기 단계에 적합한 특성을 가지고 있기 때문이다.
(2) 평균이동(Mean Shift)
K 평균과 유사하지만 거리 중심이 아닌, 데이터의 밀도가 가장 높은 쪽으로 군집 중심점을 이동하며 군집화를 수행하며, 이미지나 영상 데이터에 많이 활용된다.
(3) GMM(Gaussian Mixture Model)
데이터가 여러 개의 가우시안분포(좌우 대칭형의 bell 형태를 가진 연속확률함수)를 섞어서 생성된 모델이라고 가정해 군집화를 수행한다. 모수추정을 통해 개별 데이터를 분석하게 된다.
(4) DBSCAN(Density Based Spatial Clustering of Applications with Noise)
밀도 기반 군집화의 대표 예시로, 특정 공간 내에 데이터 밀도 차이를 기반 알고리즘으로 하여 복잡한 기하학적 분포도를 가진 데이터 세트에 대해서도 군집화가 가능하다.
‘보이스피싱 음성분석 모델’의 개발은 지난 5년간 국내 발생 보이스피싱 피해 건수가 약 15만 건, 피해액이 약 3조 원을 넘는 등 국가적 피해가 심각한 상황에서 AI를 활용해 초동수사의 속도와 검거율을 높일 수 있다는 유용성을 가지고 있다. 음성분석 AI 기술은 대화형 AI나 번역, 검색 등이 주된 활용분야라는 생각을 가지고 있었는데, 사회문제 및 현안을 해결하는 데에도 폭넓게 사용될 수 있다는 인사이트를 얻을 수 있었다.
Q1. 음성인식 기술이 사회 문제 해결 혹은 비즈니스를 위해 사용될 수 있는 다른 분야가 있을까?
Q2. 음성분석 AI는 100%의 정확성을 담보할 수는 없다. 특히 범죄수사에 활용될 때의 한계와 주의점이 무엇일까?