brunch

You can make anything
by writing

C.S.Lewis

by 패쓰파인더 Aug 03. 2023

치안 언어모델 PoliELECTRA

경찰과 컴퓨터가 대화할 수 있는 공통기반 만들기 첫번째 글

이 글은 치안정책연구소 과학기술연구부장 배순일님이 직접 개발한 Poli-Electra를 설명한 글이다. 대부분의 자료도 개발책임자인 배순일 부장님이 작성한 설명자료(별첨 ppt)를 문장으로 바꾸고 실무 사례를 추가해 작성했다. 경찰을 위한 데이터 개발에 관심있는 분들이 이해하는데 도움이 되길 바란다.

1. 들어가며

사람과 인공지능(AI)와 대화하는 시대가 되었다. 미국의 AI 연구기업 'OPEN AI'가 발표한 챗GPT는 '사람과 대화할 수 있는 AI'의 실체를 세상에 알렸다. 챗GPT는 월간 활성 사용자수는 출시 2달만에 1억명을 달성했다. 인스타그램보다 15배 빠른 역대 최단 시간 기록이다.(동아일보, ‘23.2.3) GPT-4는 미국 모의 변호사 시험에서 상위 10%에 해당하는 정답을 맞췄고, 미국 대학 입학 자격시험에서 읽기와 수학에서 각각 상위 7%와 11%를 기록했다. (매일경제, ‘23.6.29) 우리나라의 공공 부분도 관심있게 지켜보고 있다. 행정안전부는 공무원용 '챗GPT 활용법 및 주의사항 안내서'를 배포했다.(‘23.5.9)

챗GPT와 같은 AI언어모델은 사람들이 일상에서 사용하는 언어를 컴퓨터가 이해하고 주어진 일을 처리하기 위한 핵심 기술이다. 챗GPT 외에도 지금까지 수많은 AI언어모델들이 발표되어 왔고, 모델들의 성능, 크기, 개발/운용 비용 등 사양도 다양하다.

특히, 특정 분야의 데이터를 집중적으로 학습하여 특정 분야의 성능을 강화한 도메인 특화 AI언어모델들이 많다. KorPatBERT(특허 분야, 2022), KBAlbert(금융 분야, 2021), LegalBERT(법률 분야, 2021), BioMegatron(생물학 분야, 2020), ClinicalBERT(의료 분야, 2020), BioBERT(생물학 분야, 2019), SciBERT(과학 분야, 2019) 등이다. 이런 특화 AI언어모델은 컴퓨터가 해당 분야의 용어를 이해하는 기반이다. 각 분야의 빠른 AI 발전은 특화 AI 언어모델이 검색, 추천, 챗봇 등 프로그램 성능을 높혀주고 있다.

2. 치안분야에 특화된 AI언어모델 필요성

경찰은 치안분야 AI언어모델에 대한 본격적인 연구를 시작하지 않고 있다. 경찰의 미래 계획을 수립한 <경찰청 미래비전2050>에는 포함해 있다. 누가 어떻게 개발할지 역할을 부여하고 계획을 세워야 한다. AI 언어모델을 개발하기 위해서는 실제 데이터를 컴퓨터가 학습할 수 있도록 제공해야 한다. AI 언어모델은 원천기술에 가깝기에 오랜 시간이 필요하다. 민간 기관에서 치안분야에 AI언어모델을 적용하는 연구를 수행하는 것이 어려운 이유다. 치안분야의 특성상 데이터 공유가 제한적이기 때문이다.

서비스의 성능을 좌우하는 핵심기술인 AI언어모델 개발을 위해, 글로벌 기업들은 천문학적인 예산을 투입하며 경쟁하고 있다. 글로벌 기업들과 치안R&D의 기술 격차는 크고, 더 확대되고 있다.

치안 분야에 특화된 ai 언어모델 개발을 시작해야 하는 이유는 다음과 같다.

첫째 목표하는 연구개발의 성능을 확보하기 위해서이다. 실제 치안 데이터에 특화한 언어모델이 없이 경찰관이 기대한 검색, 추천, 분류 등 기술 개발 성과를 얻기 어렵다. 수사 경찰관이 사용하는 정보화시스템인 형사사법정보시스템(Korean Information Crime System, 이하 약칭 KICS)과 관련된 R&D로 예를 들어보자. 경찰관들이 개별 사건을 처리할 때마다 해당 시스템에 입력하는 사건의 데이터들을 저장한다. KICS는 현재 수사관들이 사건을 접수하고 종결하는 과정을 관리하는 시스템이다. 이 시스템에 모이는 데이터를 활용해 검거해야 하는 범인의 단서를 쫓고 싶은 수요는 자연스럽다. 범인 검거 단서 확보를 위한 검색 서비스가 필요하다. 그런 검색서비스가 '언어모델'를 기반으로 하고 있다면 성능을 체계적으로 높힐 수 있다. 2019년 해당 시스템에 내장한 검색 프로그램과 치연에서 자체 개발한 검색 프로그램을 활용해 특정 사건의 키워드를 검색해봤다. 보이스피싱 조직이 은행을 사칭하여 대출빙자 사기한 사건들을 검색하는 실험이었다. 당시 검색한 키워드는 '웰컴투 저축은행이 대출이자 7%로 대환대출해주겠다'는 사기였다. 키워드는 '웰컴투', '7%'였다. KICS에 내장한 검색프로그램을 활용했을 때는 2건의 사건을 검색했다. 반면 치연이 개발한 소프트웨어를 활용해서 치연이 별도로 가지고 있는 사건 목록에서 검색한 바, 36건을 검색할 수 있었다. 상용품과 실제 범죄 용어에 특화해서 개발한 프로그램의 성능차이를 확인했다. 당시 치연의 개발물이 언어모델을 기반으로 한 것은 아니었다. 실제 데이터를 기반으로 해서 단어 사전을 기반으로 해서 만든 파이썬 코드의 프로그램이었고, KICS의 시스템이 아닌 수사분석 목적으로 제공받은 범죄사실실의 다운로드 파일이었다. 적용환경에서 차이점을 고려하더라도, 2건과 36건의 검색 결과 차이는 크다. KICS에 설치한 검색 프로그램은 정확한 단어를 찾아주는 "exact match" 방식이었다. 이 방식으로는 '웰컴투 저축은행'이라는 정확한 키워드를 입력해야 찾을 수 있다. 반면 치연 개발물은 시행착오를 기반으로 띄어쓰기, 오타, 약칭 등을 찾더라도 찾아주는 방식으로 만들었기 때문이다. '단어 사전'기반의 검색프로그램보다 더 나아간 언어모델은 훨씬 정확하고 안정적인 검색을 할 수 있을것이다. 치안 분야의 단어들의 의미를 이해하고 추출하는 것이 언어모델이다.

경찰 수사시스템의 범죄사실에서 '웰컴투', '7%'의 키워드로 관련 사건을 검색한 결과

둘째, 연구개발의 벤치마크를 만들어 안전성과 신뢰성을 발전시키기 위함이다. 실제 데이터를 기반으로 연구개발을 할수 없음이 경찰 분야의 취약점이다. 2018년 경찰청이 발표한 연구개발물 중 '유사한 범죄사실을 찾아주는 기술'이 있었다. 형사들은 범인을 밝히지 못한 사건을 쫓을 때, 이 사건과 비슷한 과거 범행은 어떤 것이 있는지 열람하곤 한다. '망치로 들고 창문을 깨고 들어가, 금고문을 뜯었다'는 것과 같은 개성있는 범죄 행동을 찾아 동일 범인인지 단서를 맞춰본다. 그런 개념에서 시작한 이 연구는 KICS에 입력한 범죄사실의 유사성을 찾아내는 것을 목표로 R&D를 완료했다. 연구개발 산출물은 통상 시제품으로서 실제 데이터에 기반하여 성능을 다시 측정하는 것이 일반적이다. 그러나 당시는 물론 여전히 그런 체제를 갖추지 못했기에 실제 데이터 기반 실증 절차를 거치지 않고, 바로 실제 시스템에 적용했다. 적용 결과는 당연히 좋지 못했다.

수사데이터의 범죄사실의 유형을 선택해 유사한 사건을 찾아내는 R&D의 시제품 화면

100개의 사건 중 목표하는 범인이 실제로 저지른 사건을 2건 포함하여 검색하는 방식으로 내부 평가해봤다. 100건의 사건 중 1~2번째는 아니더라도 10번째 전후로는 추천해야 활용할 수 있을거라는 기대와 달리, 50번째, 80번째로 추천했다. 이런 결과는 연구팀과 담당부서의 과오라고 보기 어렵다. 실제 개발물을 적용할 벤치마크가 없는 상태에서 검증없이 적용했기 때문이다. 이 문제는 여전히 해결되지 않고 있다. 개발과 평가에 활용한 데이터셋, 언어모델이 없는 상황에서 개발팀의 가상데이터를 활용한 산출물을 승인해야 하는 현 상황도 부담이다. 경찰청 각 부서는 과학적 검증을 생략하고 정성적 검증이나 사례 평가 방식으로 마무리하거나, 실제 데이터를 개발업체에 제공해서라도 성능을 높혀야 하는 딜레마를 겪는다. 문제 해결을 위해 개발과 검증에 활용할 언어모델을 만들어 꾸준히 고도화해야 한다.

셋째, 연구개발에 활용할 공통기반을 마련해 투명한 치안 AI를 개발하기 위함이다.

챗GPT를 비롯한 거대 인공지능은 가공할 성능에 반작용으로 투명성, 책임성, 편향하지 않고 공정해야 한다는 경각심도 주고 있다. 편향적이지 않은 인공지능을 위해서도 해석할 수 있는 언어모델을 만들어 평가의 지표로 삼고, 설명가능한 개발체제를 만들어야 한다. 현재의 치안 분야의 인공지능 개발은 실제로 사용할 수 없는 부정확하고 형식적인 R&D의 산출물이거나, 경찰의 요구를 달성하기 위해 폐쇄적으로 실제 데이터를 기업이 적용해서 그 과정과 목표를 검증할 수 없는 불투명한 결과물이지 않을까 우려하고 있다.

우려를 불식하기 위해 '치안 AI언어모델'에 기반하여 편향성과 정확도를 점검하고 환류하는 체제를 구축할 수 있다. 경찰 내부에서 언어모델을 개발해 내부 연구자가 고도화하고, 여러 부서의 수요를 개발하는 공공 민간 연구팀에 제공하는 것이다.