brunch

You can make anything
by writing

C.S.Lewis

by 패쓰파인더 Aug 04. 2023

치안AI언어모델 PoliELECTRA

경찰과 컴퓨터가 대화할 수 있는 공통 기반 만들기 -2

이 글은 치안정책연구소 과학기술연구부장 배순일님이 직접 개발한 Poli-Electra를 설명한 글이다. 대부분의 자료도 개발책임자인 배순일 부장님이 작성한 설명자료(별첨 ppt)를 문장으로 바꾸고 실무 사례를 추가해 작성했다. 경찰을 위한 데이터 개발에 관심있는 분들이 이해하는데 도움이 되길 바란다.


치안 분야 AI 언어모델의 의의와 필요성에 대해서는 지난 글에 소개했다.


3. 치안정책연구소 치안ai 언어모델 개발

치안 정책연구소는 2020년부터 인프라, 데이터, 인력을 구성해 치안AI언어모델을 개발했다. 치안상황관리관(112상황실)에서 전향적으로 112신고데이터를 제공해주었다. 데이터수집체제는 스마트치안지능센터에서 구축했다. 모델 개발은 과학기술연구부장이 직접 수행했다. 인프라 구축과 공개 등은 윤철희 박사가 맡았다. 


치안 AI 언어모델은 경찰의 기본적인 언어를 이해하고자 만들었다. 일종의 AI 순경인 셈이다. AI 순경이 있어야 AI 수사관 AI 프로파일러 등이 가능하다. 경찰관으로 기본 상식을 갖춰야 특수 부서에서 훈련과 경험을 축적하는 것이 순서이다. 112신고, 법령, 판례 등을 치안 데이터를 사용해 단어 들 간의 관계를 학습시켰다.   

ai 치안 언어모델의 사용 데이터 예시

구글의 범용 AI ELECTRA에 치안 데이터 5GB와 한국어 데이터 49GB를 학습시켰다. 구축환경은 치연의 페쇄망 인프라를 사용했다. 112 데이터를 비롯한 치안 데이터는 인터넷에 공개해선 안되기 때문이다. 치연의 경찰관, 일반직 연구자들만 제한적으로 접근할 수 있는 하드웨어와 소프트웨어를 설치해 데이터를 학습했다. 

치연은 엔비디아 A100 40GB GPU 4대와 80GB GPU 4대의 고성능 GPU 컴퓨터를 갖추고 있다. 텐서플로우(Tensorflow) 기반으로 1개이상의 GPU를 동시에 사용할 수있는 기술도 확보했다. 

치안정책연구소 컴퓨터 인프라

개발 과정은 다음과 같다. 

1) 데이터 수집 : 데이터를 수집해 텍스트를 추출했다. 

2) 데이터 전처리 : 데이터의 품질을 관리하고 텐서플로우(Tensorflow)로 학습하면서 학습용 포맷으로 변환했다. 

3)사전학습 : AI 언어모델을 학습했다. 

4)미세조정(파인튜닝) : AI언어모델을 활용해 미세조정하고 검증했다.


4. 치안ai 언어모델 개발 결과

치안 AI 언어 모델 개발 산출물은 가중치(파라미터)에 따라 Base(파라미터 1.4억개), Large(파리미터 3.4억개)의 2가지 종류이다. 가중치는 AI 모델의 정확도를 위해 설정했다. GPT(파라미터 1750억개)에 비하면 소규모이나 치안 언어로는 유일하다. 


실험결과 범용 언어모델보다 치안언어를 정확하게 인식하고 있음을 확인했다. 아래 표는 한국어에 대한 범용 AI 언어모델인 KoELECTRA와 PoliELECTRA 베이스와 라지모델을 각각 비교한 결과이다. 치안 분야 데이터셋에 적용해서 평가한 바, PoliELECTRA의 베이스 모델이 85.15%, 라지모델이 86.52%로 KoELECTRA의 84.83%보다 높았다. 

 

치안 AI 언어모델 비교 평가 결과


4. 결론 : 활용 및 향후 방향

개발한 PoliELECTRA 활용 방향은 다음과 같다. 각 부서에서 진행하는 연구개발이나 정보화시스템에 적용할 수 있다. 구매나 목표 달성 평가를 해야 하는 프로그램의 성능 평가에 활용할 수 있다. 구매를 선택해야 하는 제품이 치안 용어에 적합한지도 평가하는데 사용할 수 있다.  


최근 AI의 눈높이에 비해 아직 시작단계이다. 경찰은 법집행업무를 담당하기에 더 정확하고 공정한 AI 개발이 필요하다. PoliELECTR를 시작으로 더 많은 경찰 데이터를 학습시키고 자원을 투입해 AI의 정확도와 경찰의 이해를 높히는 계ꈰ가 되길 바란다.


PoliELECTR는 깃허브에 공개했다.


작가의 이전글 치안 언어모델 PoliELECTRA
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari