경찰과 컴퓨터가 대화할 수 있는 공통 기반 만들기 -2
치연은 엔비디아 A100 40GB GPU 4대와 80GB GPU 4대의 고성능 GPU 컴퓨터를 갖추고 있다. 텐서플로우(Tensorflow) 기반으로 1개이상의 GPU를 동시에 사용할 수있는 기술도 확보했다.
개발 과정은 다음과 같다.
1) 데이터 수집 : 데이터를 수집해 텍스트를 추출했다.
2) 데이터 전처리 : 데이터의 품질을 관리하고 텐서플로우(Tensorflow)로 학습하면서 학습용 포맷으로 변환했다.
3)사전학습 : AI 언어모델을 학습했다.
4)미세조정(파인튜닝) : AI언어모델을 활용해 미세조정하고 검증했다.
치안 AI 언어 모델 개발 산출물은 가중치(파라미터)에 따라 Base(파라미터 1.4억개), Large(파리미터 3.4억개)의 2가지 종류이다. 가중치는 AI 모델의 정확도를 위해 설정했다. GPT(파라미터 1750억개)에 비하면 소규모이나 치안 언어로는 유일하다.
실험결과 범용 언어모델보다 치안언어를 정확하게 인식하고 있음을 확인했다. 아래 표는 한국어에 대한 범용 AI 언어모델인 KoELECTRA와 PoliELECTRA 베이스와 라지모델을 각각 비교한 결과이다. 치안 분야 데이터셋에 적용해서 평가한 바, PoliELECTRA의 베이스 모델이 85.15%, 라지모델이 86.52%로 KoELECTRA의 84.83%보다 높았다.
4. 결론 : 활용 및 향후 방향
개발한 PoliELECTRA 활용 방향은 다음과 같다. 각 부서에서 진행하는 연구개발이나 정보화시스템에 적용할 수 있다. 구매나 목표 달성 평가를 해야 하는 프로그램의 성능 평가에 활용할 수 있다. 구매를 선택해야 하는 제품이 치안 용어에 적합한지도 평가하는데 사용할 수 있다.
최근 AI의 눈높이에 비해 아직 시작단계이다. 경찰은 법집행업무를 담당하기에 더 정확하고 공정한 AI 개발이 필요하다. PoliELECTR를 시작으로 더 많은 경찰 데이터를 학습시키고 자원을 투입해 AI의 정확도와 경찰의 이해를 높히는 계ꈰ가 되길 바란다.
PoliELECTR는 깃허브에 공개했다.