brunch

You can make anything
by writing

C.S.Lewis

by 패쓰파인더 Apr 13. 2022

경찰과 AI-4

치안 초거대 AI의 개념과 필요성

(아래 내용은 2021년 연구용역 의뢰 '치안 분야 초거대 AI 구축 기획연구'와 LG연구원의 자료를 재구성한 것이다.)


앞서 경찰 분야 AI의 현황과 한계를 겪으며 해결 방법으로'치안 분야 초거대 AI'의 필요성을 모색하고 있다. 


초거대 AI란 무엇인가? 

'대용량 연산이 가능한 컴퓨팅 인프라를 기반으로 방대한 데이터를 스스로 학습해 인간처럼 사고·학습·판단할 수 있는 AI'라고 정의하고 있다. (김경진, 2021.12.14., ‘신소재 발굴하고 제품 디자인까지…LG ‘초거대 AI’ 공개‘, 중앙일보 /  KCCI BRIEF vol 152 - 초거대 AI 개발 동향과 과제, 2021.11. 대한상공회의소)

초거대 AI는 특정 용도에 국한되지 않고 다양한 분야에서 활용 가능하고, 초고성능 컴퓨팅, 복합 인공지능, 자율지능 공존 기술 등의 요건을 필요로 한다.


기존 AI보다 막대한 데이터와 자원이 들어가지만, 성능도 훨씬 높은 개발방식이다.  

기존 딥러닝 학습법은 수 억 개의 데이터로 사전 학습하고, 이것을 각 활용 분야별 10만 개 정도의 추가 학습시킨다. 초거대 인공신경망 학습법은 500억 개 이상의 전체 영역을 한꺼번에 학습시키고, 각 분야별 데이터로는 10개 정도의 샘플 학습시키면 된다. 기존 학습법은 분야별 관련 문서를 검색해서 해당 문서에서 답을 찾는다. 초거대 인공신경망 학습법은 학습한 정보를 바탕으로 종합적으로 맥락을 추론하여 정답을 추론할 수 있다. 

관련 전문가의 표현에 따르면 기존 인공지능은 '맥락 학습'(in context learning)으로서 '일치하는 정보를 가져와 보여주는 기술'이고, 초거대 AI로 상상하는 기술은 '이야기를 맥락으로 바꾸는 기술'(story to  context)를 추구한다는 것이다. 문서를 읽고 종합적인 ‘판단할 수 있는 추론(reasoning) 능력을 필요로 한다.


각 기업들이 연결해 있는 개별 사업별로 AI를 구축하는 것보다 소요 자원도 적고 효과도 높다. 구글 등 세계적 기업은 물론, 네이버, 카카오, LG, SKT, KT 모두 도전하기 시작해서 효과를 내기 시작했다. 

구글이 공개한 오픈 AI GPT-2는 2019.8월 공개 당시 언어 생성, 번역, 검색, 기사 작성을 할 수 있는 능력을 보였다. 당시 사용한 파라미터(매개변수)의 숫자는 15억 개였다. 2020.6 공개한 GPT-3는 성능을 높이고, 한국어 문장 생성을 보여주었는데 파라미터 수는 1,750억 개였다. 2023년 공개 예정인 GPT-4는 100조 개 파라미터라고 밝혔다.


경찰 분야에 적용한다면 이렇게 상상해볼 수 있다.

112, 수사, 사이버, 지식관리 등 각 분야의 데이터를 학습해서 해당 분야별 비슷한 문서를 추천하는 것이 현재 방식이라면 초거대 AI 방식은 각 경찰분야별 데이터는 물론, 경찰에 관련한 뉴스, 판례 등 참고할 문서를 

모두 모아서 학습한 후, 맥락을 이해한 상태에서 추론(REASONING)해서 112, 수사, 지식 문서, 사이버 위험 등을 분야별로 적용해 답을 제시하는 개념이다. 우리나라에서도 활발하다. LG 연구원은 초거대 AI는 언어, 이미지 이해 및 생성, 데이터 추론 능력을 갖췄고, 6,000억 개 파라미터이다. 


LG 연구원의 초거대 AI 사업모델을 살펴보면, 경찰의 적용방향을 상상해볼 수 있다.

LG 연구원은 LG 그룹사 전체의 데이터를 모아서 초거대 AI를 구축하고 있다. LG 그룹의 가전, 생활건강, 패션, 정보화 기업 등 많은 관계사들이 모은 데이터를 모아서 초거대 AI를 구성하고 막대한 데이터와 자원으로 구축한 강력한 AI를 각 회사에 제공하고 있다. 각 사들은 LG의 초거대 AI를 통해 1) 콜센터 자동 응답 2) 패션 트렌드 생성 3) 고객 응대 모니터링 4) 온라인 뱅킹 지원 등 사업 모델을 지원하고 있다. LG만 한 거대 기업도 AI를 직접 연구하는 역할은 LG 연구원에 부여하고, 각 계열사에서 LG연구원이 만든 초거대 AI에 기반해서 각자가 원하는 추가 기능을 개발하는 식이다. 


이 방식을 경찰에도 적용해야 한다. 

 

첫째, AI 분야는 막대한 데이터와 고성능 서버 등 자원을 필요로 한다.

경찰의 각 부서에서 따로 하기 어렵다. 여러 부서가 자기 목적으로 개발하는 것은 이미 초거대 AI가 아니다.

각 부서가 가진 데이터 량으로는 초거대 AI 달성도 어렵다. 경찰 데이터에서 가장 많은 데이터양은 112 신고 데이터로 연 2500만 건이다. 

그러나 그 데이터로도 경찰의 맥량을 이해하기 위한 학습 데이터를 만들기 부족하다.


둘째, 외부에 맡길 수도 없다.

경찰 데이터는 대부분 개인정보를 포함한 민감 데이터이다. 개인정보보호법상 이 데이터를 그대로 연구에 사용할 수 없다. 수사 데이터는 형사사법전자화법의 적용을 받아 수사목적, 아무리 넓게 잡아도 수사 분석을 위해서만 개발해야 한다.  비식별화, 집계한 데이터로는 AI 개발을 하기 어렵다.

 

셋째, 발빠른 기술 동향에 따라가면서 협업 파트너를 만들어야 한다. 

경찰의 초거대 AI는 오롯이 경찰만의 노력으로 할 수 없다. 이미 유수의 기관들이 하고있는 성과를 배우고, 연결해야 한다. 데이터셋을 구성하고, 파라미터를 연결하며, 장비를 구성하는 하나하나가 국내외 각 분야 전문가들에게 도움받을 역할이다. 최신 기술 집단과 의사소통을 하기 위해서도 도구로서 초거대 AI가 필요하다.


치안 초거대 AI를 만든다면 그 방식과 개발 분야는 다음과 같다.

경찰 내 데이터를 직접 개발하는 부서인 치안정책연구소(이하 치연) 스마트치안지능센터에서 경찰의 여러 부서의 데이터를 한꺼번에 저장한다. 치연에서는 112, 수사, 사이버, 교통, 민원, 치안고객의견, 각종 설문조사, 매뉴얼과 같은 내부 데이터와 뉴스, 판결문 등 치안에 활용할 수 있는 외부 데이터를 모아 학습 데이터를 구축한다. 학습 데이터로 만들 핵심 기술은 치안에 대한 자연어를 분석하는 기술이다.

2021 치안분야 초거대 AI 기획연구 중


세부적으로는 자연어 분야에 촛점을 맞춘 초거대 AI 기술은 다음과 같다. 

1)초거대 언어모델 생성기술

대용량의 도메인 말뭉치와 고성능의 병렬연산 장비를 활용하여, 범죄 수사에 특화된 사전 학습 거대 언어모델을 생성하는 것이다. 이는 타 기술 범주에서 필요한 기술적 분류를 수행하기에 앞서 정확도를 높이기 위한 필수적인 사전 작업이다.

2)개체명 인식 기술

인물, 시간, 장소, 기관 등 자연어에서 명명 가능한 개체에 대해서 인식하고 추출하는 기술이다. 효율적인 범죄정보 분석과 관련성 탐색을 위해 내·외부 범죄 관련 텍스트에서 사전 정의된 범죄 기술 개체(사건관련인, 범죄 시간·장소, 범행도구 등)을 자동으로 추출하기 위함이다.

3)문장 분류 기술

문장 등을 입력하면 의도한 기준에 따라 2개에서 수십 개의 카테고리로 분류하는 기술이다. 입력받은 문장의 적용 죄명 또는 법조를 분류하는데도 사용하고, 진술조서에 인식된 발화문에 나타난 피조사자의 감정 또는 거짓·진실의 가능성 분류 등 다양한 목적으로 발생할 수 있다. 어떤 분류를 할 것인가 임무(태스크)를 정의하고 모델을 개발한다. 

4)문장·단어·형태소 등 토큰 단위 분리 기술

임의의 길이의 텍스트를 입력하면 세부 분야에 맞는 문장~최소 단위(토큰)으로 분리하는 기술이다. 범죄 도메인 텍스트의 경우 한 문장이 한 페이지가 넘는 장문의 문서가 많다. 기존 일반 언어모델을 기반으로 한 자연어 처리 태스크 적용이 어려워 개발해야 한다. 이 기술로 내부 보고서·치안 관련 뉴스 기사에서 키워드를 추출하는 작업에 활용할 수 있다.

5)의미역 인식 기술

자연어 문장에서 서술어를 중심으로 구성된 의미적 역할(행위자, 대상격, 도구격 등)을 담당하고 있는 최소 단위(토큰)를 구분하여 인식하는 기술이다. 범죄 기술 문서는 가해자·피해자·목격자 중심의 사건 기술을 통해 법적 쟁점을 다툰다. 기록한 행위를 정의하고, 쟁점을 추출하는 임무(태스크)를 위해 문장·문단 내에서의 의미역 인식은 필수이다. 

6)기계 독해, 질의응답

사람이 자연어로 하는 질문과 주어진 대상의 내용을 기계가 이해하고 자동으로 대답할 수 있는 기술이다. 수사문서에서 적절한 수사 단서·법적 쟁점·관련 근거 등을 수사관의 의도에 맞게 추출이 된다면 여러 수사 단계에서 보조할 수 있다.


이런 초거대 AI 개발을 목표로 한다면 경찰 스스로의 AI 연구 체제를 정비하고 데이터 통합 연구, 분석 기술 인력을 확충해야 한다. 

작가의 이전글 경찰과 AI-3
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari