brunch

You can make anything
by writing

C.S.Lewis

비정형 텍스트 내 개인정보 탐지 및 비식별조치 기술

뉴스스크랩

지란지교데이터, ‘딥러닝 기반 비정형 텍스트 내 개인정보 탐지·비식별조치 기술’ 공개한다

기사 원문 출처: http://www.aitimes.kr/news/articleView.html?idxno=24627


지란지교데이터는 어떤 기업?

지란지교데이터는 고유식별정보와 데이터 보호활동을 넘어 보편적이고 실용적인 프라이버시 케어 서비스를 제공하는 기업이다. 지란지교데이터는 규제 및 보안과 관련하여 여러 컴플라이언스 기반의 솔루션을 소프트웨어로 제공하는 기업이다. 위협 인텔리전스 솔루션 보다는 개인정보보호 솔루션에 초점을 맞췄다. 따라서, 타 기업과 다른 점은, 보다 사생활 보호에도 많은 부분을 솔루션을 제공하고 있다는 것이다. 특히, 사생활 보호에서 정보보안 부분에 초점을 맞추고 있는 기업이다.


차별성

여태까지, 컴플라이언스과 관련한 여러 기업들의 경우 데이터의 보호에 관련한 솔루션 들을 많이 제공했다. 즉, 다른 기업의 경우, 법에 따른 컴플라이언스 목적의 보호활동을 빼고 나면 그 필요성과 보호 효과에 대해선 의문이 제기되는 것이 현실이다. 반면, 지란지교데이터 기업의 경우 법적인 규제 및 보안등의 기존의 공적인 규제들을 포함하면서도, 실질적인 개인의 사생활 보호까지 영역까지 솔루션을 제공하려고 노력하고 있다.


기사 내용 요약

개인정보보호 SW 전문 기업 지란지교데이터가 오는 4월 13일부터 15일까지 사흘간 서울 코엑스에서 350여개 업체, 450여부스 규모로 개최되는 '제5회 국제인공지능대전(AI EXPO KOREA 2022)'에 참가, 국내 최초로 딥러닝(DL) 기반 비정형 텍스트 내 민감·개인정보 탐지 및 비식별 처리 기술을 소개했다.

본 기업은 딥러닝을 기반으로, 비정형 데이터인 텍스트 데이터 내에서 민감한 데이터, 개인정보 데이터 등을 인식하여 이를 필터링 하는 하는 솔루션을 발표했다.

본 기업은 딥러닝을 기반으로 단순히 문장 구조 만을 인식하는 것이 아닌, 의미와 맥락을 연결하여 반복적인 학습으로 최종적으로 개인정보를 인식하게끔 구성되어 있다.



핵심 기술 및 비즈니스

아이디 필터 (ID-Filter)

‘아이디필터’는 사용자가 사전에 등록해 놓은 민감·개인정보 패턴을 기반으로 개인정보를 빠르게 탐지 및 식별화 하는 기술이다. 이는 통계적인 기반하에, 데이터 분포도 및 위험도 시뮬레이션을 통해 상황을 사전에 확인하는 과정을 가진다. 이후, 활용 데이터의 재식별 방지를 위한 후속 조치도 가능하다.


AI OCR (Artificial Intelligent Optical Character Recognition)

AI OCR은 사람이 쓰거나 기계로 인쇄한 문자 영상을 이미지 스캐너로 획득해 기계가 읽을 수 있는 문자로 변환하는 기술이다. 대표 적용 분야로 PDF 문서 변환이 꼽힌다. PDF는 위·변조를 막기 위해 문서 내용을 변환할 수 없도록 설계되지만 사후 편집이 어렵고 내용 검색도 어렵다. OCR을 적용하면 PDF 문서를 한글, 워드 등 다른 문서 형태로 쉽게 변환한 뒤 편집할 수 있다.


기술이 가지는 차별성

1. 비정형 데이터의 맥락 인지

일반적인, 개인정보 탐지 기술의 경우, 패턴을 기반으로 일종의 규칙성 등을 통계적으로 파악하여 분석하기 때문에, 개인정보 식별에 용이하지 않다. 하지만, 본 기술은 비정형 텍스트 데이터의 학습을 통해 즉각적으로 문맥의 흐름을 해석하여 인지하기 때문에 차별성을 가진다.


2. 문자의 편집 기술

기존의 OCR의 경우 단순히, 기계가 읽을 수 있는 문자로 변환 혹은 수기 데이터의 디지털 데이터 변화 등의 형태로 제공 되었다. 하지만, 본 기술의 경우, 이미지에 포함된 문자를 편집 가능한 데이터로 변환 해주는 기술이 도입 되었다.



시사점 및 인사이트

근래, 미디어는 다양한 형태로 표현되고 있다. 같은 기사 혹은 사건이라도, 단어의 표현에 따라 해석이 달라질 수 있다. 실제 ‘텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석’ 이라는 논문에서 신문기사의 내용 및 논조를 파악하기 위해, 경향신문, 한겨레, 동아일보가 정해진 기간 내에 일 어난 특정 사건에 대해 언급하는 단어들의 빈도를 측정하였다.

이는, 빈도 순위 상위 10위 안에 드는 단어들 을 제시한 후 코사인 유사도를 기반으로 신문사 간의 차이점을 분석하였다.

그 결과, 뜻이 유사한 단어들을 서로 다르게 배치하였고, 추출한 단어들을 기반으로 토픽을 모델링한 결과 서로 다른 토픽이 등장했다. 따라서, 어떠한 단어들을 사용하냐, 또한 어떤 구성으로 만드냐에 따라 다르게 해석 될 수 있다는 가능성을 보였다.



같이 생각해 볼 만한 논점

1. 본 기술을 어떤 산업에 어떤 식으로 활용 할 수 있을까?


2. 본 기술을 미디어와 같은 정보를 전달하는 매체에 활용 가능할까? 가능하다면, 단어의 범위는 어떻게 제한 해야 하는가?



작성자: ITS 21기 안정수

작가의 이전글 틱톡의 청소년 보호 정책 및 기능 강화
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari