사람으로부터 얻을 수 있는 가장 가치 있는 것은 무엇일까? 필자는 인공지능 연구자가 되기 전 다양한 단기 아르바이트를 했었다. 그중 기억에 남는 것이 엑스트라 알바이다. 영화 작전(2009)에 참여할 기회가 있었고, 지나가는 행인, 건물 앞에서 담배 피우는 남자, 도서관에서 공부하는 학생 역할을 맡았었다. 이때 당연히 필자의 얼굴이 영화에 활용될 수 있음을 인지하고 있었고, 꽤 괜찮은 급여를 지급받았다.
하지만, 만약 인지하지 못한 상태에서 얼굴이 찍히고 그것이 내가 모르게 활용된다면 어떨까? 실제로 우리가 사는 세상은 안전을 목적으로 곳곳에 CCTV가 설치되어 있으며, 이로 인해 의도치 않게 카메라에 담길 기회가 점점 많아지고 있다.
국내 CCTV 설치 현황 및 운영 현황[1]에 따르면 CCTV 설치 대수는 꾸준히 증가하여 공공기관의 CCTV 설치 대수만 백만 대가 넘게 설치되어있다. 뿐만 아니라, 차량용 블랙박스, 상업용 보안 카메라 등 공공목적이 아닌 카메라까지 포함하면 전국 팔도에 더 이상 사각지대는 없다. 수집된 영상들 대부분은 특이사항이 없을 경우 30일 이내에 자동 폐기된다. 개인의 초상권 보호 관점에서 이는 매우 온당해 보인다.
[그림 1] 공공기관 CCTV 설치 및 증가대수
반면, AI 기술을 필두로 하는 산학연에서는 생각이 다르다. 인공지능 학습에 활용할 수 있는 방대한 데이터들이 계륵으로 전락하여 증발하는 것에 아쉬움이 있다. 박용만 대한상공회의소 회장은 2019년 11월 대한상공회의소에서 기자간담회를 열어 “‘데이터 산업은 미래 산업의 원유’라고 하는데, 지금은 원유 채굴을 막아놓은 상황”이라며 “이 상태에서 어떻게 우리가 4차 산업혁명을 이야기할 수 있을지, 미래 산업을 이야기할 수 있을지 아득하다”라고 호소했다. 같은 달 여민수 카카오 공동대표도 간담회에서 “의도적으로 데이터를 유출한 기업이 있으면 영업이익 이상의 범칙금을 물게 하면 된다”며 “위험하니 안 된다고 묶어놓으면 아무것도 할 수 없다”라고 토로했다. [2]
2020년 1월 9일, 데이터 3 법이 통과됐다. 4차 산업혁명 시대의 핵심 자원인 데이터 거래와 개인정보 유출 우려를 차단한 ‘가명 정보’의 활용이 가능해졌다. 가명 정보는 이름, 주민등록번호 등 민감 정보를 비식별 처리해 특정 개인을 알아볼 수 없게 한 정보를 의미한다. [3] 수집 데이터의 분석 및 활용 범위가 넓어지고 있기 때문에 통계, 과학적 연구, 공익적 기록 보전 목적으로 활용한 경우 정보 주체의 동의 없이 가명 정보가 활용될 것으로 보인다. 이에 따라 국내외에서는 방대하게 수집된 데이터에 대하여 개인 식별 정보를 가명 처리하는 방법들이 활발히 연구되고 있다.
[그림 2] 개인정보, 가명 정보, 익명 정보 예시
Tao Li는 컴퓨터 비전 딥러닝 분야 최고 수준의 학회 중 하나인 CVPR(컴퓨터 비전과 패턴 인식 콘퍼런스)에서 비식별 처리 방법인 AnonymousNet [4]을 발표했다. 기존 Blurring(흐려짐), Pixelation(모자이크) 외에 사실적인 대안을 합성하여 이미지를 비식별화하고 개인 정보 보호 여부가 측정 가능한 방법을 제안했다. 얼굴 특징 속성에 대하여 선별적으로 변환이 가능하고 각 속성이 제대로 비식별 처리가 되었는지 측정 가능하도록 설계했다. 얼굴 특징 속성은 나이, 성별, 피부색, 머릿결 타입, 표정, 수염 유무 등 실제 얼굴 특징뿐만 아니라 안경, 귀걸이 등 액세서리 착용 유무에 대해서 변환 가능하도록 고안됐다.
[그림 3] AnonymousNet의 비식별 처리 및 비교 영상
[그림 4] CelebA 데이터셋의 얼굴 특징 속성과 분포
Facebook AI Research는 컴퓨터 과학 분야 최고 수준의 학회 중 하나인 ICCV(국제 컴퓨터 비전 학회)에서 비디오 영상에 적용한 비식별 처리 연구 Live Face De-Identification in Video [5]를 발표했다. 다양한 포즈(Pose), 표현(Expression), 조명 조건(Illumination conditions), 폐색(Occlusions)에서 성능 저하가 최소화할 수 있도록 설계되었다. High Level 특징(눈, 코, 입, 눈썹)은 변경되고, 포즈, 표현, 입술 모양, 조명, 피부 톤은 보존된다. 또한 연속된 프레임에서 깜빡임(Flickering), 시각적 인공(Visual artifact), 왜곡(Distortion)을 보정한 비식별 처리 알고리즘을 연구했다.
[그림 5] Facebook AI Research의 비식별 처리 실험 결과 원본 영상(위), 비식별 처리 후(아래)
필자는 연구소에서 수집된 영상에서 개인정보를 비식별화하는 업무를 수행하고 있다. 개인의 얼굴뿐만 아니라 차량 번호판 등에 대하여 비식별 처리 서비스를 제공한다. Blur, 모자이크를 통한 개인정보 제거 서비스를 제공할 뿐만 아니라 가상의 인물로 얼굴을 변환하여 비식별 처리하는 방식도 진행 중이다. [6]
[그림 6] 얼굴 비식별 처리 결과 이미지 예시
감정 인식, 이상행동 감지 등의 인공지능 학습 및 R&D 연구에 문제없이 데이터를 활용할 수 있도록 원본 영상 내 인물의 자세, 표정, 표현 정보를 유지한 상태로 개인 식별 정보만을 비식별 처리 가능하도록 연구 중이다. 뿐만 아리나 차량 번호판의 비식별 처리 또한 기본적인 방법 외에 활용 목적에 따라 선택 가능한 비식별 처리를 연구 중이다.
필자는 이전 기고 데이터셋 구축에서 GAN의 중요성에서 비식별 처리는 데이터 댐 사업의 ‘수로(水路)’ 역할을 하고 있음을 언급한 바 있다. 댐의 물이 원활히 흐르도록 하기 위해 얼굴, 차량 번호판 외에도 홍채, 지문, 걸음걸이, 목소리, 주소, 이름, 주민등록번호 등 개인정보를 포함하는 다양한 정보에 대한 비식별화 연구가 필요할 것이다. 데이터 생태계가 활성화되어 AI와 데이터를 활용하는 기업들이 데이터에 대한 갈증을 해소하고 글로벌 경쟁력을 확보할 수 있기를 기대해본다.
[4] Li, Tao, and Lei Lin. “Anonymousnet: Natural face de-identification with measurable privacy.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2019.
[5] Gafni, Oran, Lior Wolf, and Yaniv Taigman. “Live face de-identification in video.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.