brunch

You can make anything
by writing

C.S.Lewis

by Benny Jung Nov 22. 2021


디지털 뱅킹의 사각지대:

개인정보보호강화기술과 개인정보 위험 완화 및 비즈니스 혁신을 위한 역할

공저자: Amir Tabakovic (co-chair); Experiens AI Ville Sointu (co-chair); Nordea Sebastian Reichmann; TietoEvry Romana Sachova; CaixaBank


도입


a. MobeyForum의 위상


오늘날의 데이터 중심 세상에서 은행 산업은 기존의 데이터 개인정보보호 강화 기술(PET, Privacy Enhancement Technology)에 너무 많이 의존하고 있다. 이 기술은 많은 숨겨진 위험을 안고 있으며 이를 사용하는 기관, 특히 상위 경영진에게 잘못된 보안 의식을 심어준다. 이러한 의존성은 규제에 의해 금융 데이터 사용에 대한 제한과 함께 업계 전반의 데이터 중심 혁신을 가로막고 있다.


Mobey Forum의 새로운 AI & Data Privacy Expert Group은 이 분야에 대한 상황 분석을 통해 개인정보보호 위험 완화와 비즈니스 혁신에서 새롭게 부상하는 PET의 중요성에 대한 은행업계의 사각지대를 드러냈다. 또한 이러한 사각 지대는 조직이 중요한 데이터를 저장 또는 공유하지 않고 혁신과 복수의 이해 당사자 생태계 간의 균형을 유지해야 하는 오늘날의 금융 서비스 환경에서 점점 더 중요해지고 있다고 주장한다.


Mobey’s Expert Group은 전 세계 금융 기관 내 의사결정자와 전략적 리더십을 위해 작성된 이 보고서에서 금융 서비스 조직이 기존의 개인정보보호 위험을 크게 줄이고 설계별 개인정보보호 원칙을 구현할 수 있는 잠재력을 창출하는 새로운 형태의 PET를 강조한다. 전문가 그룹은 또한 업계가 PET에 대한 전략적 접근방식을 채택할 수 있는 경우, 주요 기관이 혁신을 희생하여 개인정보 보호가 발생하는 개인정보보호 가치 창출 딜레마에서 마침내 벗어날 수 있다고 결론짓기 전에 이러한 기술에 대한 높은 수준의 소개를 제공한다.


이 보고서는 두 부분으로 된 것으로 첫 번째이다. 두 번째 부분은 2021년 말에 발간될 것으로 예상되며, 다양한 PET 및 발전 수준과 오늘날 은행들이 직면하고 있는 가장 시급한 개인정보 위험을 해결할 수 있는 잠재력에 대해 더 깊이 살펴볼 것이다.


b. 왜, 지금 이 주제를 다루는가?


오늘날, 은행에서는 데이터와 AI의 전략적 가치가 빠르게 증가하고 있다. 이를 염두에 두고, Mobey Forum은 데이터와 개인정보보호 기술이라는 두 가지가 교차하는 지점에 대한 분석을 우선시했다. 데이터와 개인정보보호 준수는 은행들이 데이터 및 통찰력 중심의 비즈니스 기회를 추구하기 위해 다뤄야하는 중요한 영역이다. 금융 산업은 다른 산업과 달리 신뢰에 의존하는 비즈니스 모델이기 때문에 데이터 보호의 역사가 한 세기 동안 지속되어 왔다. 도중에 개인 정보를 침해하지 않고 규모에 맞는 데이터로 운영하는 것은 중요한 과제다. Mobey는 다양힌 학문적 배경을 가진 다양한 전문가 그룹을 구성하여 이러한 도전과 신흥 PET가 제공하는 기회를 조사했다.


다음에서는 Expert Group은 PET와 관련된 공통 용어, 금융 서비스에서 개인정보보호의 역할 및 자주 사용되는 개인정보보호 기술에 대해 명확히 설명한다. 이 보고서는 기존의 데이터 중심 관행 및 혁신에 미치는 영향과 함께 오늘날 널리 사용되는 전통적인 개인정보보호 방법이 직면하고 있는 문제와 관련 위험을 강조한다.


c. 문제의 범위


데이터 및 통찰력 중심의 비즈니스 모델 및 가치 사슬의 일부로서 기존 비즈니스 영역의 경쟁력을 지원하고 새로운 기회에 대한 액세스를 제공하는 등 데이터가 은행에 있어 가장 중요한 전략적 자산 중 하나가 되었다는 것이 업계의 공통된 견해다. 이 전략적 자산의 가치는 데이터를 사용하고, 효용을 분석적으로 추출하고, 고객과 은행 자체와 관련된 의사결정 능력을 향상시키는 은행의 능력에 달려 있다.


이러한 이니셔티브와 관련된 데이터의 상당 부분은 민감한 개인 정보를 포함하므로 데이터 개인정보보호 제한의 대상이 된다. 이는 은행의 데이터 관리 및 분석 기능과 함께 ‘데이터 개인정보보호 요구사항의 숙달이 은행의 중요한 경쟁력이 되었는가?’라는 중요한 질문을 제기한다.


현재의 금융 서비스 혁신 환경은 민감한 데이터를 제3자와 공유하더라도 반드시 보호하고 관리해야 하는 다중 이해 당사자 생태계를 조장한다(이는 AML(자금세탁방지) 이니셔티브, 부정 행위 탐지 또는 신용위험 모델의 개선을 포함한다). 이러한 데이터 생태계 및 관련 활용 사례는 데이터 개인 정보 관리에 대한 새로운 요구 사항을 제시한다.


기존 PET가 이러한 새로운 요구사항을 충족하지 못한다는 사실을 이해하면 은행은 혁신 이니셔티브를 중단하거나 새로운 요구사항을 충족할 수 있는 새로운 PET를 탐색하고 개인정보보호와 데이터 중심 가치 창출 사이의 격차를 해소하는 두 가지 옵션을 갖게 된다.


이 보고서는 개인정보를 데이터 중심 혁신 시나리오의 구성요소로 사용하는 것을 포함하여 은행이 프라이버시 대 가치 창출 딜레마에서 벗어나는 데 도움이 되는 기술에 초점을 맞추고 있다.

데이터 가치 사슬의 관점에서 이 보고서는 마지막 두 단계의 개인정보보호 문제에 초점을 맞추고 있다(그림 1 참조):  

새로운 통찰력과 지식(분석)을 창출하기 위한 데이터 처리와 분석

내부적으로나, 거래(교환)를 통한 산출물의 활용


기술적 관점에서 이 보고서는 인증 또는 정보 검증에 더 초점을 맞춘 일부 기법을 배제하고 데이터 분석에 초점을 맞춘 소프트웨어 기반 PET에 대해 조명할 것이다. 하지만 이 보고서에서는 일반적으로 기밀 컴퓨팅이라고도 하는 하드웨어 기반 신뢰할 수 있는 실행 환경을 다루지 않는다. 이 보고서는 대부분 유럽의 개인정보보호 규제에서 영감을 받았다. 다른 지역들은 무엇이 보호될 수 있는지에 대해 매우 다른 법적 규정을 가지고 있을 수 있다.


그림 1: 데이터 가치 사슬에서 데이터 활용 구성요소


오늘날의 상황: 은행이 개인정보보호 문제에 접근하는 방법


업계 전반에 걸쳐, 은행들이 혁신을 위해 고객 데이터를 사용하고 데이터 중심 복수의 이해당사자 생태계를 개발하는 것을 막는 개인정보보호 관련 장벽을 극복하려고 노력하고 있다는 미묘한 징후가 있다. 은행들이 그들이 탐구하는 새로운 개인 정보 관련 기술에 대해 공개적으로 논의하기를 여전히 주저하고 있지만, 최근 몇 년 동안 소수의 발표가 있어 이 분야에서 혁신과 욕구가 증가하고 있음을 보여주고 있다.


a. Banco Bradesco는 암호화된 데이터를 사용하여 대출 예측 모델을 탐색한다.


2020년, Banco Bradesco는 고객이 향후 3개월 이내에 대출이 필요한지 여부를 결정하는 예측 모델을 개발하기 위해 고객의 재무 이력이 포함된 암호화된 데이터를 사용하여 6개월 파일럿을 실시했다. 파일럿에 사용된 데이터는 최종 예측 모델이 생성한 기계 학습 프로세스 중에 해독되지 않았다. 암호화된 데이터에 분석 기법을 적용할 수 있는 방법을 ‘동형 암호화(Homomorphic Encryption)’라고 한다.


b. 개인 정보를 보호하면서 은행 간의 AML(자금세탁방지) 협업


네덜란드 은행 Rabobank와 ABN AMRO는 AML 영역에서 내부 위험 점수를 협력하는 은행에 공개하지 않고 거래 모니터링을 통해 실험하고 있다2. 목표는 은행 간에 위험 점수를 공유할 필요 없이 한 은행의 고위험 고객이 저위험 고객에게 돈을 송금하는 경우를 발견하는 것이다. 이를 가능하게 하는 기술을 ‘보안 다자간 컴퓨팅(secure multi-party-computation)’이라고 한다.


c. WeBank는 연합 학습을 통해 예측 신용 위험 모델을 개선


2018년에 WeBank와 National Invoice Center는 WeBank의 기업의 소액 채무 불이행 건수를 절반으로 줄이는 예측 신용 위험 모델을 공동으로 개발했다. National Invoice Center는 예측 모델을 구축하는 데 사용된 새로운 접근 방식을 통해 WeBank가 데이터의 유일한 소유자이자 통제하는 자로 남을 것임을 보장했기 때문에 WeBank와 기꺼이 협력했다3. 이 새로운 접근 방식을 연합 학습(Federated Learning)이라고 한다.


d. 오픈 소스 AI 생성 합성 데이터 엔진


2020년에 Citi는 테스트, 머신러닝 훈련, 통계 분석 및 기타 활용 사례에 사용될 합성 데이터 생산 전용 파이썬 라이브러리 세트인 Datahub을 오픈 소싱했다4. 이를 통해 Citi는 익명 데이터가 필요할 때 업계가 직면하고 있는 과제를 해결했다. 대표적인 익명의 데이터를 만들기 위해 인공지능 기술을 사용하는 이 새로운 방법을 AI 생성 합성 데이터(AI-generated synthetic data)라고 한다.


e. AI 생성 합성 데이터를 통한 제품 개발 및 테스트


Erste Group은 AI가 생성한 합성 데이터를 제품 개발과 테스트에 사용한다. AI 생성 합성 데이터를 선호하는 익명화된 기존 데이터에서 벗어나 은행의 목표는 훨씬 더 정교한 방식으로 서비스를 개발하고 테스트하는 것이다. Erste Group은 고객 데이터를 기반으로 고급 분석 및 통찰력을 활용할 수 있는 유일하게 GDPR를 충족하는 방법을 제공하기 때문에 합성 데이터를 향후 모든 데이터 중심 개발의 기반으로 보고 있다.


새로운 PET의 기술된 실제 응용 프로그램 중 일부는 아직 시범 단계에 있지만, 이러한 기술이 경쟁적인 공간으로 이동하고 있다는 것이 분명해지고 있다. 이러한 기술을 사용하기 시작한 은행들의 이점은 매우 많다. 은행들은 이전에는 너무 민감해서 작업할 수 없었던 데이터의 잠재력을 활용함으로써 기존 분석 모델을 개선하고 자체 또는 타사 데이터로 분석에 사용되는 데이터를 강화하고 있다. 또한 기존 PET의 잘 알려진 취약점을 통해 쉽게 이용할 수 없는 견고한 개인 정보 보호 기반 위에 데이터 기반 제품과 서비스를 구축할 수 있는 기회가 있다.


개인 정보 보호가 오늘날 개인 데이터 사용에 미치는 영향


5년 전에 Mobey는 “금융 산업의 예측 분석(Predictive Analytics in the Financial Industry)”이라는 제목의 보고서를 발표했다. 그 이후로 이 보고서의 많은 예측이 현실화되었다. 데이터는 은행의 가장 중요한 전략적 자산 중 하나가 되었고 새로운 데이터 규제로 인해 경쟁의 새로운 영역이 형성되었다6.


지난 5년 동안 은행들은 기술 향상, 새로운 툴 구현, 프로세스 및 요구사항을 데이터 분석 출력으로 변경하는 데 많은 투자를 해왔다. 이를 통해 더 많은 은행들이 데이터에 숨겨져 있는 미개발 유틸리티를 해제하고 이를 개인 및 기업 고객을 위한 부가가치로 전환할 수 있다. 분석 자원(데이터 유틸리티)으로서 금융 데이터의 상업적, 과학적 및 사회적 잠재력은 엄청나다.


이와 동시에, 고객의 데이터에는 엄격한 데이터 보호 법률이 적용된다. 전 세계의 규제 당국은 디지털화된 세계(예: GDPR, CCPA, FADP)의 현실에 맞설 수 있도록 기존의 개인 정보 보호 규정을 업데이트했다. 이러한 최근의 발전은 개인 데이터 보호가 중요한 프로세스가 되고 있는 금융 서비스 산업에 영향을 미치고 있다.

개인 정보 보호 규정은 다양한 데이터 사용 활동에 영향을 미친다:  

개인 데이터 수집 시 정의된 목적 내에서 정기적인 데이터 사용(내부 또는 외부). (사례: 사업 운영의 일환으로 개인정보 처리(결제 거래, CRM 등))

개인 데이터 수집 시 이외의 목적으로 처리가 발생하는 조직에 의해 제어되는 데이터에 기반한 내부 혁신. (사례: 제품 추천 프로그램)

다중 이해 당사자 생태계(인바운드, 아웃바운드 또는 타사와의 집단 데이터 공유)7 — 개인 데이터 수집 시 이외의 목적으로 사용됨. (사례: 파트너 및/또는 경쟁사와 데이터를 공유하여 기존 부정 행위 탐지 예측)

데이터 베이스 기술 혁신에는 두 가지 개인 정보 보호 관련 걸림돌, 즉 법적 기반과 보안 처리 장애물이 있으며, 이는 금융 기관 내에서 데이터 개인 정보가 통제되는 방식에 영향을 미친다.


a. 법적 기준


금융 서비스 공급자가 개인 데이터를 사용하려면 이 활동에 대한 법적 근거가 있어야 합니다. 개인 데이터 처리에 대한 법적 근거에는 크게 두 가지 유형이 있다:  

규제당국에 의해 보편적이고 명시적으로 정의되며 계약, 법적 의무, 핵심 이익, 공공 업무 및 합법적인 이익을 포함한다.

고객이 언제든지 철회할 수 있는 명시적인 고객의 동의. 고객 데이터를 사용하는 대부분의 데이터 기반 혁신은 고객의 동의가 필요하다8.

개인 데이터를 처리하는 유일한 다른 방법은 개인 데이터가 익명화된 경우이다. “개인 데이터가 데이터 주체를 더 이상 식별할 수 없거나 더 이상 식별할 수 없는 방식으로 익명화되면” 데이터는 더 이상 개인 정보 보호 규정에 종속되지 않는다.


그림 2: 데이터 개인 정보 보호 요구 사항 평가 — ‘시작점’ 의사결정 트리


그림 2는 세 가지 가능한 개인 데이터 기반 혁신 영역을 보여준다. Legal basis와 Secure processing 영역은 프라이버시 규제 영역 내에 있으므로 데이터 처리를 위한 법적 근거가 필요한 반면, 나머지 부분은 프라이버시 영역 외부에 있다.  

규제자가 정의한 법적 근거 내의 혁신(계약, 법적 의무, 중요 이익, 공공 업무, 정당한 이익)은 새로운 혁신이 개인정보 사용을 위한 보편적인 목적 중 하나와 일관된다는 것을 의미한다. (사례: 데이터 처리에 대한 정당한 공익성이 있는 사기 방지 응용 프로그램.)

고객 동의가 있는 혁신은 고객이 제공한 명시적 서면 동의로 처리된다. 고객의 동의가 데이터 사용 의도에 따라 자유롭게 제공되고, 명확하고, 언제든지 취소할 수 있는 것이 중요하다. 특히 고객 데이터를 제3자와 공유할 경우 새로운 서비스에 대한 고객 동의를 확보하는 것은 매우 어렵다. 혁신적 아이디어가 진행되지 않도록 고객 동의(옵트인)가 있는 임계량이 부족한 것이 일반적이다. 고객의 동의가 언제든지 취소될 수 있다는 사실을 강조해야 하며, 이는 이러한 데이터를 삭제할 수 있도록 데이터 거버넌스 프로세스가 마련되어야 한다는 것을 의미한다. (사례: 보안 API는 제3자가 은행의 고객 데이터에 액세스하기 위해 고객 동의가 필요한 개방형 뱅킹 사용 사례다.)

익명 데이터에 기초한 혁신은 개인 정보 규제가 없으며 일부 혁신은 독창적인 개인 데이터를 필요로 한다는 근거로만 제한된다.

소프트웨어 개발 테스트, 데이터 분석, AI 교육, 모델 거버넌스 등과 같이 익명 데이터가 원본 데이터만큼 많은 효용성을 제공하는 많은 사용 사례가 있다.


b. 보안 처리


법적 근거가 적법하다고 가정할 때 개인 데이터의 처리는 보안 및 기밀 유지 요구 사항을 준수해야 한다. 보안 및 보호 조치는 고객 데이터가 필요한 제품 개발의 모든 단계에서 필수적이다. 이는 일반적으로 데이터 익명화를 보장하기 위해 암호화를 통한 데이터 액세스 관리를 포함하는 개인 정보 보호를 위한 다양한 보안 조치의 조합이다. 제품 기능, 제품 관련 인프라 및 업/다운스트림 애플리케이션의 변경을 포함하여 제품 수명 주기 내내 데이터를 보호해야 한다. 처음부터 강력한 개인 정보 보호 및 보안 프로세스를 새로운 데이터 기반 제품으로 구축하면 진화하는 환경 내에서 적응할 수 있기 때문에 이는 설계상 개인 정보 보호 및 데이터 보안에 대한 설득력 있는 주장이다.


개인 정보 보호 기술

금융 서비스 산업 내 및 그 너머의 개인 정보 사용에 초점을 맞춘 개인 정보 보호 기술은 네 가지 그룹으로 분류될 수 있다. 이러한 그룹은 데이터 프로세서의 신뢰 수준 또는 데이터 조작 방법과 같은 전제/기준에 기초한다. (그림 3 참조)


그림 3: 개인 정보 보호 강화 기술


a. 신뢰 기반 개인 정보 보호 강화 방법


신뢰 기반 PET는 원래 고객 데이터로 작업하는 사람에 대한 신뢰 수준을 전제로 한다. 이 신뢰는 원본 데이터에 대한 독점 액세스(액세스 제어/사용 제한) 또는 암호화 키(암호화)에 대한 독점 액세스로 이어질 수 있다.


i. 접근 제어/사용 방법의 제한


첫 번째 그룹은 개인 데이터에 대한 접근과 데이터 사용의 제한을 제어하는 프레임워크와 기술로 구성된다. 데이터 액세스 정책에 따라 액세스 권한은 인증된 사용자에게만 부여된다. 액세스 정책은 역할(예: 관리자, 파워 유저 등) 또는 주요 속성(예: 위치)을 포함하여 데이터에 액세스하는 엔터티의 다양한 특성에 초점을 맞춘다.


ii. 암호화 방법


데이터 암호화는 데이터를 저장하거나 전송하는 동안 보호하기 위해 수학적 알고리즘을 적용하여 데이터를 이해할 수 없는 형태로 변환한다. 비밀 키(암호 해독 키)에 액세스할 수 있는 사용자만 읽을 수 있다. 침입자에 대한 비밀 키의 노출과 그에 따른 암호화 깨짐으로 인해 데이터 보호가 완전히 손실된다. 대부분의 경우 암호화된 데이터를 처리하려면 암호 해독 키가 필요하다. 동형 암호화는 이 규칙의 예외이며 6장에서 자세히 설명한다.


대부분의 개인 정보 보호 규정은 명시적으로 데이터 제어기 및 프로세서가 암호화 방법을 사용하도록 요구하지는 않지만, 개인 데이터를 보호하고 데이터 침해 위험을 완화하기 위해 데이터 제어기와 프로세서를 강력히 권장한다. 실제로 데이터 컨트롤러와 프로세서는 영향을 받는 데이터가 암호화되었음을 입증할 수 있는 경우 데이터 침해 시 위약금을 피할 수 있다.


b. 난독화 기반 프라이버시 강화 방법


난독화 기반 개인 정보 보호 강화 방법은 원래의 중요한 데이터를 조작하여 주어진 사용 맥락에서 다시 식별할 수 없도록 한다. 난독화 기반 방법의 중요한 요인은 프라이버시-유틸리티 트레이드오프이며, 프라이버시-유틸리티 트레이드오프는 특정 양의 데이터 효용을 추출하기 위해 프라이버시 격차가 얼마나 클 수 있는지 결정하기 위한 프라이버시 및 유틸리티 기준을 저울질하는 것을 포함한다. 이는 특정 수준의 보장된 프라이버시를 보장하기 위해 얼마나 큰 효용 격차에 대해 고려되어야 한다(그림 4 참조).


그림 4: 개인 정보 보호와 효용성의 절충. 얼마나 큰 ‘사생활 격차’가 허용될 수 있는가?

i. 익명화


GDPR은 익명의 정보를 “신원이 확인되거나 식별 가능한 자연인과 관련이 없는 정보 또는 데이터 주체가 더 이상 식별 불가능한 방식으로 익명으로 렌더링된 개인 데이터”로 정의한다. 따라서 고객을 (재) 식별할 수 있는 방법이 없는 경우, 정보는 익명이므로 더 이상 개인정보 보호 규정에 신세를 지지 않는다.


따라서 익명화는 중요한 데이터의 형식과 데이터 유형을 보존하면서 식별을 해제하는 프로세스입니다. 널리 알려진 몇 가지 고전적인 익명화 방법에는 무작위화, 노이즈 주입, 토큰화, 억제, 셔플링, 일반화 등이 있다. 일반적으로 여러 익명화 기법이 표준화된 익명화 설계 프로세스로 결합되어 난독화되고 개인 데이터가 줄어든다. 최근 몇 년 동안, 더 많은 익명화 실무자들이 난독화된 개인 데이터를 ‘익명’으로 묘사하는 것에 대한 우려를 제기하고 있는데, 이는 개인 정보 보호에 대한 걱정 없이 기업에게 데이터를 공유할 수 있는 암묵적인 권한을 준다는 것이다.


ii. 가명화


GDPR에 따르면, 가명화는 “추가 정보를 사용하지 않고는 데이터가 특정 데이터 주체에 귀속될 수 없는 방식으로 개인 데이터를 처리하는 것”을 의미한다. GDPR은 또한 “…가명화를 거친 데이터는 추가 정보의 사용에 의해 자연인에게 귀속될 수 있다.식별 가능한 자연인에 대한 정보로 간주되어야 한다.” 따라서 가명화된 데이터는 개인 데이터로 간주되며 GDPR과 같은 데이터 보호 규정을 준수해야 한다.


가명화 중에 이름, 주소 또는 사회 보장 번호를 포함한 모든 개인 식별 가능 정보(PII)가 식별되고 제거, 마스킹 또는 다른 값으로 대체된다. 나머지 데이터(직접 PII가 아님)는 그대로 유지된다. 즉, 가명화된 데이터는 여전히 비 PII 속성에 숨겨진 식별 가능한 정보의 일부를 포함한다.


오늘날의 접근 방식의 당면 과제


은행의 기존 데이터 보호 방법은 쉽게 해결할 수 없는 숨겨진 개인 정보 위험을 초래하고 있다. 미래의 데이터 주도 혁신을 지원하는 설계별 솔루션의 개인 정보 보호를 위한 기반을 구축하려면 새로운 기술이 필요하다.


디지털 전환과 데이터 중심화의 가속화와 함께 새로운 과제가 대두되고 있습니다. 점점 더 많은 출처에서 수집된 데이터의 양은 그 자체로 위협을 주고 있다. 한때 ‘충분히 좋다’던 사생활 보장은 더 이상 충분하지 않을 수도 있다.


금융 서비스 산업은 프로세스, 조직 구조 및 기술 인프라를 국내 및 국제 데이터 개인 정보 보호 규정을 준수하도록 조정하는 데 많은 투자를 하고 있다. 그럼에도 불구하고, 데이터 개인 정보 보호 준수는 금융 서비스 제공업체에게 엄청난 과제다. 국내 개인정보 보호 규정을 위반한 금융 서비스 기관에 대한 보고가 증가하고 있는 것은 업계가 개인정보 보호 위험을 완화하기 위해 고군분투하고 있다는 분명한 지표이다.


개인정보 보호규제의 준수와 관련된 위험이 상당해졌다. 이는 BBVA가 2020년 12월에 500만 유로의 벌금을 부과받았고, 캐피털 원은 대규모 데이터 침해와 관련하여 같은 해에 8천만 달러의 벌금을 부과받았다13. 수세기는 아니더라도 수십 년에 걸쳐 설립된 금융 서비스 기관의 신뢰를 위험에 빠뜨릴 수 있는 중요한 평판 위험도 있다.


모든 개인 정보 보호 기술은 특정 전제에 구축됩니다. 이러한 전제는 적들의 진입점이자 주어진 방법의 주요 취약성이기도 하다. 은행이 고객의 개인 정보를 보호하려고 할 때 직면하는 두 가지 주요 취약점은 신뢰 해킹과 재식별 해킹이다(그림 5 참조).  


그림 5: PET 범주를 해킹 유형에 매핑


a. 트러스트 해크


데이터 분석의 민주화와 기업 내 데이터 시민의 증가로 인해, 데이터 개인 정보 보호는 이전보다 더 빨리 그리고 더 잘 시행되어야 한다. Gartner에 따르면, 개인 정보 보호 문제의 59%는 조직의 자체 직원 기반에서 비롯된다15.


b. 재식별 해킹

예: 남아프리카에 기반을 둔 금융 서비스 그룹인 Absa의 한 직원은 신용 분석가로서의 역할을 사용하여 그룹의 위험 모델링 프로세스에 접근할 수 있었고 20만 명의 Absa 고객의 개인 정보를 제3자에게 판매했다16.


i. 사이즈가 왜 중요한가?


빅 데이터는 익명화하기가 어렵다. 부피가 클수록 조합 폭발로 인해 더 까다로워진다. 소매 은행에서 자주 사용하는 트랜잭션 기록과 같은 순차적 행동 데이터셋은 특히 복잡하다. 비록 우리가 모든 PII를 제거하고 20개의 다른 거래 범주로 5개의 다른 거래 금액만 사용하더라도, 행동 이야기의 수는 모든 추가 거래와 함께 빠르게 폭발적으로 증가한다. 단일 트랜잭션에는 20x50 = 100개의 가능한 결과가 있으며, 두 트랜잭션에는 이미 100x100 = 10,000개의 결과가 생성된다. 일련의 세 가지 트랜잭션의 경우 고객당 100만 개의 결과가 나타나고, 40개의 기록된 트랜잭션의 경우 이미 우주의 원자보다 더 많은 결과가 발생할 수 있다. 이러한 디지털 추적들이 매우 식별이 되고 난독화하는 것이 거의 불가능하다는 것은 놀랄 일이 아니다!17


ii. 익명화와 가명화를 혼동함


은행업계에서 흔한 문제는 가명화와 익명화의 차이를 둘러싼 혼란이며, 특히 전자가 후자의 동의어로 사용될 때 더욱 그렇다. 이 두 가지 뚜렷한 개념의 일반화는 이미 복잡한 상황을 더 악화시키고 있다. 기존의 익명화 기법으로 익명화된 데이터에서 고객을 재식별하는 것은 점점 더 쉬워지고 있지만, 솔직히 가명화된 데이터에서 고객을 재식별하는 것은 아이들의 놀이다.


예: 미국에서 가장 큰 금융 데이터 브로커의 내부 문서가 대중에게 유출되어 소비자 지불 데이터가 마스킹되지 않고 나중에 다시 식별될 수 있음을 인정했다. 유출된 문서에는 브로커가 비즈니스 고객과 공유하는 재무 데이터의 유형, 데이터가 인프라 전반에서 어떻게 관리되는지, 결제 카드 소유자의 프라이버시를 보호하기 위해 사용되는 특정 익명화 기법이 나와 있다. 이 문서는 제3자에게 판매된 데이터는 가명화되었을 뿐 익명화되지 않았으며 판매된 거래 데이터의 배후 고객을 쉽게 재식별할 수 있었을 것이라고 밝혔다.18


c. 혁신에 대한 결과


2020년 전 세계 개인 정보 보호 예산이 평균 240만 19달러로 두 배로 증가했지만, 많은 기관들은 여전히 취약성 제거에 노력을 쏟지 않고 있다. 이는 주로 기존 노출과 누적된 데이터 개인 정보 위험을 평가하는 데 필요한 기술적 역량의 부족 때문이다.


데이터 개인 정보 보호 팀을 방어하기 위해, 위에서 언급한 개인 정보 보호 강화 방법을 통합하는 일부 프로세스는 비즈니스 보존 프로세스로 간주되므로 쉽게 대체할 수 없다. 시간이 지남에 따라 은행은 데이터 개인 정보 보호 관련 리스크의 점진적인 축적에 노출된다.


그러나 혁신적인 프로젝트에 관한 한 상황은 극적으로 변한다. 알려진 개인 정보 위험과 확립된 PET의 취약성은 데이터 중심 혁신의 성공 잠재력에 부정적인 영향을 미친다. 억제 요인은 다음과 같다.:  

잠긴 데이터 — ‘이건 건드릴 수 없습니다.’ (내부 혁신 및 다자간 에코시스템).

데이터 처리 시간 — ‘모든 규정 준수/법률 검사를 통과하려면 3~6개월이 걸린다.’

마음가짐/문화 — ‘노력할 가치가 없다’와 ‘어쨌든 그들은 그것을 얻지 못할 것이다.’


새로운 개인 정보 보호 강화 기술


규제 및 고객 동의 중심의 사용 사례의 증가와 함께 인적 오류로 인해 설계에 의한 프라이버시 개념이 가장 중요해졌다. 새로운 유형의 프라이버시 강화 기술은 금융 기관의 프라이버시 문제에 대한 해결책을 약속한다. 이러한 기술은 다양한 방법을 사용하여 다양한 결과를 제공한다.


PET는 정보의 프라이버시를 유지하면서 데이터 효용성을 추출하기 위해 다른 계산, 수학적 및 통계적 접근방식을 사용한다. 비판적으로, 새로운 PET는 데이터에 대한 분석이 여전히 수행될 수 있도록 보장하면서 개별 수준에서 입력 데이터에 대한 정보를 제거함으로써 신뢰와 재식별 해킹 사이의 공간을 찾으려고 한다(그림 6 참조).


그림 6: 신흥 PET는 암호화 및 익명화를 활용하여 신뢰 해크와 재식별 해크 간의 안전한 혁신 공간 구축


가장 유망한 PET 중 일부는 아래에 소개되어 있다. 이러한 각 기법에 대한 자세한 정의는 본 논문의 두 번째 부분에서 다룰 것이다.


a. 암호화된 분석


최근까지는 데이터를 분석하거나 조작하기 전에 암호를 해독해야 했다. 이는 데이터 가치 사슬의 일부에서 암호화를 사용할 수 없음을 의미한다. 암호화된 데이터를 분석하고 조작할 수 있게 되면 관련 개인 정보 위험과 함께 이러한 제한 요소가 제거된다.


i. 동형 암호화


동형 암호화는 제3자가 암호화되지 않은 형식의 기본 데이터를 보지 않고 암호화된 데이터를 처리하고 조작할 수 있도록 하는 개인 정보 보호 기술이다. 따라서 데이터는 처리되는 동안 기밀로 유지될 수 있으므로 신뢰할 수 없는 환경에 상주하는 데이터를 사용하여 유용한 작업을 수행할 수 있다.


b. 익명 컴퓨팅


익명 컴퓨팅은 분석 프로세스에 초점을 맞추고 다양한 개인 정보 보호 기능을 프로세스에 도입하는 지정된 방법 그룹을 설명하기 위해 전문가 그룹이 사용하는 용어이다.


i. 보안 MPC


이름에서 알 수 있듯이, 보안 다자간 연산(MPC 또는 SMPC)은 여러 다른 당사자들이 암호화된 데이터를 공동으로 계산할 수 있도록 하는 암호화 기법이다. 즉, MPC는 데이터를 공유하지 않고도 공동 분석이 가능하다. 이러한 방식으로 데이터는 타사로부터 보호됩니다. 참여 당사자만이 계산 결과를 볼 수 있는 사람을 결정할 수 있다.


ii. 연합 학습


연합 학습 개념을 사용하면 기계 학습을 수행하기 위해 중요한 데이터를 공유할 필요가 없습니다. 기존의 기계 학습 접근 방식은 일반적으로 관련 소스의 데이터를 하나의 처리 환경으로 수집하여 단일 기계 학습 모델에 공급하려고 한다. 대조적으로, 연합 학습은 관련 소스로 배포되는 중앙 모델의 여러 버전을 사용하는 것을 지지하며, 해당 모델이 현지에서 훈련되고 운영된다. 로컬 교육을 기반으로 한 모델에 대한 조정만 일반 템플릿 역할을 하는 모델의 중앙 버전으로 재생된다.


c. 고차원 익명화


고차원 익명화는 익명이 어려운 대규모 데이터 세트를 다루는 익명화 방법을 설명하기 위해 전문가 그룹이 사용하는 용어이다.


i. 대표적인 AI 생성 합성 데이터


실제 데이터를 조작된 데이터로 교체하는 것은 새로운 아이디어가 아닙니다. 가장 기본적인 방법은 데이터를 임의로 생성된 자리 표시자(더미 데이터)로 교체하는 것이다. 약간 더 정교한 제작 방법인 “가짜 데이터”는 데이터 세트의 속성 간에 엄격한 비즈니스 규칙이나 상관 관계를 수동으로 적용하여 수행된다. 두 방법 모두 분석적 가치가 없으며 대체 데이터는 분석적 통찰력을 도출하는 데 사용되지 않는다. 원본 데이터 세트를 대표하는 데이터를 생성하는 새로운 접근 방식은 AI를 사용하여 원본 데이터를 통계적으로 잘 나타내지만 동시에 완전히 사적인 합성 데이터를 생성하는 것이다.


합성 데이터는 실제 데이터를 모방한 AI 생성 데이터(직접 측정되거나 입력된 데이터가 아닌)입니다. 이 방법은 합성 생성기가 훈련받은 원본 데이터의 통계적 속성을 보존하는 것을 목표로 하지만, 합성 생성기가 나타내는 원본의 개별 데이터 포인트에 대한 직접적인 링크를 제공하지 않는다. 이러한 데이터는 GDPR 리사이틀 26의 요건을 충족하며 개인 정보로 간주되지 않는다. 이것이 바로 합성 데이터를 많은 조직에서 매우 흥미롭게 만드는 요인이다.


ii. 차등 프라이버시는 어떻게 진행하는가? 향후 은행을 위한 방향


차등 프라이버시는 프라이버스에 대한 수학적 정의이다. 가장 간단한 설정에서 데이터 집합을 분석하고 데이터 집합에 대한 통계를 계산하는 알고리즘을 고려합니다. 이러한 알고리즘은 출력을 보면 개인의 데이터가 원본 데이터 집합에 포함되었는지 여부를 결정할 수 없을 때 차등적으로 비공개적이라고 한다.


그림 7: 개인정보보호 기술에 맵핑된 개인정보보호 책임과 규제 준수 의무 사항


특히 문제가 법률, 비즈니스 및 기술 요인에 의해 영향을 받는 경우 개인 정보 보호는 빠르게 복잡한 주제가 될 수 있습니다. 근본적인 문제를 이해하기 위해 계층을 축소하는 것은 종종 어려울 수 있으며, 빠르게 변화하는 개인 정보 보호 환경 덕분에 많은 레거시 솔루션을 오늘날의 과제에 더 이상 적용할 수 없다. 그림 7에 제시된 의사 결정 트리는 데이터 지향적 혁신이 직면한 가장 큰 장애물 중 일부를 강조한다. 이러한 과제 중 가장 중요한 것은 재식별(익명화된 대규모 데이터셋에 대한 분석 수행)과 보안 분석(분석 중 개인 정보 보호막 유지)이다. 두 경우 모두 널리 채택된 레거시 PET에 장애가 발생하여 개인 정보 관련 위험이 증가하고 있다. 이 실패의 최종 결과는 내부 혁신의 지연과 다중 이해당사자 생태계 사용 사례이다. 여기가 현재의 사각지대이지만 다행히도, 신흥 PET들은 공백을 메우고 혁신으로 가는 길을 개척하기 위해 새로운 접근 방식을 도입하고 있다. 은행이 이러한 새로운 접근 방식을 채택할 수 있는 속도에 따라 데이터 기반 혁신에서 우위를 점할 수 있는 능력이 결정된다.


향후 은행을 위한 방향


금융 서비스 산업은 기로에 서 있다. 현대적인 데이터 처리 및 AI 개발에는 규모와 점점 더 많은 이해 관계자들과의 협업이 필요하다. 이와 동시에 소비자 보호 중심의 데이터 개인 정보 보호 요건과 관련 법률은 금융 기관이 효율적으로 업무를 수행하는 데 점점 더 복잡해지고 있다. 그렇다면 어떻게 하면 금융 기관이 개인 정보를 침해하지 않고 데이터에서 새로운 가치를 창출할 수 있을까?


산업이 혁신을 희생하여(그리고 그 반대도 마찬가지) 프라이버시 보호가 발생하는 가치 창출 딜레마 대 프라이버시 앞으로 나아가기 위해서는 새로운 접근방식이 필요하다. 새로운 개인 정보 보호 강화 기술을 사용하여 이 분야의 몇 가지 주요 과제를 해결할 수 있다. 즉, 개인 데이터에 대한 세부 정보가 공유되지 않은 경우에도 가치를 잃지 않고 익명 및 암호화된 데이터를 처리하는 방법이다.


이 보고서에서는 새로운 PET를 소개하고, PET의 목적과 데이터 익명화와 같은 최신 솔루션과 비교하는 방법을 간략히 설명했다. 이 보고서 시리즈의 다음 부분에서는 이 주제로 한 걸음 더 나아가 동형 암호화, 보안 다자간 계산, 연합 학습, 차등 개인 정보 보호 및 합성 데이터와 같은 가장 유망한 PET 중 일부를 살펴볼 것이다. 게다가, 이 보고서는 이러한 기법의 가장 일반적인 용도와 그것들이 실제로 어떻게 사용될 수 있는지 소개할 것이다.


참고문헌


https://ibm-research.medium.com/top-brazilian-bank-pilots-privacy-encryption-quantum-computers-cant-break-92ed2695bf14


https://www.abnamro.com/uk/en/news/tno-rabobank-and-abn-amro-are-working-on-privacy-friendly-data-analysis


https://www.digfingroup.com/webank-clustar/


https://github.com/finos/datahub


https://www.finextra.com/pressarticle/86706/erste-group-embraces-synthetic-data-to-foster-innovation


https://mobeyforum.org/predictive-analytics-financial-industry-art/


7https://www2.deloitte.com/content/dam/Deloitte/lu/Documents/financial-services/lu-next-generation-data-sharinging-financial-services.pdf


https://mobeyforum.org/privacytech-in-banking-part-i/


https://mobeyforum.org/privacytech-in-banking-part-i/


10 https://mobeyforum.org/only-a-little-bit-re-identifiable-good-luck-with-that/


11 https://verstaresearch.com/blog/five-best-practices-for-keeping-your-data-anonymous/


12 https://www.dataguidance.com/news/spain-aepd-fines-bbva-%E2%82%AC5m-gdpr-information-and-consent


13 https://www.americanbanker.com/news/capital-one-to-pay-80m-in-connection-with-massive-data-breach


14 https://www.accenture.com/_acnmedia/PDF-115/Accenture-Human-Impact-Data-Literacy-Latest.pdf


15 https://www.gartner.com/smarterwithgartner/call-legal-compliance-minimize-data-privacy-risk/


16 https://www.infosecurity-magazine.com/news/bank-employee-sells-personal-data/


17 https://www.nature.com/articles/srep01376


18 https://www.vice.com/en/article/jged4x/envestnet-yodlee-credit-card-bank-data-not-anonymous


19 Data Privacy Benchmark Study — Cisco 2021                


---------------------------------------------------------------------------------------------------------------------------

                    


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari