brunch

You can make anything
by writing

C.S.Lewis

by Benny Jung Nov 23. 2021

PrivacyTech in Banking 프라이버시-2

Blog by Amir Tabakovic, Co-chair of AI and Data Privacy Expert Group at Mobey Forum




프라이버시 및 데이터 기반에 대한 유용한 아티클을 번역하여 공유합니다. 연재되는 아티클인 만큼 관심가지시고 읽어보신다면 도움이 되실 것입니다.


(Part 1) PrivacyTech in Banking 프라이버시 — 뱅킹을 위한 데이터 기반 혁신 킬러?




혁파하지 마세요


이번 시리즈의 첫 글에서에서 개인정보보호가 금융 서비스 산업의 데이터 기반 혁신에 미치는 영향을 언급했습니다. 프라이버시와 관련하여 빨리 움직으로 무엇이든 혁파하라는 것은 매우 나쁜 조언이 될 수 있습니다. 프라이버시가 데이터 기반 혁신 프로젝트에 있어 킬러가 되는 주된 이유는 프라이버시가 신뢰와 밀접한 관련이 있다는 것입니다. 즉 신뢰는 금융 기관이 보유하고 있는 가장 소중한 자산입니다. 그러나 은행이 돈을 아끼려고 대충하지 않더라도 개인정보보호는 까다로워집니다.


이 글에서, 나는 익명화와 더불어 사악한 쌍둥이인 가명화에 대하여 마법처럼 보이는 모든 프라이버시 문제에 대한 해결책을 찾고 싶습니다. 하지만, 우선 익명화에 대해 이야기해 봅시다.


익명화에 대하여


GDPR은 익명 정보를 “… 정보 대상이 더 이상 식별할 수 없거나 식별할 수 없는 방식으로 식별되거나 식별 가능한 자연인 또는 익명으로 작성된 개인 데이터와 관련이 없는 정보”로 정의합니다. 따라서 고객을 재식별할 방법이 없으면 그 정보는 익명이며 더 이상 개인정보보호규정을 준수하지 않습니다. 개인정보보호측면에서 익명 데이터는 무료로 사용, 공유 및 수익을 창출 할 수 있습니다. 문제가 해결되었네요. 그런가요?


재식별 가능


익명화에 대해 이야기 할 때 이전 단락에서 설명한 익명 데이터와 개인 데이터를 덜 개인화하지만 의미와 구문을 유지하는 데 사용되는 기존 익명화 기술을 구별해야합니다.


널리 알려진 전통적인 익명화 방법에는 무작위추출, 노이즈 주입, 토큰화, 억제, 셔플링, 일반화 등이 있습니다. 일반적으로 복수의 익명화 기법이 다소 표준화된 익명화 설계 프로세스로 결합되어 개인 데이터가 감소한다.


오늘날 익명화에 대한 가장 일반적인 오해 중 하나는 익명화된 데이터가 익명의 데이터와 같다입니다. 익명성은 이진 클래스입니다. 데이터가 익명이지않습니다. 익명 처리 과정이 아무리 정교해지더라도 데이터 주체를 재확인할 수 있다면 (어느 정도의 노력으로), 그 데이터는 익명이 아닙니다. 익명화된 데이터의 대부분이 익명이 아닌 것으로 추정하세요.


내가 방금 뭔가 신기한 걸 공개한 건가요? 그렇지 않죠? 익명화에 대한 진실은 제대로 알려져 있지 않았을 뿐입니다. 익명화 실무자들이 개인 데이터를 ‘익명’이라고 부르는 것이 프라이버시에 대한 걱정 없이 데이터를 공유할 수 있는 암묵적 허가를 주는 잘못된 보안의식을 만든다고 하는 것에 힘을 얻고 있습니다.


프라이버시 이해 — 유틸리티 트레이드 오프


그렇다면 “매우 적은 개인 정보”(또는 고전적인 익명화를 통해 익명화된 데이터)와 익명 데이터 간의 유틸리티 격차가 얼마나 큰가요?


오늘날 사용되는 대부분의 고전적인 익명화 기술은 진정한 익명의 데이터를 생성할 수 없습니다. 대신, 가능한 한 많은 데이터 유틸리티를 유지하려고 노력하면서 데이터를 덜 개인적으로 만들고 있습니다 (아래 그림 1 참조). 가려 지거나 난독화되는 정보가 많을수록 데이터 집합에 대한 통찰력이 약해지고 반대의 경우도 마찬가지입니다. 이것이 소위 개인정보보호-유틸리티 트레이드-오프(privacy-utility trade-off)입니다.





Figure 1: The privacy-utility trade-off for small datasets


그러나 빅 데이터의 시대에 익명화는 훨씬 더 어려워지고 있으며 수백 또는 수천 개의 속성을 가진 대규모 데이터 세트는 고전적인 익명화 방법의 단점을 밝혀 내고 있습니다. 오늘날 개인정보보호-유틸리티 트레이드-오프(privacy-utility trade-off)는 데이터 세트의 전체 유틸리티가 파괴될 수있는 상태에 도달했으며 (의도 한 응용 프로그램 시나리오에서는 완전히 쓸모 없게 됨) 여전히 데이터는 익명이 아닙니다 (그림 2 참조).





Figure 2: The privacy-utility trade-off for big datasets


익명화된 (익명은 아님) 데이터 관련 문제 찾기


이 섹션에서는 데이터 주체를 재식별할 때 익명화가 직면하는 두 가지 큰 문제에 대해 자세히 살펴 보겠습니다.:



문제 # 1은 “여전히 자신이 누구인지 모르지만 데이터 집합에서 고유 한 데이터 주제로 확실히 식별 할 수 있습니다.”라고 설명할 수 있습니다.


문제 # 2는 문제 # 1 과 관련이 있으며 최종 익명화를 고전적인 익명화 기법을 사용합니다. “익명 데이터와 추가 데이터를 연결하는 경우 익명 데이터 세트의 사용자와 모든 데이터를 확실히 식별하기 위해 일치하는 하나의 레코드 만 있으면 됩니다.”



두 가지 문제에 대해 좀 더 심도있게 살펴보고 이를 은행 관점에 보겠습니다.


문제 # 1 : 개인을 독특하게 만드는 데 필요한 몇 가지 데이터 포인트


우리 모두 생각보다 더 독특합니다. 우리의 (기록된) 행동의 풍부함과 세분화는 우리를 독특하게 만듭니다. 빅 데이터는 고객 행동 (유틸리티)을 이해하고 예측할 때 축복이 되지만 익명화 (개인 정보)에 대해서는 그 반대가 됩니다.


연구자들은 가맹점과 거래 날짜만 주어졌을 때 총 3 %의 무작위 신용 카드 거래만으로 총 고객의 80 %가 재 식별될 수 있음을 증명할 수있었습니다. 최근에 저는 큰 은행이 이러한 결과를 재현하려고 하는 프로젝트에 개인적으로 참여했습니다. 은행은 고객의 70 %가 2 번의 임의 결제 카드 거래로 재식별 될 수 있다는 사실에 놀랐습니다.


판매자나 거래 날짜는 PII 속성으로 간주되지 않습니다. 그럼에도 불구하고, 이러한 독특한 행동 추적은 누군가를 확실히 식별하기 위한 지문으로 사용될 수 있습니다. 이러한 소위 간접 식별자는 고객 데이터와 깊이 연관되어 있으며 쉽게 제거 할 수 없습니다.


문제 # 2 : 때로는 단일 데이터 포인트만 있으면됩니다


익명의 데이터를 추가적인 고객 정보와 분리하는 프로세스는 단일 조직에서 매우 어렵습니다. 개인 정보에 민감한 데이터는 다른 사업부에서 매일 쿼리되며 다른 컨텍스트에서 저장 및 사용됩니다. 두 개의 쿼리 중 하나의 일치하는 레코드는 고객을 다시 식별하는 데 필요한 내용입니다.


동일한 고객과 관계를 공유하는 서로 다른 법인간에 데이터가 흐르는 방식을 살펴보면이 문제는 더욱 커집니다. 이번에 연재되는 시리즈는 금융 산업에 중점을 두고 있으므로 결제 당사자 프로세스 및 유명한 4-코너 모델(4-corner model)의 예를 통해 다중 당사자 익명화 문제를 시연해 보겠습니다.


고객이 결재 카드로 구매하는 순간 개인 정보에 민감한 데이터는 매입자, 가맹점, 카드 발급자, 카드 체계(card scheme), PayFac*등과 같은 여러 다른 법인에 의해 이동되고 처리됩니다. 동일한 결제 거래 기록을 저장하고 고객이 상대방의 익명 데이터 셋을 손에 넣을 경우 고객을 쉽게 재 식별 할 수 있습니다. 조직 외부에서 익명의 데이터를 공유한다는 것은 문제를 찾는 것을 의미합니다.


* PayFac: 소형 판매점들을 하위 가맹점으로 모집, 결제 시스템을 제공하는 대표가맹점으로의 기능을 제공한다. 온라인에서는 PayPal, 오프라인에서는 Square가 대표적이다. 번거로운 절차를 없애고 결제 시스템 설치에 있어서 가맹점의 접근성과 편의성 을 높인 기업을 지칭함.


* Card scheme: 카드 체계는 직불 카드 또는 신용 카드와 같은 지불 카드에 연결된 지불 네트워크로, 은행 또는 기타 적격 금융 기관이 회원이 될 수 있습니다. 그 체계의 회원이 됨으로써, 그 회원은 그 카드 체계의 네트워크상에서 작동하는 카드를 발급하거나 획득 할 수있게 된다.


How NOT to monetize financial data 재무 데이터로 수익을 창출하지 않는 방법


문제에 대해 이야기하면서, 회사가 익명이 아닌 재무 데이터를 제 3 자와 공유 할 때 어떤 일이 발생하는지 예를 들어 살펴 보겠습니다. 신용 카드 데이터 판매는 전 세계, 특히 미국에서 큰 사업입니다. 올 2 월 미국에서 가장 큰 금융 데이터 중개인의 내부 문서가 소비자에게 유출되어 개별적으로 재식별된-마스킹이 해제된 소비자 지불 데이터가 해제 될 수 있음을 인정했다.


유출된 문서는 금융 데이터 중개인은 기업 고객과 공유하는 데이터 유형, 인프라 전체에서 데이터를 관리하는 방법 및 지불 카드 소지자의 개인 정보를 보호하는 데 사용되는 익명화 기술의 약점을 드러냈습니다. 이야기를 짧게 줄이기 위해-공유된 데이터는 전혀 익명이 아니다.-가명 일 뿐이었다. 그러나 가명이란 무엇이며 왜 익명화의 사악한 쌍둥이라고 말하는가?


가명은 익명이 아니다.


GDPR에 따르면 가명화는 “추가 정보를 사용하지 않고도 데이터를 더 이상 특정 데이터 주체에 귀속시킬 수 없는 방식으로 개인 데이터를 처리하는 것”을 의미합니다. GDPR은 또한 “…추가 정보를 사용함으로써 자연인에게 귀속될 수 있는 가명화를 거친 데이터는 식별 가능한 자연인에 대한 정보로 간주되어야 한다.”고 말합니다. 따라서 가명화 된 데이터는 개인 데이터로 간주되며 GDPR을 준수해야 합니다.


가명화 하는 동안에는 이름, 주소 또는 주민등록번호와 같은 모든 개인 식별 정보 (PII)가 식별되고 제거, 마스킹 또는 다른 값으로 대체됩니다. 나머지 데이터 (직접적인 PII 아님)는 동일하게 유지됩니다. 이는 가명화된 데이터에 여전히 비 PII 속성에 숨겨진 식별 가능한 정보의 일부가 포함되어 있음을 의미합니다. 이것은 또한 GDPR이 가명화를 단지 데이터 보호 기술로 간주하고 익명화 기술의 일부로 간주하지 않는 이유이기도 합니다.


말도 안되는 익명


익명화와 동의어로 가명을 사용하는 것은 잘못이며 이미 복잡한 상황을 악화시킬 뿐이지만 은행 업계에서는 항상 발생합니다. 기존의 익명화 기술로 익명화된 데이터에서 고객을 재식별하는 것이 점점 쉬워지고 있습니다. 그러나 가명화된 데이터에서 고객을 재식별하는 것은 더 쉽습니다. 누워서 떡먹기 수준입니다. 앞서 이야기한 가명화된 데이터를 판매한 금융 데이터 중개인에 관한 이야기를 기억해보세요.


익명화 수준에 대해 언급한 최초의 뉴스의 인터뷰에 참여한 두 명의 학술 연구원의 의견이 주목됩니다. 덜 외교적인 사람은 “이것은 말도 안되는 ‘익명화’입니다”라고 했고, 좀 온건한 사람은 “그 자체로 데이터는 가명화 된 것 같다.”고 했습니다. 현재 익명으로 익명화되었거나 가명화된 데이터 세트가 조직 내에서 얼마나 많이 돌고 있는지 자문해 보십시오.


고전적인 익명화 기술과 가명화가 실패 할 때


막대한 법적, 평판적 위험에 직면하고 있으며 기존의 개인 정보 보호 방법으로 개인 정보 보호를 보장하지 못한다는 사실을 알고 있어서 은행은 고객 데이터를 사용, 공유 및 수익 창출을 매우 꺼려합니다. 제로 트러스트 정책은 성 및 해자 접근 방식을 대체하고 있습니다. 고객 데이터에 대한 각 액세스는 사전에 매핑되어 최소한으로 제한되어야합니다.


* castle-and-moat approach:전통적인 IT 보안 모델은 “Castle-and-Moat” 개념으로 만들어진 것으로, 성 둘레에 해자(Moat)를 만들어, 성(Castle)안으로 들어가기를 어렵게 만든 다는 것이었습니다. 하지만 일단 성안으로 들어가면, 성안의 모든 것을 access할 수 있습니다.


고객 데이터에 대한 액세스가 거의 이루어지지 않았으며 소수의 검증된 데이터 과학자 및 데이터 엔지니어에게만 허가되었습니다. 이는 병목 현상을 일으켜 은행 내 많은 중요한 활동, 즉 데이터 중심 혁신, 제품 개발 및 생산 가능한 데이터와 같은 테스트, 스타트업 협력 및 오픈 뱅키을 위한 샌드 박스의 설정을 방해합니다. 데이터 보안 및 데이터 개인정보보호 책임자는 이러한 진보를 방해하고 고전적인 개인정보보호방법의 취약함에 대한 책임을 집니다.


이것은 이러한 현실을 은행이 익숙해져야 함을 의미하는 가? 개인정보보호가 항상 데이터 유틸리티 비용으로 발생한다는 현재 패러다임을 바꿀 수 있는 개인정보보호방법이 있습니까? 우리는 Zero-Trust 정책을 유지하면서 동시에 내부팀과 파트너 네트워크를 위한 혁신적인 샌드 박스를 만들어 고품질의 익명 데이터로 가치를 창출 할 수 있습니까? 다음에 글에서는이러한 질문에 답하고 두 마리 토끼를 모두 잡을 수 있는 새로운 개인정보보호 방법을 살펴 보겠습니다. 계속 지켜봐 주시기 바랍니다.




작가의 이전글 PrivacyTech in Banking 프라이버시-1
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari