왜 데이터 비식별화보단 차등정보보호인가?

by delight Jun 19. 2022

스탠포드 대 교수들인 롭 라이히, 메흐란 사하미, 제러미M. 와인스타인이 쓴 책 '시스템에러'는 기술만능주의를 경계하는 메시지를 많이 포함하고 있다.

저자들은 스탠퍼드대학교에서 진행한 강의를 기반으로 책을 펴냈는데 실리콘밸리의 본산이라 할 수 있는 스탠퍼드대학교에 기술에 의에 야기되는 문제를 어떻게 해결할지에 대한 강의가 있다는 점이 눈길을 끈다.

저자들은 책에서 기술이 인간과 공존하고 지속 가능하기 위해서는 효율성을 넘어 사회 전반에 미치는 영향을 고려해야 한다는 점을 강조한다. 필요하면 규제를 통해 기술이 선을 넘지 않도록 해야 한다는 것이다.

개인정보보호에 대해서도 마찬가지다. 혁신을 위해서는 프라이버시 침해를 감수해야 한다는 접근이 아니라 개인정보를 보호하면서도 데이터를 수집하고 분석할 수 있는 기술을 활용하고, 그것도 부족하면 정부가 필요한 규제를 해야 한다는 식이다.

저자들은 데이터 비식별화로는 한계가 있다는 입장이다.

데이터의 재식별이 드문 상황에서만 적용된다는 사람들의 생각을 뒤집기 위해 스위니는 다른 사례를 보여주었다. 전체 미국인의 87%는 우편번호, 생년월일, 젠더, 이렇게 단 세 가지 속성만으로 특정할 수 있다. 그녀가 하버드대학교에 설립한 데이터 개인정보연구소는 사람들이 자신이 이 세 가지 속성으로 특정될 수 있는지를 직접 확인해 볼 수 있는 웹사이트를 마련했다. 익명화는 우리의 개인정보를 보호하는 안전한 수단이 아니다.

그래서 주목하는 기술이 차등정보보호다.

차등 정보보호(Differential Privacy)라고 알려진 최근의 유망한 기술은 개인정보를 더 강력하게 보장하는 동시에 데이터를 분석에 사용할 수 있게 하는 것을 목표로 한다. 하버드대학교의 신시아 드워크가 2006년에 처음으로 제안한 이 기술은 두 개의 데이터세트가 가진 차이가 특정 개인에 대한 데이터를 포함하는가의 여부 뿐이라면 하나의 데이터세트를 이용한 질문을 던졌을 때 두 데이터세트에서 얻은 결과들이 구분하기 힘들 정도여야 한다는 것을 전제로 한다.

달리 표현하면 특정 개인의 기록이 데이터에 포함되어 있는지의 여부와 상관 없이 그 데이터를 기반으로 하는 통계적 결과는 그런 통계를 누가 요청하든 거의 구분할 수 없어야 한다는 것이다. 차등 정보보호에서는 누구도 기본 데이터에 접근할 수 없다. 대신 데이터를 사용하려는 사람은 데이터 세트를 통해 계산된 특정 통계만을 요청할 수 있다.

차등정보보호는 노이즈라고 불리는 작은 오류를 데이터 세트를 통해 계산된 통계에 주입하는 방식을 사용한다. 좀 더 구체적으로 알고 싶다면 무작위 응답이라고 불리는 전통적인 설문 설계 기법을 생각하면 된다. 이는 차등 정보보호의 한 예로 볼 수 있다. 우리가 사람들에게 세금 신고를 할 때 부정을 저지르는가와 같은 민감한 질문을 하고 싶다고 가정해보자. 당연히 이후의 영향을 걱정하는 사람들은 이런 질문에 솔직하게 대답하는 방식에 약간의 노이즈를 집어 넣어서 그들에게 진술 거부권과 유사한 것을 부여한다.

자신의 긍정적(부정적) 답변이 진실이 아니고 이 무작위적 노이즈 때문이라고 주장할 여지를 주는 것이다. 이런 식이다. 세금 신고에 관한 질문을 던지고 답을 얻기 전에 그 사람에게 동전을 던지라고 요청한다. 앞면이 나오면 반드시 반드시 솔직하게 대답을 해야 한다.뒷면이 나오면 동전을 다시 던져 뒷면이 나오면 '아니오', 앞면이 나오면 '예'라고 대답을 해야 한다.

우리는 동전 던지기의 결과가 어떤지, 동전을 몇 번 던졌는지 알지 못한다. 따라서 그 사람에게 실제로 세금 신고에서 부정을 저질렀는지, 진실을 공개하는 것이 아니라도 '예'라고 대답할 기회를 주는 것이다. 답변에는 그들의 이름이 공개되지 않을 것이라고, 답변으로 얻은 '예'와 '아니오'의 수만을 헤아린다는 말까지 덧붙이면 사람들은 상당히 신뢰성 있게 이런 설정을 따른다.

많은 수의 사람들에게서 이런 정보를 수집할 수 있다면 데이터에 무작위적인 노이즈가 포함되어 있더라도 우리가 얻은 '예'와 '아니오'의 총수로 간단한 통계적 기법을 적용해 실제로 세금 신고에서 부정을 저지른 사람의 비율이 어느 정도인지 예측할 수 있다.

오늘날의 차등 정보보호는 무작위 응답보다 정교한 기술을 사용하지만 기본적인 권리는 동일하다. 현대적 차등 정보보호의 목표는 데이터를 통한 개인 식별을 차단하는 일과 다양한 분석과 응용에 사용할 수 있는 총체적 정보를 만드는 것 사이의 균형이다. 세금 신고에서 부정이 있었는지를 묻는 대신에 의료 서비스 제공자들에게 다양한 치료의 보급에 대해 혹은 그가 직접 경험한 결과에 대해 물어볼 수 있다. 이제 우리는 의료 기록의 개인 정보보호를 침해할 가능성이 낮은 상태로 의료 분석을 수행할 수 있다.

환자의 입장에서 우리는 개인 의료 기록이 드러나는 것을 원치 않더라도 연구자들이 질병에 대한 더 많은 효과적인 치료법을 찾을 수 있도록 차등 정보보호를 이용해 다른 데이터들과 종합한 형태로 정보를 제공하는 데는 동의할 수 있다.

기술계에서 애플과 구글은 제품이 이 기술을 채용하고 있다. 예를 들어 아이폰 사용자들의 활동 정보는 특정한 양의 노이즈와 함께 개인 식별 속성이 없는 상태로 애플에 전송될 수 있다. 이후 애플은 이런 데이터를 이용해서 누가 그 글을 입력했는지, 누가 그런 사이트에 방문했는지 모르는 상태로 자동 교정 기능을 향상시키거나 어떤 웹사이트들이 브라우저 충돌을 일으킬 가능성이 높은지 판단할 수 있다. 마찬가지로 구글은 누가 광고를 클릭했는지, 식별하지 않고 어떤 확률의 광고 클릭 확률이 높은지 판단할 수 있다.

물론 차등정보보호가 프라이버시 문제를 해결할 만능 열쇠일 수는 없다. 정부 차원의 정책도 여전히 필요한 일이다.

차등 정보 보호는 개인정보보호라는 까다로운 문제를 해결하는 동시에 데이터 수집과 분석을 통해 혁신의 효과를 누리게 해주는 훌륭한 기술적 해법으로 보인다. 그러나 차등정보보호라고 단점이 없는 것은 아니다. 대답에서 주제를 분석하기 위해서는 시스템에 정보 조각에 질문을 반복해서 해야 하는데 여기에서 문제가 발생한다. 세금 신고 사례를 다시 생각해보자. 임의적 응답을 사용한 질문을 단 한번만 한다면 많은 양의 정보를 얻을 수 없을 것이다. 하지만 그 사람에게 여러 번 질문을 한다면 예 혹은 아니요라는 대답의 장기적인 추세를 확인할 수 있다.

그것으로 그 사람의 진짜 답이 무엇인지 알아낼 수 있을 것이다. 마찬가지로 시스템에 차등 정보보호를 채용한 질문을 반복하면 예상한 것보다 더 많은 정보가 드러나고 실제로 우리의 개인 데이터가 모호하고 사적이라는 생각이 틀렸음을 보여줄 것이다. 기술적 해법만으로는 모든 상황에서 우리의 개인정보보호 문제를 해결할 수 없다. 더욱이 기술의 존재 자체가 그것이 사용자에게 가장 좋은 방향으로 활용되리라는 보장을 해주지 못한다. 사적 선호와 정부 규제라는 보다 큰 범위에서 기술의 역할에 대해 고찰해 볼 필요가 있다.

keyword