% 본글은 정부의 개인정보 비식별 조치 가이드라인을 발췌/참고하여 작성 되었습니다.
익명화를 이야기 할때 프라이버시 보호 모델로서 KLT (k-익명성, l-다양성, t-근접성) 모델이 언급되고 있다. 간단한 개념이지만 막상 적용하거나 툴을 사용해서 데이터를 검증할 때 혼돈되는 부분이 있을수 있다. 뿐만아니라. 실제 툴을 이용해서 최대한 데이터로서의 가치를 지키면서 이게 k-익명성을 만족하는지에 대해서 검토 했을때 과연 정말 만족했는지에 알기 위해서는 KLT에 대한 기본적인 개념은 파악하고 있어야 한다. 이에 간단하게 정리해 본다.
정의 : 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보로 결합할 수 없도록 함 (예. 모든 데이저 컬럼에서 최소 k개 이상의 중복된 자료가 존재한다. 개인을 식별할 확률은 1/k임)
- 데이터 집합의 일부를 수정하여 모든 레코드가 자기 자신과 동일한 (구별되지 않는) k-1개 이상의 레코드를 가짐
Ex. 특정 레코드에 대해서 비식별 조치를 통해서 동질집합의 크기가 2-3인 겨우에 3익명성을 만족한다고 한다. ( 김씨 성을 가진 30-35살의 사람의 개인식별자를 익명처리 한것이 3명인 경우 이를 3익명성을 만족한다고 한다.) k값이 2보다 큰 경우에 재식별하는것은 불가능 하나.. 개인을 추정하는 것은 가능하다.
정의: 주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 l개의 서로 다른 민감한 정보를 가져야 함 (정보가 다양성을 가지므로 다양성 부족으로 인한 공격의 방어가 가능)
비셕별 되는 데이터는 적어도 N개 개의 서로 다른 민감한 정보를 가져야함, 동질성 공격과 기반 지식을 기반한 추정성 공격을 대응하기 위해 사용됨
위의 표에서 k 익명성을 만족하지만 9-12번의 경우 위암이다. 만약 저 표에서 130** 지역에 사는 김철수가 만약 있고 아프다면 그 사람은 위암일 확률이 아주 높아 식별이 가능하므로 개인이 노출될 수 있다.
이를 방지 하기 위해서 5-8과 같이 다양성이 한개 이상이여야 한다.
정의 : 동질 집합에서 특정 정보의 분포화 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보여야함
l-다양성 취약점을 보완하기 위한 모델로서 정보가 편중(쏠림) 되어 있거나 레코드의 정보가 서로간에 유사한 경우에는 프라이버시를 보호하지 못하므로 이를 보호하기 위한 모델
-> 상세한 계산법은 아래의 링크를 참고하기 바란다.
t-근접성 상세 내용 참고
https://www.cs.purdue.edu/homes/ninghui/papers/t_closeness_icde07.pdf
https://en.wikipedia.org/wiki/T-closeness
테스팅 툴
https://aircloak.com/top-5-free-data-anonymization-tools/
B2B 서비스 제공 회사