코시국 데이터사이언스

대한민국 Data governance

by 채유나

흔히들 전공자들이 데이터 사이언스를 이야기할 때는 과학적으로 데이터를 접근한다는 정의론적 의미보다는 데이터에서 인사이트(insight)를 찾는다는 역할론적 표현을 더 많이 사용하곤 한다. 과학적인 논리를 당연히 전제하며 일하지만, 직업의 목적이 결국 데이터를 통해서 어떤 의미있는 결과를 추출하고자 하는데 포커싱이 맞춰져 있기 때문이다.


[데이터 안에서 인사이트를 찾는다는 것은]
지금 여러분들이 보는 화면에는 여러 개의 서로 다른 길이의 선들이 한 군데 뭉쳐져 있습니다. 제가 만약 여러분들에게 이 중에서 가장 길이가 긴 선을 무엇이냐고 묻는다면 어느 하나를 골라내기가 쉽지 않으실 겁니다. 그런데 만약 제가 이렇게 상황을 바꾸어 질문을 한다면 여러분들은 보다 직관적으로 저의 질문에 대한 답을 찾을 수 있을 뿐만 아니라 다른 것들에 비해 얼마나 다른지 특징을 공유할 수 있게 됩니다. 이렇게 제가 직선이라는 정보의 내용은 바뀌지 않았는데도 정보를 어떻게 표현 하느냐에 따라서 찾고자 하던 차이를 더 빨리 알아차리기도 하고 전반적인 데이터의 특성을 더 쉽게 전달할 수 있기도 합니다. 데이터사이언티스트들은 예를 들어 제가 여기서 사용한 시각화 분석 기법을 포함해서 다양한 방법을 활용해서 정보의 본질을 꿰뚫어보고 질문자의 의도에 맞는 답을 찾을 수 있다고 하여 데이터의 인사이트를 찾는다고 말합니다.



영국 데이터사이언스 석사 과정은 교실 안에서 다룬 분석 방법론을 현실 세계 문제로 적용하는 훈련을 반복한다. 코로나 바이러스로 한창 국가간 대응이 바쁠 때 데이터 사이언스 석사 과정에 재학중이던 나는 각종 데이터가 넘쳐나는 현상을 겪었다. 현실은 불안과 불확실성의 연속이었을지언정 학자의 길 안에서는 흔치 않은 호재였다. 동일한 사항에 대해 범세계적인 비교 데이터를 얻을 수 있는 연구 기회라 자연스레 국가 통계자료들을 수집하였다.



특히 나의 눈길을 끌었던 것은 한국 및 아시아 국가들에서 확진자 동선을 공유하던 내용이었다. 2022년 현재까지 영국에 체류하며 팬데믹 고비를 넘기는 모든 순간에 나에게는 항상 나의 정보를 얼마나 공개할 것인지에 대한 동의 요청이 있었고 동의할 경우 데이터가 어떻게 활용되는지 안내가 있었다. 그에 비해 예를들어 한국은 아직까지 대구 신천지 교회 집단 감염 사례에 31번 개인을 특정하는 de-anonymised data가 출간된다. 코로나 바이러스 방역 정책 및 연구 전반적으로 비슷한 현상이 확인되었고 이에 대한 내용은 곧 Data Governance (데이터 거버넌스, 데이터 통합 관리) 중요성을 상기시켰다.

특정 아시아 국가에서만 일어나는, 서구 국가들이 보호하는 데이터 수집 절차와 대비되는 사례들을 떠올릴 수 있다. 해당 사항과 관련해 항상 뒤따르는 부제는 공공의 이익과 개인의 권리 사이 경중을 따지게 한다. 여기에서 한국의 위치는 어디쯤인지, 얼마나 어떻게 담론이 형성되었는지 코로나 바이러스 팬데믹 기간에 느낄 수 있었다.



지난 2020년 한국에서는 코로나 감염 환자의 동선 정보를 공개하였으며 해당 과정에서 개인의 신용카드 사용기록(결재 기반 방문 상점 기록, 대중교통 이용 구간 등)과 휴대폰 통신 사용 기록(위치 정보 등) 뿐만 아니라 공공장소 설치 운영중인 CCTV 기록까지 활용해 '완벽한 바이러스 추적'을 하였다. 이러한 동양적 집단 우선주의 방식은 영국과 같은 서구권 개인정보 보호와 배치되며 거의 실현불가능한(unlikely) 평가를 받았다.

[부정확한 정보 전달 논란이 되어 현재 레퍼런스를 구할 수 없었지만 BBC Korea 외신 기자의 시선에서 바라본 한국 확진자 정보 공개에 대한 취재파일도 기억에 있다.]



석사 과정을 하며 2020-21년 한국 데이터 분석을 참고하는 도중에, 한국에서도 개인 민감 데이터 보호에 대한 자성의 목소리가 촉구되어 초창기 공개된 정보의 수정 및 숨김 처리를 하는 변화가 점점 일어나는 것을 지켜볼 수 있었다. 일례로 2020년 4월 어느 데이터 분석 경연대회에서는 코로나 감염 환자의 동선(Patient route)를 챌린지 데이터셋의 하나로 등록해 공유하였으나 원본 데이터 소스공급자 측에서 7월 개정을 통해 환자 동선 정보를 삭제 한 것이 있다.

[해당 사례는 나의 개인적인 판단에, 국제 학술대회(NeurIPS 2020)에 데이터셋을 등록하는 과정에서 심의 기준을 맞추기 위한 조치가 아니었나 추측하고 있다.]



범세계적 재난 상황에서 초창기 성공적 방역 효과를 낸 국내 연구 분석 및 정책 사례를 해외로 전달하는 과정에서 개인 정보 데이터 수집 및 동의에 관한 관리방침에 의문이 제기되었을 거라 생각한다. 그래서 나는 더욱 더 개인이 기술을 배우는데 활용하는 제도범위 내 교육과정 안에서 최대한 보수적인 가르침이 중요하다고 생각한다. 수집된 데이터를 활용하는 연구자로써 경계해야 할 유혹을 인지하지도 못하는 것은 큰 차이를 만들기 때문이다. 그래서 한국의 데이터 관리들은 어떤 항목들이 민감 데이터로 구분되는지 분류방법을 추가할 필요가 보인다. 분류법을 포함한 실용적인 교육의 확장 또한 정규 교육 과정 안에 의무화 해야 할 것 같고 지속적인 관심이 필요할 것으로 주장한다.





유나

MSc Data Science at Cit, University of London


이전 10화Hello, World!