brunch

You can make anything
by writing

C.S.Lewis

by 삼더하기일 Apr 28. 2021

빅데이터? 내 개인정보도 같이 수집되는 거 아니야?

데이터 수집과 개인정보

그야말로 빅데이터 시대다. 이제는 공공기관을 비롯해 많은 기업들이 데이터의 필요성을 인지하고 데이터를 활용해보려 안간힘을 쓰고 있다. 그런데 데이터를 활용하려면 필요한 한 가지 전제조건이 있다. 바로 데이터를 잘 수집하고 저장하고 관리해야 한다는 것이다. 여기서 하나 불안한 점이 생길 수 있다. 어떤 산업에 속하는 기업이냐에 따라 내용은 다르겠지만 기업이 마음대로 데이터를 수집하고 저장할 수 있도록 하는 것이 옳은가에 대한 문제이다. 기업이 원하는 대로 마음껏 데이터를 수집하고 활용한다면 일반 개인의 정보, 그중에서도 남들에게 보이기 꺼릴 수 있는 정보도 함께 수집될 수 있기 때문이다.


요새 데이터 엄청 활용한다던데, 내 개인정보 안전한 거 맞아?


데이터 수집과 개인정보 문제는 밀접하게 연관되어 있다. 기업 입장에서 데이터를 제대로 이용하기 위해 개인정보라 볼 수 있는 데이터를 활용해야 하는 경우가 필수일 때가 있다. 대표적인 사례를 금융업에서 볼 수 있다. 생각을 해보자. 은행이 내 개인정보를 단 하나도 가지고 있지 않다면 지금과 같은 서비스를 제공할 수 있을까? 그렇다면 아예 수집 자체를 못하게 하는 것이 맞는 것일까? 아니면 수집은 할 수 있더라도 활용 단에서 어떠한 제약을 걸어야 하는 것일까? 최대한 개인정보를 기업이 가지고 있지 않아도 될 수 있게 다양한 아이디어를 생각해볼 수는 있지만 지금 수준의 서비스를 그대로 구현하려고 생각하면 머리 아픈 일이다.


게다가 개인정보와 관련 이슈는 '그냥 기업이 내 개인정보 가지고 있는 게 싫어'나 '마음먹고 악용하면 어떻게 할 건데?'의 걱정 수준을 넘어 실제로 문제가 된 적도 많다. 외부 해킹 공격에 의한 것이든 기업의 실수 때문이든 대량의 고객 개인정보가 유출되었다는 뉴스는 심심치 않게 들리고 있다. 그래도 기본적으로 개인정보를 마음대로 저장하고 활용하면 안된다는 것과 개인정보 보호를 위한 노력이 필요하다는 것에는 확실히 합의가 존재한다. 그렇기 때문에 국가, 기업, 데이터 분석가 입장에서 모두 개인정보 보호를 위해 노력을 기울이고 있다. 물론 그런다고 개인정보 유출/악용에 대한 우려가 말끔히 씻어지진 않겠지만 말이다.


기본적으로는 안심해도 됩니다. 그래도 늘 조심은 해야죠!


2020년 데이터 3법이라고 불리는 법안이 국회 본회의를 통과했다. 데이터 3법은 구체적으로 개인정보 보호법, 신용정보의 이용 및 보호에 관한 법률, 정보통신망 이용촉진 및 정보보호 등에 관한 법률로 이루어져 있다. 데이터 3법 자체는 데이터 경제 활성화가 가장 큰 목적이지만 데이터 3법의 한 축을 개인정보 보호법이 차지하고 있는 만큼 해당 법안은 개인정보에 대한 이슈도 담고 있다. 이번 시간에는 데이터 3법에 근거하여 데이터 분석을 업무로 하고 있는 사람들이 지키고 있는 혹은 지켜야 하는 내용이 무엇인지 알아보고 이를 통해 개인정보 보호가 어떻게 이루어지고 있는지 간접적으로나마 살펴보려 한다.


활용하는 데이터로 특정 개인을 추정할 수 있으면 안됩니다!


우선 기업과 데이터 분석가가 데이터를 활용함에 있어 가장 먼저 알아야 할 것은 우리가 가지고 있는 데이터가 개인정보에 해당하는가이다. 같은 데이터를 보고 누군가는 개인정보라고 답할 수 있고 누군가는 이게 왜 개인정보냐고 반문할 수 있다. 그렇기에 개인정보라는 구분을 생성하기 위해 기본적인 합의가 필요하다. 그리고 그 합의 내용으로 어떠한 데이터로 특정 개인을 추정할 수 있으면 그것을 개인정보라고 정의하기로 했다. 여기서 말하는 그 어떠한 데이터는 특정한 하나의 데이터가 될 수도 있으며 다른 데이터와 연결되었을 때 해당 조건을 만족시키는 데이터를 포함하기도 한다.


개인정보, 가명정보 등 우리가 일반적으로 말하는 개인정보를 다시 세분화해서 이야기 하기도 한다. 여하튼 핵심은 특정 개인을 추정할 수 있는가?이다. 예를 들어, 주민번호 데이터를 가지고 있으면 이 데이터 하나만으로 이 주민번호를 가진 사람이 누군지 알아낼 수 있다. 그렇기에 주민번호는 개인정보가 된다. 이름은 어떨까? 이 세상에는 동명이인이 많기 때문에 이름만으로는 특정한 한 사람을 추정할 수 없다. 하지만 거주지 주소가 연결되면 또 다르다. 거주지 주소 데이터 역시 단독으로는 특정 개인을 추정할 수는 없지만 이름과 함께 결합하면 한 개인을 충분히 추정할 수 있다. 이럴 때 해당 데이터는 이용하는 것에 제한이 생긴다.


활용한다 할지라도 비식별화를 반드시 해야 합니다.


그렇다고 개인정보에 해당하는 데이터를 무조건 못쓰는 것은 아니다. 앞서 언급하였듯 은행을 생각하면 고객의 개인정보를 아예 저장하지 못한다고 가정할 때 치명적으로 작용할 수 있다. 사회에서 강조하는 데이터 경제와는 맞지 않는 상황이다. 그렇기에 기업과 데이터 분석가 입장에서 데이터를 활용할 때 개인정보 데이터라 볼 수 있는 내용이 있으면 이는 반드시 비식별화 과정을 거쳐 활용하게 된다. 예를 들어 내 주민번호가 123456 - 1234567이라고 할 때 이를 식별할 수 없도록 BDL103CCI12P8과 같이 알 수 없는 문자 형식으로 변환하는 것이다.


주민번호의 원 데이터를 그대로 가지고 있다면 해당 데이터를 가지고 특정 개인을 충분히 추정할 수 있다. 하지만 이를 알 수 없는 문자 형식으로 변환하면 해당 문제를 벗어나게 된다. 그래서 개인정보라 볼 수 있는 데이터 중 꼭 활용에 필요한 경우는 이와 같이 비식별화 과정을 통해 활용을 하게 된다. 사실 데이터를 분석해야 하는 입장에서 이런 식의 제약이 편할리는 없다. 직관적으로 이해 가능한 데이터를 직관적으로는 이해하지 못하게 변환해 받아보기 때문이다. 하지만 개인정보 보호라는 더욱 중요한 가치가 있기 때문에 적어도 내가 본 데이터 관리자들은 모두 이 원칙을 잘 지키고 있다.


개인정보 수집이나 마케팅 목적 정보 제공 동의를 한 고객 대상으로만 분석을 하기도 합니다.


그럼에도 불구하고 나를 의미하는 데이터 자체가 남한테 저장되고 있는 것이 싫은 사람이 있을 수 있다. 이 경우에도 정보 수집이나 마케팅 정보 제공 활용 동의 기능을 통해 문제를 해결할 수 있다. 나의 데이터가 수집되는 것이 영 찝찝하다면 동의를 하지 않으면 된다. 당연히 동의를 하지 않은 고객에 대해서는 기업이 데이터를 마음대로 적재하고 활용할 수 없다. 물론 동의를 한 고객이라 할지라도 위에서 언급하였던 개인정보에 해당하는 데이터는 아예 저장을 하지 않거나 비식별화 처리를 진행한 뒤에 활용을 하게 된다. 고객 만족의 차원에서나 법률적 차원에서나 생각보다 개인정보 보호를 진심으로 노력한다고 보면 된다.


아무리 열심히 노력 한다한들 늘 관심을 가지는 것은 필요합니다.


분석가 입장에서 한풀이를 하자면 개인정보 보호를 위해서만 쓰는 시간이 너무 많을 정도다. 하지만 이렇게 기업과 데이터 분석가들이 개인정보 보호를 위해 노력을 한다고 할지라도 완전한 안심은 위험할 수 있다. 이전에 이슈가 되었던 개인정보 유출 사례들도 해당 기업들이 고의적으로 개인정보를 유출하지는 않았다. 그렇기에 법률적 장치가 되어있는 것에 무조건 안심하지 말고 늘 나의 데이터를 보호하기 위해 어떤 노력들을 기울이고 있는지 관심 있게 지켜봐야 할 필요가 있다. 일반인 입장에서 그런 태도를 가질수록 기업과 데이터 분석가가 예민하게 문제를 받아들여 개인정보 보호를 위한 노력에 더욱 힘쓸 것이기 때문이다.


물론 나 역시 모든 업종의 데이터 분석 업무를 다 경험해 본 것이 아니고 모든 회사가 개인정보 관리에 열심히 관여하고 있는지는 알지 못한다. 하지만 적어도 내가 경험하고 있는 회사와 주변의 이야기를 들은 회사는 모두 개인정보 보호를 위해 열심히 노력하고 있다. 그래서 '나의 정보가 수집되는 것에 너무 민감하게 받아들일 필요는 없으나, 잘 관리하고 있는지 늘 관심 있게 지켜보아야 한다' 정도의 결론을 내려한다. 현재 빠른 속도로 수행되고 있는 개인정보 보호 노력에 일반인들의 관심이 곁들여져 모든 기업과 분석가가 책임감을 가지고 데이터를 다루는 사회가 하루 빨리 오기를 바란다.



※ 평소 빅데이터/인공지능에 궁금한 점이 있어 답변을 원하는 내용이 있다면 공유해주시면 감사하겠습니다.

매거진의 이전글 데이터가 없는데 빅데이터 어떻게 공부해?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari