brunch

데이터 + 품질관리

일머리가 절실한 데이터 품질 관리

by 브라키오사우루스

사내에서 데이터가 필요한 영역은 명확하다. 어떤 것이 가능하고 어떤 것이 안되는지에 대한 기준도 있다.

“원천데이터에 없잖아요”

“원래 그렇게 들어가 있는 이름을 어떻게 수정해요”

이런 말들이 먹힌다. 우리끼리 내부 DB 현황을 잘 알고 있기 때문에 이래서 안 되고 그건 원래 안 되는 거라는 설명이 가능하다. 너무 당연한 걸 물어보는 아무것도 모르는 사람 취급을 받기도 한다.


외부 고객에게 데이터를 공급할 때는 어떨까?

고객은 우리 내부 사정에는 관심이 없다. 빠르고, 정확하게, 그리고 합리적인 가격으로 공급할 수 있는가? 그것에만 관심이 있다.

우리가 검토해야 하는 것은 원천 데이터를 가공해서 고객이 요청한 항목을 만들어 낼 수 있느냐, 만들면 정확도는 어느 정도 되는가, 기간은 얼마나 걸리나 하는 것들이다. 고객에게 자세한 설명을 할 필요도 없다. 되는지 안되는지, 되면 얼마나 걸리고 안 되면 그 이유가 무엇인지 설명하면 된다.


고객이 내부에 있는가 외부에 있는가는 결국은 직접적으로 돈을 냈는지에 따른 구분과 비슷한 것 같다. 내부에서 이뤄지는 데이터 작업은 돈을 주고받는 일이 아니다. 요청자와 작업자가 같은 회사 직원이다. 잘못되었을 때는 사과하고 반복되면 점심이라도 한번 사면서 사정을 이야기할 수 있다.

돈을 받고 외부에 데이터를 공급하는 것이라면 작업이 잘못되었다는 사정을 고객에게 설명하기 어렵다. 반복된다면 계약 해지로 이어질 수 있는 더 큰 문제다. 외부에 데이터를 공급하면서 데이터 품질에 대한 생각을 자주 하게 된다.


데이터는 빠르고 정확해야 한다. 둘 중 어떤 게 더 우선입니까 묻는 경우가 더러 있는데 나는 빨라야 된다고 생각한다.

10일까지 데이터를 주세요, 해서 알겠다고 하고 작업을 했는데 데이터가 11일에 나가게 되면 고객의 만족도는 이미 떨어져 있다. 약속한 기간보다 늦게 나갔는데 데이터에도 오류가 있다고 하면 할 말이 없다. 이런 경우도 간혹 있는데 심한 경우에는 우리가 데이터를 공급할 준비가 안되어 있는 게 아닌가 싶은 자괴감이 들기도 한다.

고객의 무리한 요청이 있었을 수도 있고, 우리 작업자의 실수일 수도 있고, 두 기관의 커뮤니케이션에 문제가 있었을 수도 있다. 데이터를 수집하고 저장하고 추출하고 가공하는 과정들도 일련의 프로세스 공정이라 작업 과정에서 오류가 발생할 수 있다.


기한을 준수하기 위해 그럼 완성이 안된 데이터를 보내도 된다는 말일까? 당연히 그렇지 않다. 데이터를 다룬다고 하면 우리는 데이터 기술에 대한 것을 주로 생각하지만, 이것도 모두 회사 안에 들어와 있는 것이므로 ‘일머리’라는 게 필요하다. 약사는 약을 조제하고 환자에게 설명하는 일을 하는 사람이지만 약을 발주하기도 하고 약국 청소나 민원고객 응대, 때로는 길안내까지 한다. 회사원도 비슷하다. 일머리가 뭐냐면, 나의 본업을 잘 수행하기 위한 업무 센스다.


데이터 요건을 잡을 때는 기준을 명확하게 해야 한다. 높은 견적에 마음을 뺏겨서 모호한 문구들을 계약서에 넣거나 이상한 요청을 그냥 수용하면 안 된다. 협의가 꼭 필요하고 또 중요하다.

데이터가 나가야 하는 기한도 여러 가지 돌발적인 상황을 대비해서 넉넉히 잡아야 한다. 지금부터 시작하면 다음 주에 완성될 것 같지만 그 사이에 내가 아플 수도 있고 급한 출장이 잡힐 수도 있고 데이터상에서 예상치 못한 이상치가 발견될 수도 있다.


작가들이 글을 쓸 때 초고를 수십 번 고치는 것처럼 데이터도 추출해서 바로 다운로드하는 건 위험한 일이다. 항목이 모두 들어가 있는지, 이상치는 없는지, 시장 통계와 어느 정도 유사한지, 이전에 나간 데이터와 연결해서 볼 수 있는지 여러 가지를 체크해야 한다. 데이터를 추출하고 나서 검증하는 시간이 반드시 필요하다.


데이터는 충분한 협의가 필요한 상품이다. 메일로 여러 번 확인을 해도 나는 그렇게 이해하지 않았다는 말을 하기도 한다. 그렇게 쓰여있는데 이해를 다르게 했다고요? 의아하지만 설명의 의무는 공급자에게 있다. 데이터를 더 잘 아는 쪽에서 가이드를 줄 수 있어야 한다.

데이터 작업 프로세스에서 품질에 문제가 생기는 경우는 앞부분의 협의가 헐렁한 데서 출발한다. 또 다른 경우는 데이터 작업자들 간의 커뮤니케이션이 잘 안 되는 경우다. 고객이든 내부 직원들 간이든 커뮤니케이션과 관련되어 있다.


데이터 품질관리를 위해서 분석기술이 중요하지만 지금 고객이 무슨 말을 하는지에 대한 이해가 더 중요하다. 데이터가 잘못 나가서 민원이 발생한 경우에도 고객이 사과를 요청하는 건지, 빨리 다시 달라는 건지, 상황을 알려달라는 건지 궁극적으로 어떤 요청을 하는 건지 알아듣지 못하는 경우가 많다.

데이터 전문가라면 고객이 지금 뭐가 필요한 건지, 그래서 내가 줄 수 있는 솔루션은 뭐고 그 데이터 작업을 어떻게 할 건지 고객의 말로부터 그림이 그려져야 한다. 이는 분석력과 경험치 모두가 충족될 때 가능한 일이다. 데이터는 손으로만 할 수 없고 머리만으로도 할 수 없다. 데이터 품질과 가장 상관관계가 높은 것은 ‘상황을 보는 안목과 상대에 대한 이해’인 것 같다.



keyword