큰 데이터에는 큰 책임이 따른다
많은 회사들이 데이터를 차지하고 또 사용하기 위해 상당한 노력을 기울인다. 인공지능, 데이터 분석, 데이터 드리븐 문화를 회사의 핵심 역량으로 키우기 위해서는 데이터의 존재 유무가 가장 큰 역할을 하기 때문이다. 그래서 “데이터를 모야야 합니다!”라는 공감대는 산업 전반에 걸쳐 공유되고 있는 것 같다. 그런데 이렇게 데이터를 수집하기 위해 아득바득하다 보면 꼭 문제가 터지는 지점이 있다. 이 지점은 바로
중구난방으로 쌓이고, 누락되고, 중첩되는 데이터들이다.
쉽게 예를 들어보자. 한 사람이 자신의 일상생활을 앱으로 기록하여 자신이 고쳐야 하는 부분들을 찾고 싶다고 해보자. 그 사람은 습관 앱을 통해 자신이 습관적으로 하는 이런저런 행동들을 기록한다. 문제는 까먹고 기록을 안 할 때도 있고, 어쩔 때는 기록을 오기입 한다. 또 나중에 보니 자신의 일상생활을 분석하기 위해서는 습관 앱에 기록하는 정보 이상의 더 많고 다양한 정보들이 필요하다는 것을 알게 된다. 결국 마지막에 가서 데이터를 쌓으려는 노력도 하였고, 또 쌓았지만 손에 남은 것은 별 가치가 없는 데이터들이다. 그리고 그 데이터로 알 수 있는 것들은 굳이 데이터를 쌓으려는 노력을 하지 않아도 알 수 있는 것들이다. 어디서 들어본 스토리이지 않는가? 바로 당신의 회사에서 일어나는 일이다
사실 데이터를 활용하기 이전에 데이터를 쌓아야 하고, 데이터를 쌓기 이전에 어떤 데이터를 누가, 어떻게, 왜, 그리고 어떤 룰에 따라 쌓아야 하는지 구조적으로 설계되어 있어야 한다. 그리고 이런 데이터를 쌓는데 꼭 지켜야 하는 “룰”을 만들고, 집행하고, 강제하는 것을 우리는 데이터 거버넌스라고 한다.
데이터 거버넌스는 어떻게 보면 어려워 보이지만 사실 쉬운 개념이다. 예를 들어 회사에서 컴퓨터라는 물리적 자산을 관리한다고 해보자. 모든 임직원들은 컴퓨터를 하나씩 가지고 있기에 컴퓨터를 잘 관리하기 위해서는 컴퓨터를 누가 가지고 있고 또 언제 돌려주었는지 기록하는 회사가 있어야 한다. 또한 해당 부서는 컴퓨터 고장 및 도난을 막기 위해 어떤 룰을 지켜야 하는지 정하고 강제한다. 이는 컴퓨터라는 자산을 관리하기 위해 만들어진 책임과 룰 들이라고 할 수 있다. 그리고 이 문장에서 컴퓨터를 데이터라는 단어로 바꾸기만 하면 그것이 바로 데이터 거버넌스가 된다.
개념은 간단하지만 실행은 어렵다. 가장 핵심적인 문제는 데이터는 무형은 자산이고, 그것이 어떻게 사용되는지 직접적으로 관찰할 수 없고, 또 여러 부서가 한꺼번에 연관되어 있기 때문이다. 그렇기에 잘못 삐끗하면 데이터가 누락되고 오염되는데 그 누구도 그것이 누구의 책임인지, 그리고 누가 해결해야 하는지 알 수 없는 상황에 처한다. 그렇기에 직접 지목당하여 책임과 권한을 맡기 전 까지는 누구도 책임지고 싶어 하지 않는다
따라서, 데이터를 사용하기 위해서는 좋은 데이터가 쌓여야 하고, 좋은 데이터를 쌓기 위해서는 명확하고 전사적인 데이터 거버넌스가 있어야 하고, 그런 데이터 거버넌스가 있기 위해서는
임원 레밸에서의 강력한 푸시가 필요하다.
그 누가 “데이터 관리”라는 추상적 이면서 어떻게 보면 막중한, 하지만 커리어와는 많은 연관이 없는 업무이자 책임을 지고 싶어 하겠는가. 모두 다 중요하다는 것을 알지만 그 누구도 책임지고 관리하기 싫어하는 업무와 책임을 부여하기 위해서는 임원진의 강력한 푸시와 설득이 필요하다
문제는 임원진들이 데이터에 대해 A-Z까지 아는 것이 아니기 때문에 초반에 데이터 분석가가 데이터 거버넌스의 필요성을 설득해야 한다는 것이다. 그리고 그러한 설득의 과정에서 데이터 거버넌스가 회사에 실질적으로 어떻게 도움이 되고 또 그런 도움을 어떻게 금전적 가치로 환산할 수 있는지 커뮤니케이션을 해야 한다. 그리고 이러한 전사적인 노력이 요구되는 프로젝트는 어디나 그렇듯 많은 반대에 부딪치게 된다. 특이나 데이터 거버넌스 프로젝트의 결과 자체가 직접적으로 보이는 것이 아니기 때문에 어떻게 성과를 보여주고 또 측정할 것인지 많은 고민과 창의성이 필요하다
그렇다면 다시 돌아와서 데이터 거버넌스는 무엇을 말할까? 나는 데이터 거버넌스는 아웃풋으로 정의된다고 생각한다. 각 회사의 상황과 구조가 다르기에 어떤 룰을 적용해야 되는지는 모두 다르지만, 결과는 아래와 같아야 하기 때문이다
각 데이터가 어떤 수준의 일관성, 무결성, 적시성을 유지해야 하는지 정의
각 데이터의 일관성, 무결성, 적시성, 그리고 데이터의 기입을 누가 책임져야 하는지
데이터 관리를 잘했다는 것을 어떻게 측정할 것인지
데이터 관리를 잘한 경우 그것이 어떻게 업무 성과에 반영되는지
새로운 데이터가 만들어질 시 위의 4가지 사항들이 누구에 의해 어떻게 정의되어야 하는지
위의 사항들에 대해 정의가 되고 또 실행이 된다면 그 회사는 이미 데이터 거버넌스를 잘 실행하고 있다고 생각한다