brunch

You can make anything
by writing

C.S.Lewis

by Peter Jul 20. 2022

부정확한 데이터 가공이 계속되는 이유

정말 데이터를 다뤄본 사람이 데이터로 일하기를 설계할 수 있다

'데이터로 일하기'는 여전한 이슈입니다. 실상이 어떻든 데이터를 통해 타당한 결론을 얻어 경영을 해 보자는 명제는 사라지지 않았고 당분간 사라지지 않을 것 같습니다. 빅 테크에서 시작되어 디지털화를 모색하는 전통 기업까지 데이터에는 투자를 아끼지 않습니다.




그런데 생각해봐야 할 것이 있습니다. '데이터로 일하는 것'을 잘하려면 어떻게 해야 하는지 말이죠. 많은 데이터를 쌓아서 그중에서 무언가를 집계해서 추출해 냅니다. 그걸 특정 변수에 따라 분할해서 통계를 냅니다. 그걸 토대로 이런 것보다는 저렇게 하는 게 더 특이점이 보인다고 말합니다. 어려운 것을 하지 않아도 훌륭합니다. 다들 감으로 하는 일을 탄탄한 과거 패턴을 바탕으로 설명하려고 합니다. 




그런데 기본이 있습니다. 과거 추세가 앞으로 이어질지, 통계는 표본이 충분한지 이런 이야기까지 가지도 않습니다. 데이터와 데이터의 연결 말입니다. 이 테이블의 어떤 변수가 저 데이터의 어떤 변수이고, 이 변수는 어떤 시스템에서 누가 어떻게 할 때 인입되는지 정리한 내용 말입니다. 




많은 기업에서 여러 데이터를 쓸어 담아 데이터베이스에 저장합니다. 멤버십, 매출, 애플리케이션에서 발생하는 로그까지 다양한 데이터를 저장합니다. 물론 안 하는 것보다는 백배 낫습니다. 하지만 데이터의 연결과 정의가 부족하다면 데이터는 시너지를 낼 수 없고 했던 일을 다시 하는 굉장한 부작용이 도사리게 됩니다.




아주 예전에 ERD를 공유하는 것이 중요하다고 브런치를 통해 말씀드린 적이 있습니다. 물론 보안 사항에 가까운 내용이지만 활용하려고 만들어 둔 데이터를 누구도 제대로 활용하지 못하게 만드는 것은 데이터 엔지니어 자체가 얼마나 중요한지 스스로 생각하지 못하거나 관리할 수 있는 눈이 없기 때문입니다. '고객 중심'이라고 말하지만 데이터는 정작 데이터를 활용하는 '고객 중심'으로 관리하지 않는 게 이런 문제가 반복되는 근본 원인입니다.




오히려
데이터를 사용하는 고객은
철저히 외면받고 있습니다 



대부분 직장에서는 데이터는 보안 사항이라 모든 권한을 승인받게 되어 있으며 테이블 각각에 대한 설명은 비교적 잘 이뤄지고 있으나 테이블의 연결과 데이터의 정확한 정의는 문의해도 아는 사람이 갈수록 드물어서 제대로 일하기가 어려워지고 있습니다. 이미 만든 사람은 회사를 그만두었고 남은 사람들은 점점 더 모르는 게 많은 시스템을 설명할 수 없습니다.



'이 테이블에 있는 sales라는 변수가 부가세를 제외한 내역인가요'
'이 테이블에 있는 cpn_amount가 저 테이블의 coupon_amt와 같은 것인가요'
'여기 member_cnt가 의미하는 고객 수가 정확히 어떤 고객을 말하는 것인가요'



이런 부분이 공유되지 않는다면 모든 분석과 예측이 무의미해집니다. 모두 다시 해야 하죠. 다시만 하면 다행이지만 이걸 실무로 하고 있는 좋은 인재들도 떠나갑니다. '일하기 좋은 직장', 'MZ가 오고 싶어 하는 직장'은 일할 때 심판을 받게 되는데 데이터 사용자가 불편함을 느끼는 직장은 심판의 대상입니다.




우리 회사는 모든 위키가 완벽하고 문의하면 바로바로 답해주니까 상관없다고 느끼는 곳이 있다면... 글쎄요. 후행적인 서비스는 선제적인 배려에 훨씬 못 미칩니다. 위키에는 부정확한 예전 정보, 예전 테이블만, 그리고 테이블과 테이블의 연결은 기록되어 있지 않을 수 있습니다. 슬랙으로 메신저로 대답해주지만 그 대답이 원하는 답이 아닌 단순히 빠른 응대에 그칠 수도 있습니다. 더 깊이 들여다보지 않으면 조용히 인재는 떠나갑니다. 데이터로 일해 본 사람이 데이터 정책을 통해 더 좋은 회사를 만들 수 있습니다.





매거진의 이전글 지표 정의에서 분석은 끝난다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari