Data-Driven Company가 Big Data 시대에 모든 회사가 갖는 지향점입니다. Data가 모든 Decision에 요구되는 재료입니다. 자연과학과 공학을 전공하고 학위 논문을 쓰거나 Journal에 연구 결과를 Publishing할 때, 제일 어렵고 공들이는 순간이 측정으로 통해 얻어진 Raw Data의 엄밀성입니다. 엄밀성은 Accuracy와 Precision을 의미합니다.
Noise를 최대한 배제하여야 합니다. 부득이 들어간 노이즈는 정량화합니다. Drift Term이 있으면 Cancelation할 방법을 찾아야 합니다. Data는 반복해서 측정해도 주어진 Uncertainty 내에서 유의미해야 하며, 동일한 측정 방법은 사람과 도구가 바뀌더라도 허용치 내에서 재현될 수 있어야 합니다.
사실 분석보다 더 중요한 것이 Data 그 자체입니다. Data가 아무리 많아도 엄밀성이 결여된 Data는 Value를 만들어내지 못합니다. 제가 처음 Data를 측정해서 생성했을 때 들었던 선배의 말. ‘그 Data가 True란 걸 증명해 봐’입니다. 아, 분석이 True란 걸 증명하라는 게 아니고 Data가 True란 걸 증명하라니.
엔지니어가 재료와 도구를 사용하여 측정하고 생성하는 Data의 엄밀성 수준이 그 엔지니어의 실력입니다. Domain Expert가 Data의 엄밀성을 다루는 실력이 그 회사의 실력입니다. 데이터를 측정하는 도구의 정확성과 정밀성 수준이 그 회사의 실력입니다. 수집된 데이터의 엄밀성을 증명하기 위해 데이터의 품질을 평가하고 모니터링하는 수준이 그 회사의 실력입니다.
진정으로 Data-Driven Company가 되려면, Data Governance가 잘 정립되어 있어서, Domain Expert가 Data를 측정하고 생성하여 엄밀성을 증명하는데 달인이어야 합니다. Data를 다루는 Domain Expert의 실력이 최종적으로 그 회사 Data Science의 실력입니다.
엔지니어로 살면서 지금까지도 두려운 말. “Data가 True란 걸 증명해 봐.”
2020년 9월 21일 독서통신