GIGO의 법칙
앞에서는 오차 e를 0으로 만들기 위해서 과도하게 집착하는 '과적합'의 위험성에 대해서 이야기했습니다. 다시 한번 우리가 세상을 해석하는 f(X)라는 함수를 살펴봅시다. 세상의 변화(Y)를 설명하고 해석하기 위해서는 X라는 변수와 데이터를 통해서 파약해야 함을 상기할 필요가 있습니다.
아무리 정교하고 정밀한 모델(f)을 만들었다 하더라도, 그 시작점인 재료(X)가 상해 있다면, 또한 결괏값(Y)의 데이터를 신뢰할 수 없다면 모델(f)의 결과는 활용할 수 없습니다. 통계학에서는 이에 대한 중요함을 설명하는 격언이 있습니다.
"쓰레기를 넣으면 쓰레기가 나온다 (Garbage In, Garbage Out)."
“금을 넣으면 금이 나온다 (Gold In, Gold Out).”
Y = f(X) + e를 요리에 비유해서 생각해 봅시다. 여기서 Y는 완성된 요리의 맛, f는 셰프의 조리 기술과 레시피, e는 그날의 습도나 셰프의 컨디션 같은 우연적 요소입니다. 그리고 X는 바로 식재료입니다.
우리가 세계 최고의 미슐랭 3 스타 셰프를 고용하여 완벽한 레시피(f)를 설계했다고 가정해 봅시다. 하지만 그 셰프에게 주어진 재료(X)가 상한 생선과 썩은 채소뿐이라면 어떨까요? 아무리 뛰어난 기술로 조리하고 향신료를 뿌려 악취를 감춘다 한들, 그 결과물(Y)은 먹으면 배탈이 나는 '쓰레기'일뿐입니다.
통계 분석이나 AI 모델링, 그리고 우리의 일상적인 의사결정도 이와 다르지 않습니다. 많은 사람들이 더 나은 결과를 얻기 위해 최신 알고리즘을 도입하거나 복잡한 사고 모델을 배우는 데(f를 개선하는 데) 열을 올립니다. 하지만 정작 그 모델에 집어넣고 있는 X가 인과 관계가 아니거나, Y값이 편향되어 있거나, X, Y 데이터가 오류투성이라는 사실에 대해서는 주의를 기울이지 않는 것 같습니다.
많은 제조업체를 방문하면서 느꼈던 것 중의 하나가, 데이터가 있기는 하지만 회사 경영에 도움이 되는 데이터를 찾기는 어려웠었던 경험이 많이 있습니다. 공장에서 많은 노력을 통해 수집한 데이터를 제가 보았을 때 막상 요리를 할 수 없었던 안타까운 순간들이 많았습니다.
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.