brunch

You can make anything
by writing

C.S.Lewis

by 서태원 Taewon Suh Sep 22. 2022

데이터의 한계

통계 밖의 삶

데이터는 시장주의의 핵심적 도구입니다. 시장에 대해서는 데이터가 강력한 기능을 발휘합니다. 시장은 성과의 크기에 대한 것이기 때문입니다. 데이터는 대의 민주주의의 중요한 도구이기도 합니다. 통계적인 여론은 현대 민주주의에 큰 영향력을 갖습니다.


데이터를 지나치게 사용하거나 지나치게 의존하게 되는 경우를 발견합니다. 개인성 및 개인적인 의미는 무시됩니다. 통계는 평균적이거나 집합적인 사실에 대한 것입니다. 현상의 풍부하고 구체적인 이야기는 설명하지 않습니다. 전체는 언제나 부분의 합보다 큽니다. 정성적인 측면이 무시됩니다. 디지털은 아날로그의 디테일을 담지 못합니다. 


결과는 평균적인 측면에서만 의미가 있습니다. 통계적 결론은 언제나 측정 가능한 측면에서 도출됩니다. 통계를 통해 완전한 해법을 찾는다는 것은 드문 일입니다. 통계적 결론은 판단을 위한 기초만을 제공해야 합니다. 


측정의 오류는 생각보다 큰 경우가 많습니다. 게다가 데이터는 수많은 기준에 따라 다르게 분류될 수 있으며 종종 원 데이터 전체가 더 정확한 그림을 보여줍니다. 이른바 심슨의 역설은 여러 그룹의 자료를 합했을 때의 결과와 각 그룹을 구분했을 때의 결과가 다른 때를 말합니다. 부분을 단순히 합친 것뿐인데 그 결과가 각 부분을 비교했을 때의 결과와 달라진다는 것은 곧 데이터를 의도에 따라 다르게 해석할 가능성이 있다는 것을 의미합니다. 


통계로만 세상을 판단하는 것은 무척 위험합니다. 여론조사의 예로 들어봅니다. 작가 김훈은 "사람들의 생각이 당파성에 매몰된 바람에, 자기가 가지고 있는 당파성을 정의·진리라고 말하고, 그렇게 의견과 사실을 구별하지 않은 말들이 매일 쏟아진다. 자신의 의견을 사실인 것처럼 말하고, 사실을 자신의 의견인 것처럼 말하면서, 말을 할 때 그것이 사실인지, 근거가 있는지 아니면 개인의 욕망인지 구별하지 않고 마구 쏟아내기 때문에 아무도 알아들을 수 없는 말이 됐다."라고 말합니다.


여론조사가 실제로 얼마나 엄밀하게 행해지는지는 잘 모르겠습니다. 다만 여론조사는 의견과 사실이 혼재되어 있는 것이며, 검증되지 않은 여론조사에는 사실 일반인이 알지 못하는 다양한 오류의 가능성이 포함되어 있습니다. 과학적이지 않는 유사 과학이 쉽사리 사회적 권력이 되는 것이 문제입니다. 의심을 거두고 모든 과정을 다 긍정적으로 보더라도 통계적으로 우세한 의견이 정의를 정의할 수는 없는 것입니다. 엄밀하지 못한 과학에 대한 맹신은 오히려 사람을 무지몽매한 상태로 이끕니다.



*Title Image: Roy Lichtenstein, Nude Reading (1994)


[The beauty of everyday things] by Luka Bloom (2020)


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari