4화. 데이터는 거짓말을 하지 않는다?

“데이터는 거짓말을 하지 않는다.”

by DataSopher

이 말은 얼핏 보면 합리적으로 들린다.

감정이 아니라 숫자, 편견이 아니라 근거, 주장보다 팩트.

특히 불확실성이 커질수록 사람들은 숫자에 기대고 싶어 한다. 숫자는 차갑고 차갑다는 이유만으로 공정해 보이기 때문이다.



나는 이 문장이 반쯤만 맞는 말이라고 생각한다.

정확히 말하면 데이터 자체는 말하지 않는다. 말하는 것은 언제나 인간이다.

데이터는 거짓말을 하지 않을지 몰라도 데이터를 다루는 사람은 아주 쉽게 거짓에 도달할 수 있다.


문제는 숫자를 둘러싼 해석의 구조다.




숫자는 침묵한다


종종 숫자가 스스로 의미를 가진다고 착각한다.

매출이 늘었다, 실업률이 낮아졌다, 조회수가 폭증했다, 주가가 올랐다.

숫자를 보면 즉시 결론을 만들고 싶어진다. 좋은 신호인지 나쁜 신호인지 지금 들어가야 하는지 피해야 하는지. 우리는 늘 숫자에서 문장을 뽑아내려 한다.


숫자는 원래 문장이 아니다.

맥락이 붙기 전까지는 해석되지 않은 흔적에 가깝다.



매출이 늘었다는 말은 좋아 보인다.

할인으로 만든 성장일 수도 있고 일회성 매출 반영일 수도 있고 수익성 악화와 함께 온 증가일 수도 있다.

실업률이 낮아졌다는 말도 마찬가지다.

좋은 일자리 증가 때문일 수도 있지만 구직 포기자가 늘어서 통계상 낮아진 것일 수도 있다.


숫자는 하나인데 현실은 여럿이다.


데이터는 진실의 완성본이 아니라 질문을 시작하게 만드는 단서여야 한다.

그런데 많은 사람들은 단서를 결론처럼 소비한다.




선택된 데이터는 이미 방향을 가진다


데이터가 위험해지는 첫 번째 순간은 “무엇을 보여줄 것인가”가 선택될 때다.

세상에는 무한한 숫자가 있다.

일부만 골라 보여주는 순간 이미 이야기는 시작된다.


기업은 자신에게 유리한 지표를 강조한다.

정치권은 자신에게 필요한 통계를 내세운다.

콘텐츠 제작자는 클릭이 잘 나오는 수치를 전면에 둔다.

개인도 마찬가지다. 자신이 믿고 싶은 결론을 강화하는 숫자만 찾는다.



중요한 것은 데이터의 진위가 아니다.

선택의 편향이다.


틀린 숫자를 쓰지 않아도 충분히 사람을 오해하게 만들 수 있다.

사실만 나열했는데도 전체 진실과 멀어질 수 있다.

왜냐하면 거짓은 허구로만 만들어지지 않기 때문이다.

때로 거짓은 빠진 것들로 만들어진다.


이 점에서 데이터는 매우 정직하면서도 매우 위험하다.

보여준 것만큼 숨길 수 있기 때문이다.




평균은 사람을 속이기 쉬운 숫자다


가장 자주 속는 방식 중 하나는 평균이다.

평균은 강력하다. 복잡한 현실을 한 줄로 요약해준다.

언론도 기업도 보고서도 평균을 사랑한다.


평균은 종종 현실을 부드럽게 덮어버린다.



평균 연봉이 올랐다고 해서 모두의 삶이 나아진 것은 아니다.

평균 집값이 안정됐다고 해서 체감이 안정된 것도 아니다.

평균 성장률이 높다고 해서 모든 사업부가 건강한 것도 아니다.


평균은 중앙을 보여주지만

삶의 고통은 종종 평균 바깥에서 발생한다.


상위 몇 퍼센트가 전체 수치를 끌어올릴 수도 있고 일부 극단값이 전체 인상을 바꿀 수도 있다.

평균을 보는 순간 마음이 편해진다.

복잡한 분포를 볼 필요가 없기 때문이다.


데이터가 속이는 것이 아니라

복잡성을 견디기 싫어서 평균에 숨는 것에 가깝다.




상관관계는 매력적이지만 대개 게으른 결론이다


숫자 둘이 같이 움직이면 사람은 금세 이유를 붙인다.

A가 오르면 B가 오른다. 그러면 A가 B를 만든다고 믿고 싶어진다.

이런 유혹은 투자, 경영, 교육, 건강, 심지어 인간관계에서도 반복된다.


함께 움직였다는 사실은

원인을 설명하지 않는다.



그 둘을 동시에 움직인 제3의 요인이 있을 수도 있고

아주 짧은 구간에서만 나타난 우연일 수도 있으며

시대와 환경이 바뀌면 곧바로 사라지는 관계일 수도 있다.


사람은 원인을 원한다.

원인을 알아야 통제할 수 있다고 믿기 때문이다.


상관관계는 늘 과대평가된다.

복잡한 세상에서 가장 간단한 설명처럼 보이기 때문이다.


문제는 간단한 설명이 주는 안도감이 가장 비싼 실수를 만든다는 점이다.




데이터 중심 사회일수록 인간의 의도는 더 중요해진다


많은 사람들은 데이터가 많아질수록 세상이 더 객관적이 될 거라 믿었다.

어느 정도는 맞다. 감으로만 판단하던 시대보다 측정하고 비교하는 시대가 진보인 것도 사실이다.


한 가지를 놓치면 안 된다.

측정할 수 있는 것만 중요해지는 순간 인간은 현실의 중요한 부분을 놓친다.



신뢰는 숫자로 완벽히 측정되지 않는다.

조직의 분위기, 사람의 동기, 피로의 누적, 침묵의 압력, 존엄의 손상 같은 것들은 정량화가 어렵다.

측정 가능한 지표만 의사결정의 중심에 놓이면 측정되지 않는 가치들은 점점 밀려난다.


결과는 자주 비슷하다.

숫자는 좋아졌는데 현장은 망가진다.

성과표는 화려한데 사람은 지친다.

데이터 리포트는 완벽한데 조직은 무너진다.


즉, 데이터가 많아질수록 더 객관적이 되는 것이 아니라

무엇을 측정하고 무엇을 버릴 것인지 정하는 인간의 철학이 더 중요해진다.




데이터는 도구일 뿐 양심이 아니다


나는 데이터를 믿는다.

하지만 데이터주의는 믿지 않는다.


데이터는 분명히 유용하다.

착각을 줄여주고 감정의 과잉을 식혀주고 반복되는 패턴을 보게 해준다.

문제는 데이터가 인간의 책임을 대신할 수 있다고 믿는 순간 생긴다.



숫자를 근거로 삼는 것과

숫자 뒤에 숨는 것은 전혀 다르다.


“데이터상 문제없습니다.”

“지표는 개선되고 있습니다.”

“수치상 이상은 없습니다.”


이 문장들은 많이 쓰이지만 때로는 가장 무책임한 문장일 수 있다.

왜냐하면 숫자 뒤에 숨어 해석과 판단의 책임을 회피하는 방식이 되기 쉽기 때문이다.


데이터는 면죄부가 아니다.

더 무거운 질문의 출발점이어야 한다.




더 중요한 것은 숫자를 보는 눈이다


핵심은 이것이다.

데이터가 거짓말을 하느냐 마느냐가 아니다.

누가, 어떤 질문으로, 어떤 맥락에서, 무엇을 빼고, 무엇을 강조하며 데이터를 읽느냐가 더 중요하다.


좋은 판단은 숫자를 많이 아는 데서 나오지 않는다.

숫자를 의심할 줄 아는 데서 나온다.



이 수치는 어떻게 만들어졌는가.

무엇이 빠져 있는가.

기간은 왜 여기까지인가.

비교 대상은 적절한가.

예외는 어디에 있는가.

이 숫자를 통해 누가 이익을 얻는가.


이 질문들이 붙는 순간 데이터는 비로소 도구가 된다.

그 전까지는 그저 보기 좋은 권위일 뿐이다.




숫자의 시대를 살고 있다.

앞으로 그 경향은 더 강해질 것이다.

AI는 더 많은 지표를 요약해줄 것이고 더 많은 대시보드가 판단을 대신하려 할 것이다.


잊지 말아야 한다.


데이터는 진실의 얼굴이 아니다.

진실을 향해 가기 위한 흔적일 뿐이다.



숫자는 차갑다.

해석은 언제나 뜨겁다.

뜨거움을 통제하는 사람이 통찰을 갖는다.


다음 화에서는 더 깊이 들어가 보려 한다.

숫자를 믿는 사람보다 구조를 보는 사람이 왜 결국 이기는가.




이전 03화3화. 전문가의 시대는 끝났는가