데이터의 빛과 어둠

Sep 18. 2025

우리가 살아가는 현대 사회에서, 다양한 정보를 숫자로 나타내는 데이터는 중요한 역할을 수행한다.

이런 데이터는 여러 장점 중에서도 객관성과 비교 가능성이라는 강력한 강점을 지닌다. 덕분에 우린 감정이나 주관적인 판단에 휘둘리지 않고 냉철하게 현실을 파악할 수 있다. 예를 들어 "한국의 재생에너지 비중은 세계 평균보다 엄청 낮다"라는 막연한 주장보다, "2023년 기준 OECD 재생에너지 비중이 34%인데, 한국은 겨우 10%밖에 안 된다"라는 구체적인 수치가 훨씬 더 강력하게 메시지를 전달한다.

게다가 데이터는 정책 결정과 문제 해결에 있어서도 절대적으로 필요하다. "기후 위기로 주요 농작물 생산량이 줄어서 대책이 시급하다"라는 말 대신, "세계 올리브 생산량의 약 50%를 책임지는 스페인의 2022-2023년 올리브 생산량이 66만 톤으로, 이는 지난 15년간 평균 생산량의 절반도 안 되는 수치다" 같은 통계는 문제의 심각성을 확실히 보여주며, 바로 해결해야 할 필요성을 강력하게 느끼게 한다.

그런데 여기서 중요한 점은 데이터 그 자체보다는 데이터와 함께 제시되는 해석과 주장이다. 같은 숫자라도 어떤 관점에서 바라보느냐에 따라 전혀 다른 의미가 될 수 있기 때문이다. 예를 들어 "한국의 대학진학률이 70%다"라는 데이터는, 교육 기회의 확대라는 긍정적 관점에서 볼 수도 있고, 과도한 학력 인플레이션이라는 부정적 관점에서 해석할 수도 있다. 결국 데이터는 중립적인 도구일 뿐, 그것을 어떻게 해석하고 활용하느냐가 핵심이다.

더욱 우려스러운 점은 데이터가 자신의 기존 신념이나 이해관계를 합리화하는 도구로 악용되기도 한다는 것이다. "체리 피킹(cherry picking)"이라 불리는 이런 현상은, 자신에게 유리한 데이터만 골라내어 주장을 뒷받침하는 방식이다. 담배 회사들이 수십 년간 흡연의 해로움을 부정하기 위해 일부 연구 결과만을 선별적으로 인용했던 사례가 대표적이다. 또한 통계 수치를 교묘하게 조작하거나, 표본 크기나 조사 방법의 한계를 숨기는 방식으로도 데이터는 왜곡될 수 있다.

하지만 데이터는 맥락과 뉘앙스를 놓치기 쉽다는 단점을 가지고 있다. 예를 들어, 2023년 기준 경기도의 저상버스 보급률은 45.9%(3,380대)로 상당히 높은 수준을 기록했다. 그러나 저상버스가 정차하는 버스정류장 7,007곳 중 교통약자 편의시설 적합도가 100%인 곳은 단 15곳(0.2%)에 불과했다. 이는 저상버스 도입이라는 수치적 목표에만 집중한 나머지, 실제 이용하는 장애인들의 전체적인 이동 편의성은 간과했음을 보여준다.

게다가 측정 가능한 것만 중요하게 여기는 편향도 나타난다. "측정할 수 없으면 관리할 수 없다"고들 하지만, 반대로 "측정되지 않는 건 외면당한다"는 위험도 무시할 수 없다. MRI, 반도체, 레이저 같은 기술에 영향을 미친 양자역학이나 백신 개발에 중요한 미생물학처럼, 기초과학은 당장 눈에 보이는 데이터로 그 효용성을 증명하기 어렵다는 단점이 있다. 이런 이유 때문인지, 한국의 전체 R&D 연구비에서 기초과학에 투자되는 비중은 9~10% 정도로, 세계 평균인 15%에 비하면 한참 부족한 상황이다.

결국 데이터는 강력한 도구이지만 완벽하지 않다는 점을 인정해야 한다. 데이터의 객관성을 맹신하기보다는, 그 한계를 이해하고 다양한 관점에서 해석하려는 비판적 사고가 필요하다. 데이터가 말해주지 않는 이야기에도 귀 기울이고, 숫자 너머의 인간적 경험과 맥락을 놓치지 않을 때 비로소 데이터는 진정한 가치를 발휘할 수 있을 것이다.

keyword

데이터

읽기와 쓰기, 그리고 기억에 대한 성찰작가의 다음글