빅데이터의 덫: 상관관계가 인과관계를 가장할 때

AI 통찰의 위험과 산업경쟁 규제적 시사점

Nov 26. 2025

빅데이터 분석이 가져온 새로운 패러다임은 기존 통계학 및 과학적 방법론과 근본적인 차이를 보이며, 특히 상관관계(correlation) 해석에 있어 깊이 있는 논쟁을 촉발한다. 홈즈 교수는 전통적인 스몰 데이터(small data) 분석에서는 인간의 상호작용이 필수적이라고 말한다. 연구자는 가설을 세우고 모델을 공식화하며, 그 예측을 검증하는 과학적 방법론에 따르게 된다. 통계학자 '조지 박스'(George E. P. Box, 1919-2013)는 1978년 "모든 모델은 틀렸지만 일부는 유용하다."라고 말했는데, 이는 통계적 모델이 현실 세계의 완벽한 재현은 아니지만, 신뢰할 수 있는 예측의 근거를 제공한다는 점을 강조한 것이다.

그러나 빅데이터 패러다임으로의 전환은 이러한 인간 중심의 과학적 접근 방식을 기계 중심의 접근 방식으로 대체하는 경향이 나타난다. '토머스 쿤'(Thomas S. Kuhn, 1922-1996)이 1962년 저술에서 설명한 과학 혁명의 개념처럼, 고전 통계학에서 빅데이터 분석으로의 이행은 기존의 문제점을 해결하기 위한 새로운 기술과 방법론의 출현을 야기하는 패러다임 전환의 특징을 갖는다. 과거 뉴턴 역학이 아인슈타인의 상대성 이론으로 확장되었듯이, 빅데이터 분석은 고전 통계학을 완전히 무용지물로 만들지 않으나, 세상을 바라보고 데이터를 처리하는 방식에 있어 중대한 변화를 가져왔다고 홈즈는 지적한다.

전통적인 통계학에서 상관관계는 변수 간 관계의 강도를 나타내며 예측의 수단이 되지만, "상관관계가 인과관계를 의미하지는 않는다"는 확고한 원칙 하에 인간의 해석이 개입된다. 예컨대, 학생의 결석 수와 성적 사이의 명백한 상관관계가 발견될지라도, 단순히 결석이 성적 하락의 인과관계라는 결론은 성급할 수 있다. 두 변수는 학습 능력 저하, 건강 문제 등 잠재된 제3의 변수의 영향을 동시에 받고 있을 가능성이 있으며, 이러한 복잡한 관계를 파악하고 유용한 상관관계를 선별하는 것은 인간의 상호작용과 해석 없이는 불가능하다는 것이 홈즈 교수의 지적이다.

빅데이터 환경에서 상관관계 활용은 더욱 심각한 문제에 직면한다. 방대한 데이터셋에 알고리즘을 적용할 경우, 인간의 직관이나 가설과는 무관한 수많은 가짜 상관관계를 도출하게 되는데, 이는 변수의 수가 기하급수적으로 증가함에 따라 잘못된 상관관계의 수도 급증하기 때문이다. 이혼율과 마가린 소비량의 상관관계와 같이 전혀 인과성이 없는 두 현상 간의 통계적 관계가 빅데이터 마이닝 과정에서 우연히 발견될 수 있다. 홈즈 교수가 예시로 든 'Google 독감 트렌드'의 예측 실패는 바로 이러한 가짜 상관관계의 위험성을 보여주는 대표적인 사례로, 검색어 데이터의 패턴 변화를 독감 확산 예측에 사용했으나, 결국 실제 독감 발생률을 크게 과대평가하는 오류를 범하는 결과를 낳았다.

이후 AI와 머신러닝 기술은 비약적으로 발전했으며, 특히 빅데이터 기반의 예측 정확도는 놀라울 정도로 향상되었다. 하지만 상관관계 대 인과관계의 근본적인 딜레마는 여전히 유효하며, 오히려 더 첨예해졌다. 최근의 발전은 이 문제를 해결하기 위한 방향으로 나아가고 있다고 한다. 예컨대, 인과 추론 분야는 머신러닝 모델의 예측을 넘어 데이터 내의 인과적 관계를 식별하려는 시도를 하고 있다. '주디아 펄'(Judea Pearl, 1936-)과 같은 학자들은 '구조적 인과 모델'(Structural Causal Models, SCMs)을 통해 '왜?'라는 질문에 답할 수 있는 프레임워크를 제공하여, 단순히 패턴을 찾는 것을 넘어 데이터 생성의 메커니즘을 이해하려 한다. 그러나 이러한 첨단 기법들조차 인간의 사전 지식과 신중한 모델 설계 없이는 빅데이터의 잠재적인 편향이나 가짜 상관관계를 완전히 제거하지 못한다. 즉, 인간의 개입과 해석의 중요성은 빅데이터 시대에도 여전히 최고의 가치를 지닌다.

빅데이터 기반의 상관관계 분석이 산업경쟁 규제에 주는 시사점은 중대하며, 부정확한 결론 도출의 위험성이 규제의 공정성을 훼손할 수 있다는 점에 초점을 맞추어야 한다. 예컨대, 규제 당국이 빅데이터 분석을 통해 시장의 담합이나 불공정행위를 입증하려 할 때, 알고리즘이 제시하는 상관관계를 인과적 증거로 오인해서는 안 된다. 알고리즘이 특정 기업들의 가격 책정 패턴에서 강한 상관관계를 발견했다고 가정할 때, 이는 시장 상황에 대한 유사한 반응에서 비롯된 것일 수도 있고, 담합의 결과일 수도 있다. 만약 규제 당국이 단순히 상관관계를 인과관계로 간주하여 제재를 가한다면, 이는 과잉규제(false positive)의 오판이 될 수 있다. 따라서 빅데이터 기반의 규제 결정은 그 알고리즘의 투명성(transparency)과 설명 가능성(explainability)을 요구하며, 대상 사업자는 알고리즘이 발견한 상관관계가 왜곡되거나 가짜인지 반증할 수 있는 기회를 가짐과 동시에, 경쟁 당국은 인과적 메커니즘을 명확히 입증하여야 한다.

결론적으로, 빅데이터 분석은 규제 당국에 전례 없는 통찰력을 제공하지만, 홈즈 교수의 지적처럼 기계적 상관관계의 함정에서 벗어날 필요성이 요구된다. 산업경쟁 규제의 집행은 빅데이터 기반의 증거를 사용할 때, 인간의 전문가적 판단과 인과 추론의 과학적 방법론을 통해 상관관계를 넘어선 인과관계를 입증을 요구해야 하며, 이를 통해 공정성과 신뢰성을 확보해야 한다.

keyword

작가의 이전글미국 연방대법원은 어떻게 대중의 파도를 항해하는가[법률신문] 법철학에게 온라인 플랫폼 규제를 묻다작가의 다음글