Endogeneity and Spuriousness
통계 분석이나 사회과학 연구를 하다 보면 '내생성'과 '허위성'이라는 용어를 자주 접하게 됩니다. 이 두 개념은 모두 변수들 간의 관계가 왜곡되었을 때 발생하는 문제를 다루고 있지만, 서로 다른 의미를 가지고 있습니다. 내생성과 허위성의 차이점과 각각이 발생하는 이유, 그리고 해결 방법에 대해 살펴보겠습니다.
내생성(Endogeneity)은 독립변수와 종속변수 간의 인과관계가 명확하지 않을 때 발생합니다. 원래는 독립변수가 종속변수에 영향을 미치는 게 일반적인 방향이죠. 하지만, 내생성이 있으면 독립변수도 종속변수에 의해 영향을 받거나, 독립변수와 종속변수에 동시에 영향을 주는 또 다른 변수가 존재할 수 있습니다. 이 때문에 분석 결과가 왜곡되거나, 실제와 다른 결론에 도달할 수 있습니다.
내생성은 크게 세 가지 주요 이유로 발생합니다.
동시성(Simultaneity): 독립변수와 종속변수가 서로에게 영향을 미치는 상황입니다. 예를 들어, R&D 투자와 매출 간의 관계를 생각해 봅시다. R&D 투자가 많아지면 매출이 증가하지만, 반대로 매출이 증가하면 더 많은 R&D 투자를 하게 됩니다. 이렇게 두 변수가 동시에 서로에게 영향을 주는 경우, 내생성이 발생했다고 볼 수 있습니다.
누락된 변수(Omitted Variable): 연구자가 고려하지 않은 중요한 변수가 분석 모델에 빠져 있을 때 발생합니다. 예를 들어, 교육이 소득에 미치는 영향을 분석한다고 가정할 때, 개인의 '지능(IQ)' 같은 변수가 빠져 있다면, 교육이 소득에 미치는 영향이 왜곡될 수 있습니다. 이때 지능이란 변수가 실제로는 독립변수(교육)와 종속변수(소득) 모두에 영향을 주기 때문이죠.
측정 오류(Measurement Error): 변수가 정확하게 측정되지 않았을 때도 내생성이 발생할 수 있습니다. 예를 들어, 소득을 조사할 때 사람들 중 일부가 자신의 소득을 과장하거나 잘못된 수치를 제공했다면, 이로 인해 분석 결과가 왜곡될 수 있습니다. 실제 변수와 측정된 변수 간의 차이가 클수록 분석의 정확성이 떨어지게 됩니다.
내생성을 해결하는 방법으로는 '도구변수법(Instrumental Variable)', '2단계 최소제곱법(2SLS)', 패널 데이터 분석 같은 방법을 사용할 수 있습니다. 이러한 방법들은 내생성의 원인을 찾아내고, 이를 분석에 반영해 독립변수와 종속변수 간의 인과관계를 보다 명확하게 만들어 줍니다.
허위성(Spuriousness)은 두 변수 사이에 상관관계가 나타나지만, 실제로는 인과관계가 존재하지 않는 상황을 설명하는 개념입니다. 즉, 두 변수가 마치 인과관계가 있는 것처럼 보이지만, 실제로는 제3의 숨겨진 변수(혼란 변수 또는 통제되지 않은 변수)에 의해 발생한 상관관계인 경우입니다. 허위성을 일으키는 가장 흔한 원인은 제3의 변수가 독립변수와 종속변수 모두에 영향을 미치는 상황입니다.
예를 들어, 아이스크림 판매량과 익사 사고 수 사이에 높은 상관관계가 있다고 가정해 봅시다. 단순히 상관관계를 보고 "아이스크림을 많이 먹으면 익사 사고가 증가한다"고 결론을 내릴 수 있을까요? 당연히 그렇지 않습니다. 이 두 변수는 모두 제3의 변수인 '기온(날씨)'에 의해 영향을 받기 때문에 상관관계가 높게 나타나는 것입니다. 날씨가 더워지면 사람들이 아이스크림을 많이 사고, 동시에 물놀이를 많이 하면서 익사 사고도 증가하게 됩니다. 따라서 두 변수 간의 관계는 제3의 변수로 설명되는 허위 관계일 뿐입니다.
이러한 허위성은 연구자가 인과관계를 잘못 해석하게 만들고, 결과적으로 잘못된 정책이나 결정을 내리게 할 수 있습니다. 허위성을 방지하려면 제3의 변수를 찾고, 이를 통제해 독립변수와 종속변수 간의 '순수한' 관계를 분석하는 것이 중요합니다. 이러한 방법으로는 회귀 분석에서 통제 변수를 추가하거나, 다변량 분석을 사용하는 것이 일반적입니다.
쉽게 말해, 내생성과 허위성 모두 변수들 간의 관계를 왜곡시키는 문제입니다. 하지만 내생성은 독립변수와 종속변수 간의 인과관계가 혼재되어 있어서 관계가 명확하지 않을 때 발생하고, 허위성은 제3의 변수에 의해 두 변수 간의 관계가 마치 인과관계가 있는 것처럼 보이게 하는 현상입니다.
내생성: 두 변수 사이의 관계가 명확하지 않고, 독립변수와 종속변수가 서로에게 영향을 주거나 누락된 변수의 영향이 존재하는 상황
허위성: 두 변수 사이의 관계가 제3의 변수에 의해 설명되며, 실제로는 인과관계가 없는 상황
내생성과 허위성 문제를 해결하지 않고 데이터를 분석하면, 정책 결정을 내리거나 경영 전략을 수립할 때 큰 오류를 범할 수 있습니다. 예를 들어, 허위성을 제대로 통제하지 않고 아이스크림 판매가 익사 사고를 증가시킨다고 결론 내린다면, 정부는 아이스크림 판매를 줄이기 위해 불필요한 규제를 도입할 수 있겠죠. 반면, 내생성을 고려하지 않고 R&D 투자가 무조건 매출을 증가시킨다고 해석한다면, 기업은 부적절한 투자 결정을 내릴 수 있습니다.
따라서 데이터 분석을 할 때는 항상 이 두 개념을 염두에 두고, 변수 간의 관계가 진정한 인과관계인지, 혹시 왜곡된 관계가 아닌지 면밀하게 검토하는 것이 중요합니다.