brunch

헷갈리는 Co-시리즈

Covariance, correlation, 그리고 coefficient

by Raphael


Covariance, correlation, 그리고 coefficient는 통계와 데이터 분석에서 데이터의 관계를 이해할 때 중요한 개념이지만, 그 의미와 사용 방식이 미묘하게 다릅니다. 관련해서 공부하다가 한번 정리해두면 좋겠다 싶은 생각이 들어서 아래와 같이 간추려보았습니다.


Covariance (공분산)은 두 변수 간의 관계를 나타내는 값으로, 한 변수의 변화가 다른 변수에 어떤 영향을 미치는지 측정합니다.

즉, 공분산 값이 양이면 두 변수가 함께 증가하거나 감소하는 경향이 있고, 음이면 한 변수가 증가할 때 다른 변수는 감소하는 경향이 있다고 해석할 수 있습니다. 따라서, 0에 가까운 값은 두 변수 간에 명확한 관계가 없다고 해석합니다. 다만, 공분산 값은 원 데이터의 단위에 의존하므로, 해석하기 어렵고 비교하기 힘들 수 있습니다.


Correlation (상관계수)는 공분산을 정규화하여 두 변수 간의 선형 관계를 측정한 값으로, 공분산의 방향성과 강도를 알 수 있게 합니다.

상관계수의 값이 1인 경우 완벽한 양의 선형 관계, -1인 경우 완벽한 음의 선형 관계를 뜻하며, 0의 값을 갖는 경우 선형 관계가 없음을 의미합니다. 상관계수는 단위 의존적인 공분산과는 달리, 무단위(dimensionless) 값이므로 서로 다른 단위의 변수들 간에도 비교할 수 있습니다.


Coefficient (계수)는 일반적으로 어떤 수학적 관계에서 변수를 설명하기 위한 상수입니다. "계수"라는 용어는 맥락에 따라 다양한 의미를 가질 수 있으며, 대표적으로는 회귀 분석, 상관 분석, 다항식 등 다양한 맥락에서 사용됩니다.


위의 설명을 보아도 여전히 직관적으로 와닿지 않고 헷갈리는 부분이 많아 아래와 같이 예시로 정리해 보았습니다.


한 그룹의 사람들의 키(cm)와 몸무게(kg)를 측정했다고 가정해 봅시다.

공분산이 양의 값 (125>00이므로 키가 증가하면 몸무게도 증가하는 경향이 있습니다. 하지만, 단위 (키는 cm, 몸무게는 kg)가 포함되어 있어 직관적으로 비교하기가 어렵습니다.


상관계수가 1.0은 키와 몸무게가 완벽한 양의 선형 관계를 갖는다는 뜻입니다. 상관계수는 단위가 없으므로 더 직관적으로 비교가 가능합니다.



이 식을 사용해 주어진 키에 대한 예상 몸무게를 예측할 수 있습니다. 즉, 키가 1cm 증가할 때 몸무게가 2kg 증가함을 나타냅니다.

keyword
매거진의 이전글행동 과학에서의 두 가지 접근법