왜 독립(Independent), 설명(Explanatory) 변수일까?
바로 앞 글에서는 우리는 ‘우리가 알고 싶은 결과(Y)’라는 명확한 목표 또는 목적지를 정했습니다. 목적지가 정해졌다면, 이제는 그곳에 도달할 수 있도록 도움을 주는 동력, 즉 원인(X)을 찾아야 할 차례입니다. 통계학에서는 이를 독립변수(Independent Variable)라고 부르며, 데이터 과학의 현장에서는 특징(Feature) 또는 설명변수(Explanatory Variable)라고 말하기도 합니다. 이름은 다양하지만, 그 본질은 하나입니다. 바로 Y의 변화를 설명하고 이끌어내는 ‘재료’라는 점입니다. 우리는 Y라는 목적지를 향할 때 꼭 X라는 재료와 동력을 활용해서만 그곳에 갈 수 있기 때문입니다.
세상 모든 결과(Y) 뒤에는 반드시 그것을 발생하게 한 원인(X)이 존재합니다. 매출액(Y)이 올랐다면 마케팅 예산(X)을 늘렸거나 경쟁사가 폐업(X)했기 때문일 것입니다. 건강검진 결과의 혈압 수치(Y)가 높다면, 평소의 식습관(X)이나 운동 부족(X), 혹은 유전적 요인(X)이 그 자리에 숨어 있습니다.
Y=f(X) + Error에서 X는 우리가 능동적으로 조절할 수 있는 것입니다. Y가 다른 요인에 의해 결정되는 ‘종속적’인 존재라면, X는 그 결과에 영향을 미치기 위해 우리가 독립적으로 움직이는 변수입니다. 따라서 세상을 Y=f(X)+e로 바라본다는 것은 막연하게 일어난 것처럼 보이는 현상에 대해서 "어떤 X가 Y에 어떻게 작용했을까?"라는 질문으로 바라보는 것이라고 할 수 있습니다.
하지만 여기서 우리는 가장 큰 난관에 봉착합니다. 현실 세계에는 Y에 영향을 미칠 것만 같은 X의 후보가 무한에 가깝게 널려 있다는 사실입니다.
예를 들어, '내일의 주가(Y)'를 예측한다고 가정해 봅시다. 고려해야 할 X는 무엇일까요? 금리, 기업 실적, 국제 유가는 당연히 중요한 X일 것입니다. 하지만 그날 서울의 날씨나 우리가 점심으로 무엇을 먹었는지도 X에 포함해야 할까요?
여기서 '쓰레기를 넣으면 쓰레기가 나온다, 금을 넣으면 금이 나온다(Garbage In, Garbage Out, Gold In Gold Out)'라는 데이터 분석의 가장 근본적인 원칙이 등장합니다. 아무리 정교한 함수(f)(또는 알고리즘)를 사용한다 하더라도, Y를 설명하기 위해 투입하는 원료인 X가 부실하거나 엉뚱하다면 Y에 대해 절대 신뢰할 수 있는 결과를 예측할 수 없습니다. 따라서 좋은 데이터 분석가란 단순히 데이터를 많이 수집하는 사람이 아니라, 수많은 소음(Noise) 속에서 진짜 신호(Signal)인 의미 있는(Significant) X를 골라낼 수 있는 경험과 역량을 가진 사람입니다.
그렇다면 수많은 데이터 중, Y=f(X) + e에 넣어야 할 진짜 X는 어떻게 찾아야 할까요? 다음의 세 가지 기준이 나침반이 되어줄 것입니다.
1) 논리적 인과관계 (Logical Causality): X와 Y 사이에 설명 가능한 논리가 있어야 합니다. 아이스크림 판매량과 상어 습격 건수는 통계적으로 같이 움직이지만(상관관계), 아이스크림이 상어를 부르는 것은 아닙니다. 둘 다 '여름'이라는 제3의 요인 때문입니다. 진짜 원인을 찾아야 합니다.
2) 측정 가능성 (Measurability): 아무리 중요한 요인이라도 숫자로 측정할 수 없으면 공식에 넣을 수 없습니다. '직원의 열정'이 매출(Y)에 중요하다는 것을 알지만, 이를 '야근 시간'이나 '제안 건수'와 같은 대리 지표(Proxy)로 치환하지 못하면 무용지물입니다.
3) 변별력 (Variance): 값이 변하지 않는 X는 Y의 변화를 설명할 수 없습니다. 모든 사람의 키가 똑같다면, 농구 실력(Y)의 차이를 키(X)로 설명할 수 없는 것과 같습니다. 데이터로서의 X는 적절한 변동성을 가져야 합니다.
결국, X를 정의하는 과정은 세상을 어떤 관점으로 해석할 것인가를 결정하는 과정과 같습니다. 우리가 어떤 X를 선택하느냐에 따라 Y에 대한 해석은 완전히 달라집니다. 훌륭한 요리사가 최상의 재료를 엄선하듯, 불확실한 세상을 명쾌하게 설명하고 싶다면 우리는 가장 강력하고 타당한 X를 찾아내는 집요함을 가져야 합니다. 이는 단순히 통계학적 지식과 분석 Skill을 가지고 있다고 해서 찾을 수는 없습니다. 소위 “현장지식”이라고 불리는 현장에서의 고민과 경험을 통해 축적된 지식이 밑바탕이 되어야 합니다.
이제 우리는 목적지(Y)를 정했고, 그곳으로 갈 원료(X)를 선별했습니다. 다음에는 이 원료가 어떻게 버무려져 결과를 만들어내는지에 대한 메커니즘을 설명해 주는 함수 f의 세계로 들어가 보겠습니다.