"숨겨진 변수와의 싸움"
우리가 마주하는 핵심 질문은 이것입니다.
어떤 '원인'이 실제로 '결과'를 만들어냈는가?
하지만 현실에선 항상 제3의 변수, 즉 숨겨진 변수가 이 둘의 관계를 흐려놓습니다.
조작변수법(IV, Instrumental Variable)은 이런 숨겨진 변수의 방해를 뚫고 인과관계를 밝히기 위한 기법입니다. 핵심 아이디어는 간단합니다. '원인'에는 영향을 주지만, ‘결과’에는 직접 영향을 주지 않는 제3의 변수(조작 변수)를 찾는 것입니다. 이렇게 조작 변수를 활용하면, 실험군과 대조군이 마치 무작위로 나뉜 것처럼 비교 가능한 상태를 만들 수 있습니다.
문제는, 독립 변수(설명 변수)가 종속 변수에 영향을 주는 것처럼 보이더라도, 실제로는 종속 변수 또한 독립 변수에 영향을 줄 수 있고, 또는 둘 모두에 영향을 미치는 숨겨진 요인(혼란 변수)이 존재할 수 있다는 점입니다. 이런 상황을 우리는 내생성(endogeneity) 문제라고 부릅니다.
예를 들어, TV 광고와 매장 방문 데이터의 관계를 분석한다고 가정해 봅시다. 광고가 방문에 영향을 미친다고 단정 짓기 전에, 다음과 같은 숨겨진 요인들이 영향을 줄 수 있습니다
✔️ 주말에는 원래 방문이 많음 → 이 시간대에 광고를 집중적으로 집행했다면, 광고 효과와 주말 효과를 구분하기 어려움
✔️ 할인 행사와 광고가 동시에 진행됨 → 방문 증가가 광고 때문인지, 할인 때문인지 분리해 내기 어려움
이처럼 광고와 매장 방문 간의 인과 관계를 정확히 추정하기 어려운 상황이 내생성 문제입니다.
조작 변수법이 효과적으로 작동하기 위해서는 두 가지 핵심 전제조건이 충족되어야 합니다
1️⃣ 관련성(Relevance) : 조작 변수는 반드시 독립 변수(원인)에 영향을 미쳐야 합니다.
2️⃣ 배제 조건(Exclusion Restriction) : 조작 변수는 종속 변수(결과)에는 직접적인 영향을 주지 않아야 합니다.
앞서 언급한 TV 광고와 매장 방문 예시로 다시 설명해 보겠습니다. 광고의 효과를 측정하려 할 때, 주말이나 할인 행사와 같은 숨겨진 요인이 광고 집행과 방문 수 모두에 영향을 주기 때문에 내생성 문제가 발생합니다. 이 상황에서, '광고 송출 시간대'를 조작 변수로 활용할 수 있습니다.
먼저, 광고 송출 시간대는 실제 광고 집행 여부에 영향을 미치므로 1️⃣ 관련성 조건을 충족합니다. 하지만, 광고 송출 시간대 그 자체는 매장 방문에 직접적인 영향을 주지는 않기 때문에 2️⃣ 배제 조건도 만족합니다.
따라서, 광고 시간대를 조작 변수로 사용하면 숨겨진 변수의 영향을 통제하면서도, 광고가 매장 방문에 미치는 순수한 인과 효과를 추정할 수 있게 되는 것입니다.
유저가 유료 채널을 통해 유입되면 전환율이 더 높은가?
이 질문은 마케팅 실무에서 자주 접하지만, 동시에 많은 분석의 함정을 내포하고 있습니다.
1️⃣ 단순 비교의 함정 : 유료 채널의 전환율이 높게 나타난다고 해서 “광고 효과가 있다”라고 볼 수 있을까?
Paid 채널은 보통 전환 가능성이 높은 유저를 정교하게 타기팅합니다. 예를 들어, 리타게팅, 유사 타깃, 관심 기반 노출 등이 대표적이죠. 따라서 유료 채널 유입자의 전환율이 높은 이유는, 광고의 효과라기보다는 이미 전환 가능성이 높은 유저였기 때문일 수 있습니다. 이런 현상이 바로 내생성(endogeneity) 문제입니다.
2️⃣ 이럴 때 조작 변수법(IV)을 적용할 수 있다면?
이제 단순 비교를 넘어서, “유료 채널 유입 그 자체가 전환율을 높이는가?”를 알고 싶다면 조작 변수법(IV)을 사용할 수 있습니다. 이를 위해 필요한 건 다음과 같은 조건을 만족하는 조작 변수입니다.
✅ Paid 채널 유입에는 영향을 주지만 ❌ 전환율에는 직접적인 영향을 주지 않는 변수
이런 조작 변수를 설정할 수 있다면, 단순한 타기팅 효과를 넘어서 Paid 유입 자체의 인과 효과를 추정할 수 있게 됩니다.
3️⃣ 조작 변수로서의 '광고 시간대 노출(ad_slot_random)'
이번 예시에서는 광고 시간대 노출(ad_slot_random)이라는 변수를 조작 변수로 활용해 보겠습니다. ad_slot_random은 유저가 어느 시간대에 광고를 노출받았는지를 나타내는 정보입니다. 그리고 이 값은, 광고 캠페인 운영 구조에 따라 무작위성을 가진 변수로 가정할 수 있습니다.
이제, 조작 변수로서 필요한 두 가지 조건을 살펴보겠습니다.
[조건 1. 관련성] 광고 시간대 ➞ Paid 유입 여부에 영향
예 : 특정 시간대(오후 6시~9시)에는 광고 예산이 집중되기 때문에, Paid 유입이 많아집니다.
따라서 ad_slot_random은 Paid channel (설명 변수)에 영향을 주는 변수가 될 수 있습니다.
[조건 2. 배제 조건] 광고 시간대 ➞ 전환율에는 직접 영향 없음
광고 시간대 자체는 사용자의 구매 욕구나 구매 니즈와는 직접적인 관련이 없는 외부 요인으로 간주할 수 있습니다.
광고를 노출만 받고 클릭하지 않는 유저도 존재하며, 단순히 노출 시간대가 다르다고 해서 전환율 자체가 높아지지는 않습니다.
따라서 이 두 가지 조건이 성립한다고 가정하면, 'ad_slot_random'은 좋은 조작 변수로 활용할 수 있습니다.
이제 조작 변수법을 간단한 예제를 통해 실습해 보겠습니다.
먼저, 조작 변수법에 필요한 변수들을 정리해 보겠습니다.
✔️ 종속 변수 : conversion (전환 여부, 1 = 구매, 0 = 미전환)
✔️ 설명 변수 : paid_channel (유료 채널 유입 여부, 1 = paid, 0 = organic 등)
✔️ 조작 변수 : ad_slot_random (유저가 광고를 노출받은 시간대 정보 — 외생성이 있다고 가정한 무작위 변수)
1️⃣ 1단계 회귀 : 유료 유입 예측
1단계 회귀에서는 조작 변수(ad_slot_random)가 설명 변수(paid_channel)에 얼마나 영향을 미치는지를 분석합니다. 이 과정을 통해 유료 유입의 예측값(paid_hat)을 생성하고, 이 값을 2단계에서 전환율(conversion)에 대한 인과 분석에 활용합니다.
회귀 결과를 보면, F-통계량은 16.63으로 나타납니다. 조작 변수법에서 일반적으로 F-통계량이 10보다 크면 약한 조작 변수(weak instrument)가 아니라고 판단합니다. 즉, ad_slot_random은 조작 변수로 사용할 수 있다고 볼 수 있습니다.
ad_slot_random의 계수(coef)는 0.177 → 광고 시간대 변화가 유료 채널 유입 확률에 양(+)의 영향을 미친다고 해석
p-value는 < 0.001 → 유의미한 예측력을 갖춘 변수로 해석 가능
2️⃣ 2단계 회귀 : 전환율에 미치는 인과 효과 추정
1단계에서 얻은 예측값 paid_hat을 사용해 2단계 회귀 분석을 수행합니다. 이는 유료 채널 유입이 전환율에 미치는 순수한 인과 효과를 추정하는 단계입니다.
회귀 결과를 보면, paid_hat 변수의 계수(coef)는 0.4271로 나타났습니다. 이는 유료 채널 유입이 전환율에 양(+)의 인과 효과를 가질 가능성을 시사합니다. 다만, p-value는 0.077로, 일반적인 기준인 0.05를 넘기 때문에 통계적으로 명확한 유의성은 확보하지 못한 결과로 해석할 수 있습니다. 다만, 0.1 수준에서는 약한 유의성을 가진다고 볼 수 있으며, 특히 신뢰구간이 –0.046부터 0.900까지 넓게 분포하고 있다는 점을 고려할 때, 효과가 존재할 가능성은 있으나 추정치에 대한 불확실성 역시 상당함을 함께 인지해야 합니다.
나아가, 조작 변수법은 특정 변수의 인과 효과를 분리하는 데 유용하지만, 실제 마케팅 환경은 훨씬 더 복합적입니다. UX, 가격, 프로모션, 브랜드 친숙도 등 수많은 요인이 전환율에 영향을 미치는 다층적 구조를 이루고 있기 때문입니다. 따라서 paid_channel이 전환율에 미치는 효과는 전체 퍼즐의 일부일 뿐, 단일 요인의 인과 효과만으로 전체 결과를 설명하는 데에는 한계가 있다는 점을 반드시 고려해야 합니다.
지금까지 조작 변수법(IV, Instrumental Variable)의 개념과 실무 예시, 그리고 간단한 분석 실습을 통해 조작 변수법이 인과 추론에 어떻게 적용되고, 실무에 활용될 수 있는지를 살펴보았습니다.
다만, 한 가지 덧붙이고 싶은 점은, 마케팅 실무에서는 조작 변수법이 상대적으로 덜 활용되는 경향이 있다는 사실입니다. 그 이유는, 조작 변수법이 적절한 조작 변수를 찾는 데 높은 수준의 도메인 지식과 데이터 해석력이 필요하기 때문입니다. 현실적으로, 무작위성과 외생성이 모두 확보된 조작 변수를 설정하는 일은 쉽지 않은 도전입니다.
반면, 이전 글에서 다룬 이중차분법(DiD), 그리고 다음 글에서 살펴볼 회귀불연속설계(RDD)와 매칭법(Matching Method)은 비교적 데이터 구조와 특정 조건만 갖춰지면 접근이 가능하기 때문에, 실무에서는 훨씬 적용 가능성과 활용 빈도가 높은 인과 추론 방법으로 자리 잡고 있습니다.
다음 글에서는 회귀불연속설계(RDD)와 매칭법(Matching Method)이 어떻게 작동하고, 실제 마케팅 분석 실무에서는 어떻게 활용할 수 있을지를 함께 살펴보겠습니다.