"기준점 하나로 나눈 실험"
회귀 불연속 설계란?
회귀 불연속 설계 (Regression Discontinuity Design, RDD)는 명확한 기준점(threshold)을 중심으로 ‘처리(treatment)’ 여부가 갈리는 상황에서 인과 효과를 추정하는 준실험적 방법입니다. RDD는 실제 무작위 실험(Randomized Controlled Trial)을 설계할 수 없는 경우에 매우 유용한 방법입니다. 예를 들어, 특정 정책이나 혜택이 점수, 나이, 소득 등 일정한 기준을 기준으로 제공될 때, 그 효과를 추정할 수 있는 수단이 됩니다.
고객 점수가 70점 이상이면 VIP 혜택이 주어지는 경우를 생각해 봅시다. 이 기준점을 중심으로 70점 이상인 고객은 혜택을 받고, 70점 미만인 고객은 받지 못합니다. 이때, 70점을 전후로 한 고객들은 기본적인 특성이 매우 유사하지만, 오직 혜택을 받았는지 여부만 다릅니다. 이러한 국소적인 유사성을 활용하여 인과 추론을 수행하는 것이 RDD의 핵심 원리입니다.
RDD가 타당하게 적용되기 위해서는 몇 가지 핵심 요건과 가정을 충족해야 합니다.
첫째, 절단점(임계값)이 명확하게 존재해야 합니다. 즉, 어떤 기준을 기준으로 처리(treatment) 여부가 정확히 갈려야 합니다. 둘째, 이 기준을 넘었는지 여부만으로 혜택이 자동으로 결정되는 엄격한 규칙이 필요합니다. 셋째, 절단점 주변에서는 유저들의 속성이 유사하다는 '국소적 무작위성'이 전제되어야 합니다.
또한 중요한 가정으로는, 유저가 점수를 조작해 임계값을 넘으려는 '치팅'이 없어야 하며, 결과 변수 이외의 변수들은 절단점 전후로 연속적이어야 한다는 '연속성 가정'도 필요합니다.
이러한 요건들이 충족될 경우, 우리는 절단점을 중심으로 결과 변수에서 발생하는 불연속(discontinuity)을 인과 효과로 해석할 수 있습니다.
예를 들어, 아래와 같은 질문을 던질 수 있습니다.
고객 점수가 70점을 넘으면 VIP 혜택이 주어질 때, 이 혜택이 실제로 다음 달 전환율에 인과적 영향을 주었는가?
이를 분석하기 위해 다음과 같이 분석을 설계할 수 있습니다.
✔️ 종속 변수 : 다음 달 구매 전환 여부 (conversion)
✔️ 처리 변수 : VIP 혜택 여부 (score ≥ 70이면 1, 아니면 0)
✔️ 기준 변수 : 고객 점수 (score)
분석 모델은 다음과 같습니다.
treatment : 기준점(70점) 이상 여부 (1: VIP, 0: 일반)
score_centered : 기준점(70)을 중심으로 점수를 중심화 (score - 70)
여기서 treatment는 기준점 이상 여부, score_centered는 점수에서 70을 뺀 중심화된 변수입니다.
분석 결과에 따르면, Intercept는 0.2003으로 기준점 직전 일반 고객의 전환율은 20.03%였습니다. treatment 계수는 0.1589로, 기준점 근처에서 VIP 혜택을 받은 고객은 전환율이 약 15.89%p 더 높을 확률이 있는 것으로 해석됩니다. score_centered 변수의 계수는 0.0090으로, 점수가 1점 오를수록 전환율은 평균적으로 약 0.9%p 증가하는 경향이 있습니다. 모든 변수의 p-value는 0.001 이하로 통계적으로 유의미한 것으로 해석할 수 있습니다.
RDD 시각화 그래프에서도 고객 점수 70점을 기준으로 전환율에 뚜렷한 단절이 발생하는 것을 확인할 수 있어, VIP 혜택이 전환율에 인과적인 영향을 주었음을 시사합니다.
그 밖에도 RDD는 다양한 실무 환경에서도 충분히 적용 가능한 분석 도구입니다. 예를 들어, "블랙프라이데이 프로모션이 거래액에 어떤 영향을 주었는가?"를 분석하는 사례가 대표적입니다. 프로모션 시작일을 기준 중심으로 거래액 추이를 분석하여, 정책(프로모션) 도입의 효과를 추정할 수 있습니다. 분석 결과 기준일(프로모션 시작일) 이후 거래액이 단절적으로 증가한 것으로 나타났다면, 이는 해당 프로모션의 인과적 효과로 해석할 수 있습니다.
또 다른 예로는, "고객이 리뷰를 5건 이상 작성했을 때 혜택이 제공되며, 이 기준이 실제 앱 활동 유지율에 영향을 미쳤는가?"와 같은 구조에도 적용 가능합니다. 이처럼 기준점 하나로 정책이나 혜택의 효과를 측정할 수 있는 구조라면, RDD는 매우 강력한 인과 추론 도구가 됩니다.
RDD는 실험을 설계할 수 없는 현실적 제약 속에서도, 하나의 기준점만으로도 인과 추론을 가능하게 해주는 강력한 방법입니다. 특히 정책 평가나 제도 변경, 혜택 제공 등 실제 비즈니스 환경에서 자주 마주하는 구조에 매우 적합합니다.
하지만 절단점 주변 조건에 대한 철저한 검토와, 치팅이나 외생 변수 통제 등의 전제 조건이 지켜졌을 때에만 타당한 해석이 가능합니다. 분석가는 항상 해당 요건이 충족되는지 면밀히 확인해야 하며, 시각화와 회귀 결과를 함께 살펴보면서 인과 효과의 유무를 해석해야 합니다.
다음 편에서는 매칭법(Matching Method)을 활용한 인과 추론 기법을 소개드리겠습니다.