brunch

분석 기법 뽀개기 : DiD (이중차분법)

Causal | Matching | DiD

by 해라

이 매거진은 분석 기법 뽀개기라는 제목으로 수회 차 연재될 예정이며, 분석 기법에 대한 설명과 업무에 활용할 방법에 대해서 설명합니다.


이 글에서는 Difference-in-Differences(DiD, 이중차분법)에 대해서 소개하고, 업무에 활용하는 스킬을 다룹니다.


이 글과 함께 읽으면 좋은 글을 아래에 링크합니다.

A/B 테스트 : P-value와 신뢰구간 바로가기 >

A/B 테스트 : P-value는 어떻게 결정될까? 바로가기 >




1. DiD(Difference-in-Differences)

특정 처리나 변화가 미친 영향을 분석하는 기법입니다

실험군과 대조군 두 개의 그룹을 비교하여 시간에 따른 변화 차이를 측정하는 방법입니다.

A/B 테스트와 동일한 방식이지만, 실제로 A/B 테스트가 진행되지 않았을 때에도 매칭 기법과 함께 실험처럼 효과를 측정할 수 있습니다.

DiD의 기본 아이디어는 두 시점(처리 전, 처리 후)에서 두 그룹(실험군, 대조군)의 변화 차이를 차이의 차이(Difference of Difference)로 계산하여 시간적 변화와 그룹 간 차이를 동시에 고려하는 것입니다.

이를 통해 외부 요인을 보정할 수 있어 실험처럼 효과 측정이 가능합니다.


2. DiD(Difference-in-Differences)의 일반적인 분석 과정

DiD는 일반적으로 매칭(Matching) → 밸런스 체크(Balance Check) → DiD(Difference-in-Differences) → 이벤트 스터디(Event Study) 순으로 진행됩니다.


3. 매칭(Matching)

DiD는 기본적으로 평행 추세 가정(Parallel Trends Assumption)을 합니다.

평행 추세 가정이란 특정 처리나 변화 이전에 실험군과 대조군이 기본적으로 유사한 추세를 보였다는 가정입니다.

그리고 실험군과 가장 비슷한 대조군을 골라내는 과정을 매칭(Matching)이라고 합니다.

매칭에는 다양한 기법이 있으며, Propensity Score Matching (PSM) 기법을 가장 많이 사용합니다.

참고로 PSM 기법은 실험군에 속할 확률을 로지스틱 회귀로 추정하고 해당 확률과 비슷한 대조군을 매칭시키는 방법입니다.


4. 밸런스 체크(Balance Check)

밸런스 체크는 매칭이 잘 되었는지 확인하는 과정입니다.

매칭이 되어야 평생 추세 가정이 가능하고, DiD 결과의 왜곡이 없으므로 반드시 필요한 과정입니다.

매칭 후, 두 그룹의 공변량 분포가 유사해졌는지 확인하는 방식으로 진행되며, 가장 많이 사용되는 밸런스 체크 지표는 Standardized Mean Difference (SMD) 입니다.

매칭 전과 매칭 후의 공변량 차이를 비교하며, 일반적으로 SMD 0.1 이하면 균형이 잡혔다고 평가합니다.

밸런스 체크 시각화로 가장 유명한 방식은 Love Plot(러브 플롯)이며, 공변량별 SMD가 매칭 전∙후로 얼마나 줄었는지 한눈에 확인할 수 있는 방법입니다.

SMD와 마찬가지로 매칭 후 점이 0.1에 가까워지면 균형이 잡혔다고 평가할 수 있습니다. (SMD를 시각화한 게 러브 플롯이기 때문입니다.)

실무에서 밸런스 체크 시 대부분 러브 플롯은 필수로 만든다고 볼 수 있습니다.


5. DiD(Difference-in-Differences)

매칭 후 밸런스 체크까지 끝났다면, DiD를 수행할 수 있습니다.

DiD 분석은 A/B 테스트 분석과 동일하게 진행하면 됩니다.

먼저 실험군의 처리 또는 변화 전∙후 데이터 차이를 계산하고, 대조군의 처리 또는 변화 전∙후 데이터 차이를 계산합니다.

그리고 (실험군의 처리 또는 변화 전∙후 데이터 차이) - (대조군의 처리 또는 변화 전∙후 데이터 차이)를 계산하면 DiD가 계산됩니다.

수식으로 표현하면 아래와 같습니다.

실험군의 변화 계산 : (실험군의 처리 또는 변화 전 데이터)

대조군의 변화 계산 : (대조군의 처리 또는 변화 전 데이터)

DiD 계산 : (실험군의 처리 또는 변화 전 데이터) - (대조군의 처리 또는 변화 전 데이터)


6. 이벤트 스터디(Event Study)

이벤트 스터디는 DiD를 한 번만 수행하는 것이 아니라, 일자별로 반복하여 수행하여 시간의 흐름에 따른 효과를 확인하는 방법입니다.

처리 또는 변화일을 기준으로 -n일 ~ +n일까지의 기간 동안 실험의 효과가 어떻게 변했는지 시간축으로 보여주는 개념입니다.

-n일 구간이 0에 근접하면 평생선 가정(parallel trend)이 가능하며, +n일 구간이 위로 올라오면 효과가 있다고 해석할 수 있습니다.

또한, +n일이 누적될수록 숫자가 점점 커지면 점진적인 효과가 있다고 볼 수 있고, 숫자가 금방 다시 작아지면 일시적으로 효과가 있다고 볼 수 있습니다.




오늘은 실제로 A/B 테스트를 하지 않고도 A/B 테스트처럼 효과를 측정해 볼 수 있는 DiD 분석 기법에 대해 설명했습니다.

실험을 하지 않아 난처한 순간에 DiD를 활용해 보시길 바랍니다.

keyword