주 요인의 상호작용이 미치는 효과에 대한 검정
이번 시간은 이원분산분석(Two-way ANOVA)에 대해 살펴보겠습니다. 이원분산분석은 두 개의 독립 변수(요인)가 하나의 종속 변수(결과)에 미치는 영향을 동시에 확인하는 검정 방법입니다. 이러한 이원분산분석은 세 가지의 효과를 검정합니다. 주효과 1(Main Effect A), 주효과 2(Main Effect B), 상호작용 효과(Interaction Effect) 입니다. 주효과 1은 첫 번째 요인, 주효과 2는 두 번째 요인, 상호작용 효과는 두 요인이 시너지(혹은 반작용)를 발휘했을 때 결과에 어떤 차이를 만드는 것인지를 분석합니다.
이원분산분석은 일원분산분석(One-way ANOVA)과 비교 대상 측면에서 차이가 있습니다. 일원분산분석은 원인이 단 하나일 때 사용하는 반면, 이원분산분석은 두 가지 원인을 동시에 사용하여 분석합니다. 현실의 세계에서 어떤 현상(결과)은 한 가지 원인으로만 설명되지 않기 때문에 두 변수를 한 번에 분석하여 더욱 정밀한 인과관계를 파악해야 합니다.
그리고 이원분산분석은 반복측정 분산분석(Repeated Measures ANOVA)과 대상 집단 측면에서 차이가 있습니다. 반복측정 ANOVA는 같은 사람들(그룹)에게 시간 간격을 두고 여러 번 측정하는 반면, 이원분산분석은 서로 다른 사람들을 여러 그룹으로 나눠 조건에 따른 효과의 차이를 비교합니다.
아래와 같이 광고 메시지 유형(A/B/C)과 플랫폼(Mobile/PC)의 요인이 전환율(%)에 미치는 효과를 이원분산분석 방법론에 따라 분석해보겠습니다. 우선 이 Data Set을 셀(Cell) 단위로 살펴보겠습니다. 'Cell'은 두 개의 독립변수가 만나는 가장 작은 분석 단위를 뜻합니다. 여기서는 광고의 유형(3개, A/B/C)과 플랫폼(2개, Mobile/PC)의 조합 각각이 하나의 Cell입니다. 따라서 전체 셀의 개수는 6(=3×2)개 입니다. 그리고 각 셀은 3개의 관측 값이 있기 때문에 전체 데이터 수는 셀의 개수(6개)×셀당 관측치 수(3개)=18개입니다.
광고 유형과 플랫폼을 활용한 이원분산분석 설계에서 이 전환율(Conversion Rate, CVR)이란 지표는 분석의 성패를 가르는 핵심 지표(종속 변수)라 할 수 있습니다. 전환율은 "특정한 광고를 보고 유입된 총 반문자 수 대비 의도한 행동(Goal)을 완료한 비율"로 정의할 수 있습니다. 수식으로 정리하면 CVR(%)=[전환 수(Conversions)÷총 유입(Click/Visits)×100] 입니다.
비즈니스 상황별로 어떤 액션을 전환으로 볼 것인지 달라질 수 있습니다. 커머스 분야에서는 상품의 구매 완료(Purchase), 서비스/SaaS 분야에서는 회원가입 또는 무료 체험 신청, 브랜딩 분야에서는 특정 페이지(이벤트 페이지 등)에 15초 이상 체류 또는 스크롤 70% 도달과 같은 지표가 전환 여부를 판가름하는 KPI가 될 수 있습니다.
이원분산분석의 강점이자 핵심 분석 방향은 '상호작용 효과'에 있습니다. 이를 위해 이원분산분석은 다음의 두 가지 단계를 순차적으로 살펴봅니다. 첫째는 "무엇이 효과적인가?"(주효과, Main Effects)에 관한 분석입니다. 단순히 광고 메시지가 중요한 것인지, 아니면 플랫폼이 중요한 것인지를 따지는 단계입니다. 만약 광고 메시지만 중요하고 플랫폼 환경은 미미한 효과만을 갖는다면 굳이 이원분산분석을 할 필요 없이 일원분산분석을 시행해도 무방합니다.
둘째는 "둘이 만나면 어떤 효과를 발휘하는가?"(상호작용 효과, Interaction Effect)에 관한 분석입니다. 예컨대, '광고 메시지 A가 효과적이다'에서 끝나는 게 아니라, '모바일에서는 A메시지가 압승인데, PC에서는 오히려 C가 더 효과적이다'와 같은 복합적인 진실을 가려내는 과정입니다.
귀무가설(H0)은 "광고 메시지 유형(A/B/C)에 따른 평균 전환율 차이는 없다.", 대립가설(H1)은 "적어도 하나의 광고 유형은 평균 전환율이 다르다." 입니다. 현재 데이터를 볼 때, 광고 A의 경우 약 4.02%, 광고 B의 경우 약 4.85%, 광고 C의 경우 약 5.95%로 계산되는데, 이것이 통계적으로 유의한 차이가 있는지를 확인합니다.
귀무가설(H0)은 "광고 메시지 노출 플랫폼(Mobile/PC)에 따른 평균 전환율 차이는 없다", 대립가설(H1)은 "모바일과 PC의 평균 전환율은 서로 다르다." 입니다. 현재 데이터를 볼 때, 광고 메시지 유형과 상관없이 모바일 수치(약 5.34%)가 PC 수치(약 4.84%)에 비해 높게 나타나는데, 이러한 차이가 표본 변동에 따른 우연인지 아니면 통계적으로 유의한 차이인 것인지 확인합니다.
특정 광고 메시지 유형과 특정 플랫폼 환경의 '조합'에서 나타나는 독특한 효과가 있는지를 확인합니다. 귀무가설(H0)은 "광고와 플랫폼 사이의 상호작용 효과가 없다(즉, 광고의 효과는 플랫폼과 관계없이 일정하다).", 대립가설(H1)은 "광고와 플랫폼 사이의 상호작용 효과가 존재한다(즉, 특정한 조합에서 예측 범위를 벗어난 시너지나 반작용이 나타난다)." 입니다. 예를 들어, 광고 메시지 B의 경우 모바일(5.6%)과 PC(4.1%)의 차이가 큰데, 광고 메시지 C의 경우 모바일(6.1%)과 PC(5.8%)의 차이가 적게 나타납니다. 이러한 차이의 양상이 통계적으로 유의한지 검정합니다.
이원분산분석도 평균의 구조를 살펴보는 분석이기 때문에 가장 먼저 셀의 평균을 계산해야 합니다. 이를 계산하면 아래와 같습니다.
[광고 A]
Mobile: (4.2+4.5+4.3)/3=4.33
PC: (3.8+3.6+3.7)/3=3.70
[광고 B]
Mobile: (5.5+5.7+5.6)/3=5.60
PC: (4.0+4.2+4.1)/3=4.10
[광고 C]
Mobile: (6.0+6.2+6.1)/3=6.10
PC: (5.8+5.9+5.7)/3=5.80
다음으로 각 요인의 평균을 계산해보겠습니다. 계산 결과는 아래와 같습니다.
[광고 유형 평균]
A_평균=4.02
B_평균=4.85
C_평균=5.95
[플랫폼 유형 평균]
Mobile_평균=5.34
PC_평균=4.53
[전체 평균]
Grand_평균=4.94
이원분산분석은 전체 변동(SS_Total)을 크게 네 개의 부분으로 나눕니다. ① 광고 유형 효과(SS_α), ② 플랫폼 효과(SS_β), ③ 상호작용 효과(SS_αβ), ④ 셀 내부 오차(SS_Error) 입니다. 전체 변동부터 이 네 개의 변동 부분까지 계산해 보겠습니다.
전체 제곱 합은 아래와 같이 모든 관측 값이 전체 평균에서 얼마나 떨어져 있는지를 나타냅니다. 전체 변동분을 계산하면 약 15.54 정도가 나옵니다.
광고 메시지 유형별 평균이 전체 평균에서 얼마나 떨어져 있는지 아래의 수식에 따라 계산합니다.
여기서 플랫폼(β)=2, 각 셀에 관측치(n)=3이므로, 한 광고의 평균은 총 6개의 데이터에 대응하기 때문에 광고 유형의 제곱 합에서 6을 곱하여 반영합니다. 이를 구체적으로 계산하면 약 11.25가 나옵니다.
플랫폼 유형별 평균이 전체 평균에서 얼마나 떨어져 있는지 아래의 수식에 따라 계산합니다.
여기서 광고 유형(α)=3, 각 살에 관측치(n)=3이므로, 하나의 플랫폼 평균은 총 9개의 데이터에 대응하기 때문에 플랫폼 유형의 제곱 합에서 9를 곱하여 반영합니다. 이를 구체적으로 계산하면 약 2.95가 나옵니다.
상호작용 제곱 합은 "실제 셀 평균에서 각 요인의 주효과를 뺀 '순수한 차액(시너지/반작용)'을 제곱하여 합산한 뒤, 관측치 수를 곱하는 것"으로 정의할 수 있습니다. 이러한 상호작용 제곱 합의 계산 원리를 반영하고 있는 이원분산분석의 수식 모델은 아래와 같습니다.
①은 i번째 광고, j번째 플랫폼의 k번째 개별 데이터 포인트(개별 관측 값), ②는 전체 평균, ③은 i번째 광고 메시지의 효과, ④는 j번째 플랫폼의 효과, ⑤는 광고와 플랫폼의 상호작용 효과, ⑥은 동일한 셀 내에서 무작위 오차의 효과입니다. 여기서 광고와 플랫폼의 상호작용 효과는 구체적으로 아래의 수식으로 계산합니다.
①은 셀의 평균, ②는 광고 유형별 평균(플랫폼 유형 상관없이), ③은 플랫폼 유형별 평균(광고 유형 상관없이), ④는 전체 평균(모든 데이터 포인트를 합쳐서) 입니다. 여기서 [①-②-③+④] 부분이 실제 값과 예상 값의 차액입니다. 예상 값은 [전체 평균]+[광고 효과]+[플랫폼 효과]를 말하는 것이고, 이것을 번호를 활용하여 수식으로 도해하면, [④+(②-④)+(③-④)=②+③-④] 입니다. 따라서 실제 값과 예상 값의 차액은 다시 정리해서 [①-(②+③-④)]가 됩니다.
이 상호작용 효과를 실제 예시를 통해서 대입해보겠습니다. 가장 특징적인 값을 나타내는 '광고 B'로 계산해 보겠습니다. 광고 B에 관한 기술통계량(평균)은 아래와 같습니다.
전체 평균=4.94
광고 B_평균=4.85(전체 평균 대비 -0.09 낮음)
모바일_평균=5.34(전체 평균 대비 +0.40 높음)
광고_B & 모바일 Cell의 실제 평균=5.60
만약 상호작용이 없다면 광고 메시지 유형 B의 모바일 전환율은 [4.94(기본)-0.09(광고 B의 효과)+0.40(모바일 효과)=5.25]의 값이 나옵니다. 이 5.25가 예상 값입니다. 그런데 실제 데이터는 5.60 입니다. 따라서 실제 값과 예상 값의 차이는 (+)0.35 입니다. 즉, 광고 B와 모바일 플랫폼이 결합하면서 0.35만큼의 시너지가 발생한 것입니다.
통계학에서는 이러한 계산 과정을 '가법적 모델(Additive Model)'이라고 합니다. 이 가법적 모델은 각 요인이 서로 방해하지 않고 독립적으로 자기의 기여만 한다고 가정하는 것입니다. 전체 평균은 모든 데이터의 기준점(Baseline)이 됩니다. 광고 B는 이 기준보다 조금 못하고(-0.09), 모바일 플랫폼은 이 기준보다 조금 더 잘합니다(+0.40). 만약 두 요인이 서로에게 아무런 영향을 주지 않는다면, '광고 B를 모바일에 배포한 결과'는 단순히 [Baseline+광고 B의 손실분+모바일 플랫폼으로 인한 이득분]이 되는 논리입니다. 즉 전체 평균에서 각자의 개별 효과를 반영한 예상 값과 실제 값의 차액분이 상호작용 효과가 됩니다.
각 셀을 단위로 실제 값과 예상 값의 차이를 제곱하여 합산하면 0.38 정도가 나오며, 각 셀의 표본 크기는 3이므로, 이 합산 값에 3을 곱하면 약 1.15가 나옵니다.
앞서 전체 변동분이 15.54 정도였는데, 그 중에서 약 7.4%가 상호작용에 의해 발생했다는 것을 알 수 있습니다. 특히 광고 B의 차액이 ±0.35로 가장 큽니다. 이는 광고 B가 플랫폼 환경에 따라 반응이 가장 극명하게 엇갈리고 있음을 보여줍니다.
오차 제곱의 합은 전체 변동분 15.54에서 세 요인(광고 효과 11.25, 플랫폼 효과 2.95, 상호작용 효과 1.15)을 뺀 값으로 약 0.19 정도 나옵니다.
이상으로 변동분의 구조와 계산 결과를 정리했습니다. 다음으로 통계적 유의성을 판가름 하기 위해 자유도(df)를 계산하여 평균 제곱(MS)을 계산하는 단계로 넘어가겠습니다. 우리가 가용할 수 있는 데이터 정보의 양은 총 18개의 관측치를 기준으로 전체 자유도(17), 광고 효과 자유도(2), 플랫폼 효과 자유도(1), 상호작용 효과 자유도(2), 오차 자유도(12)로 요약할 수 있습니다.
전체 자유도(df_Total)=18-1=17
광고 효과 자유도(df_α)=3-1=2
플랫폼 효과 자유도(df_β)=2-1=1
상호작용 효과 자유도(df_αβ)=2×1=2
오차 자유도(df_Error)=17(전체)-2(광고)-1(플랫폼)-2(상호작용)=12
참고로 상호작용 효과 자유도의 경우 광고 평균 효과와 플랫폼 평균 효과를 설명하고도 남는 각 셀의 추가 패턴을 반영해야 합니다. 총 셀은 광고(3)과 플랫폼(2)을 결합한 총 6개입니다. 그런데 이미 주효과가 설명한 자유도는 광고 효과(2), 플랫폼 효과(1), 전체 평균(1)으로, 4개입니다. 따라서 셀 평균 6개에서 이 4개를 빼고 남는 자유도는 2개가 됩니다.
① 광고 효과(MS_α)
11.25(변동분)÷2(자유도)=5.63
② 플랫폼 효과(MS_β)
2.95(변동분)÷1(자유도)=2.95
③ 상호작용 효과(MS_αβ)
1.15(변동분)÷2(자유도)=0.58
④ 오차(MS_Error)
0.19(오차분)÷12(자유도)=0.02
아래와 같이 총 변동분(Total Sum of Squares)은 15.543으로 제가 Excel로 계산한 15.54와 근사하나 주 효과, 상호작용 효과 및 오차(Residuals)와 관련한 변동분은 제가 계산한 결과와 다소 차이가 있습니다. 이는 제가 수의 계산에서 소수점 계산을 임의로 처리한 탓에 발생한 것이며, 아래 통계 프로그램을 통해 얻은 개별 변동분이 더욱 정확한 값입니다.
[#] 열에 있는 각 요인의 F-통계량은 각 요인의 평균 제곱 합을 평균 오차 제곱 합으로 나눈 값입니다. 대표적 예로 광고(Ad)의 경우 평균 제곱 합이 5.6422고, 이를 오차의 평균 제곱 합인 0.0122로 나누면 약 461~462의 값이 나옵니다.
(1) 광고(Ad) 효과의 경우 F-통계량(461.6) 및 p-value(<.001)가 통계적으로 매우 유의한 수준입니다. 이는 플랫폼이 무엇이든 간에 광고 메시지 유형의 차이 자체가 전환율에 큰 영향을 미치고 있음을 나타냅니다. 이 광고 효과는 전체 변동의 약 72.6%를 설명(일반 에타 제곱분)하고 있습니다. 따라서 이 모델에서는 가장 지배적인 변수라고 할 수 있습니다. 또한 다른 요인을을 제외하고 볼 때, 광고 효과가 설명할 수 있는 순수 변동이 98.7%(부분 에타 제곱분)에 달하고 있습니다.
(2) 플랫폼(Platform) 효과의 경우 F-통계량(242.2) 및 p-value(<.001)가 통계적으로 매우 유의한 수준입니다. 이는 광고 메시지의 유형이 무엇이든 간에 플랫폼의 환경 차이가 전환율에 확실한 차이를 가져온다고 해석할 수 있습니다. 이 플랫폼 효과는 전체 변동의 약 19%를 설명하고 있습니다. 또한 다른 요인을을 제외하고 볼 때, 플랫폼 효과가 설명할 수 있는 순수 변동력은 95.3%에 달합니다.
(3) 광고×플랫폼의(Ad×Platform) 상호작용 효과의 경우에도 F-통계량(47.1) 및 p-value(<.001)가 통계적으로 유의한 수준입니다. 우리가 앞서 예측한 것처럼 "특정한 광고가 특정 플랫폼에서 더욱 잘 먹히는 현상"이 통계적으로도 실재한 것으로 볼 수 있습니다. 상호작용의 효과는 전체 변동의 약 7.4%를 설명하고 있으며, 순수 상호작용 효과로서 설명할 수 있는 변동력이 88.7%에 달합니다. 이는 광고 메시지의 효과는 어떤 플랫폼에 노출되느냐에 따라 달라진다는 것을 뜻하며, 단일 광고를 모든 채널에 동일하게 뿌리는 전략은 비효율적일 수 있다는 것을 알려주고 있습니다.
아래는 광고 및 플랫폼의 상호작용 효과를 사후검정을 통해 비교한 결과입니다. Tukey HSD 및 Bonferroni 보정 검정 결과 및 각 셀 간의 차이에 대한 효과 크기(Cohen's d) 값도 포함되어 있습니다.
① 광고 A의 경우 Mobile과 PC 간의 차이(Mean Difference)가 0.633으로 통계적으로 유의하게 나타났습니다(p<.001). 광고 A의 경우 Mobile에서 더욱 효과적임을 알 수 있습니다. 효과크기 역시 5.73으로 매우 큰 값으로 나타납니다. 모바일 그룹의 평균이 PC 그룹의 평균보다 5.73 표준편차만큼 앞에 있다는 것은 두 플랫폼 환경의 데이터 분포를 상상했을 때, 거의 완전히 따로 떨어져서 겹치는 부분이 아예 없다고 봐도 무방한 수준일 것입니다.
효과크기(Cohen's d)는 두 셀 간의 평균 차이를 오차의 평균 제곱 합의 제곱근으로 나눈 값입니다. 앞서 일반 에타 제곱과 부분 에타 제곱 값을 효과크기라고 표현했고, 여기서 코헨의 d값도 효과크기라고 표현하고 있는데, 둘 다 '효과크기'로 부릅니다. 다만, 에타 제곱 값은 이 모델에 활용한 주요인 및 이들 간의 상호작용 효과에 대한 '설명력'에 중점을 둔다면, 코헨의 d값은 분석의 대상이 되는 셀 단위 간의 효과 차이를 비교하는 데 활용됩니다.
② 광고 B의 경우 Mobile과 PC 간의 차이가 1.500으로 매우 크고 통계적으로도 유의하게 나타났습니다. 광고 B의 경우에도 Mobile의 성과가 훨씬 높은 편입니다. 위의 결과 표에서 평균 차이를 기준으로 보면 [ 광고 B & Mobile ] 조합이 다른 어떤 조합보다 월등히 높은 전환 성과를 보이고 있음을 알 수 있습니다.
③ 광고 C의 경우 Mobile과 PC 간의 차이가 0.300 수준이나 통계적으로 유의하지 않게 나타났습니다. 즉, 광고 C의 경우에는 플랫폼 환경의 영향을 거의 받지 않는다고 해석할 수 있습니다.
앞서 살펴보았던 사후검정의 결과를 보다 직관적으로 파악하기 위해 아래와 같이 인터랙션 플랏(Interaction Plot)을 활용하겠습니다.
위 그래프에서 가장 주목할 부분은 역시 광고 B입니다. 광고 B는 플랫폼의 영향을 가장 크게 받습니다. 그래프에서 두 선 사이의 수직 거리를 보면, 광고 B가 가장 멀게 나타납니다. 광고 B는 모바일 환경에서는 광고 A보다 훨씬 뛰어난 성과를 내지만, PC 환경에서는 광고 A와 사실상 큰 차이가 없을 정도로 성과가 떨어집니다. 앞선 사후 검정의 결과 표를 보면 B-Mobile과 B-PC 간의 효과 크기가 13.57이었습니다. 이러한 압도적인 결과를 알 수 있는 대목이기도 합니다. 따라서 광고 B는 "모바일 전용"으로 Focusing할 때 가성비가 극대화되는 광고일 것입니다.
광고 C의 경우 광고 B와는 달리 플랫폼 환경에 관계없이 강력한 범용성을 갖고 있습니다. 광고 C에서 형성된 플랫폼 환경 간의 구간은 서로 가깝게 닿아 있으며 어느 플랫폼 환경이든 가장 높은 전환율을 기록하고 있습니다. 앞선 사후 검정에서 광고 C의 p-value가 0.05를 초과했던 이유는 바로 여기에 있습니다. 모바일이든 PC든 플랫폼의 제약을 거의 받지 않고 일관되게 높은 성과를 내고 있다는 것을 알 수 있습니다. 만약 리소스가 부족하여 플랫폼별로 광고 최적화 전략을 구사하기 어렵다면, 광고 C를 메인으로 사용하는 것이 가장 합리적이고 안전한 선택일 것입니다.