변수의 유형과 관계에 따른 정리
우리는 통계학의 핵심적인 기초 개념들을 차례로 살펴보고 있습니다. 이러한 학습 과정은 근본적으로 개별 데이터와 데이터가 모여 있는 분포의 의미를 이해하는 것이었습니다. 실제 가설검정을 통한 분석 단계에서는 평균의 차이가 단순히 표본의 변동성에 따른 우연의 결과인지, 아니면 실제로 유의한 효과가 있는 차이인 것인지를 검정하는 일련의 t-test 시리즈(단일표본, 독립표본, 대응표본)도 다뤘습니다.
이처럼 통계학에서는 데이터의 존재와 의미를 탐구하는 것을 중요하게 여깁니다. 이를 위해 "이 데이터는 어떤 종류의 데이터인가?"를 묻는 질문부터 시작해야 합니다. 왜냐하면 데이터의 유형에 따라 우리가 사용할 수 있는 통계 분석의 방법이 달라지기 때문입니다. 그런 관점에서 이번 시간은 '변수'에 대하여 종합적으로 살펴보고자 합니다.
직원의 데이터를 분석한다고 가정해 보겠습니다. 이 데이터에는 직원의 성별, 연령, 연봉, 직무 만족도 점수가 있습니다. 이 네 가지는 모두 데이터지만, 통계학적으로 보면 서로 완전히 다른 성격의 변수입니다. '성별'은 숫자가 아닌 범주(Category)를 나타내고, '연령'과 '연봉'은 연속적인 숫자 값이며, '직무 만족도' 점수는 숫자로 표현되지만 사실은 순서가 있는 평가 값에 가깝습니다. 이처럼 데이터의 특성에 따라 어떤 그래프를 사용할지, 어떤 통계 검정을 수행할지, 어떤 분석 모델을 선택할지 결정하게 됩니다.
데이터 변수를 살펴볼 때는 크게 두 가지 관점에서 접근할 필요가 있습니다. 첫째는 변수의 유형(Type), 둘째는 분석에서의 관계(역할, Role)에 관한 것입니다. 이 두 가지 관점을 통해 우리는 데이터가 통계 분석의 과정에서 어떤 의미를 갖는지 보다 명확하게 이해할 수 있게 됩니다.
통계학에서 변수(Variable)란 관측 대상에 따라 값이 달라질 수 있는 특성을 의미합니다. 다시 말해 동일한 대상이 아니라 여러 개의 관측 단위를 살펴볼 때, 그 값이 서로 다르게 나타나는 특징을 변수라고 부릅니다. 위 예시와 같이 각 직원의 데이터를 생각해 보면, 직원마다 나이도 다르고 급여도 다르며 직무 만족도 역시 서로 다른 경우가 많습니다. 이러한 값들은 직원이라는 관측 대상에 따라 변화하기 때문에 변수입니다.
만약 모든 직원의 연령이 완전히 동일하다면, 그것은 더 이상 분석의 대상이 되는 변수가 아닙니다. 통계학에서는 변수라는 개념은 변화(Variation)가 존재한다는 사실을 전제로 하기 때문입니다. 따라서 데이터 분석의 가장 기본적인 질문은 "이 데이터에서 무엇이 변하고 있는가?" 입니다. 그리고 이 질문에 대한 답이 바로 변수입니다.
위 그림과 같이 변수는 유형과 관계에 따라 분류할 수 있습니다. 변수의 유형은 데이터의 본질적인 성격을 설명하는 것이고, 변수의 관계는 분석의 모델 속에서 변수의 역할을 설명하는 것입니다. 우선 변수의 유형부터 살펴보겠습니다.
통계학의 거장인 스티븐스(S.S. Stevens)는 변수의 유형을 측정 수준(Scales of Measurement)에 따라 범주형(명목형, 서열형) 변수와 연속형(간격형, 비율형) 변수로 구분하고 있습니다.
변수의 유형은 크게 범주형 변수(Categorical variable)과 수치형 변수(Numerical variable)로 나눌 수 있습니다. 이 구분은 통계 분석에서 중요한 의미를 갖습니다. 범주형 변수는 주로 분류와 비교를 위해 사용되고, 수치형 변수는 계산과 수치적 분석을 위해 사용되기 때문입니다.
범주형 변수는 값이 숫자가 아니라 어떤 범주로 나타내는 변수입니다. 이 변수는 서로 다른 집단이나 상태를 구분하기 위한 목적으로 사용됩니다. 예를 들어 성별, 부서, 국가, 직무 유형과 같은 변수는 모두 범주형 변수에 해당합니다. 이러한 변수들은 숫자로 표현될 수 있지만, 그 숫자 자체는 수학적 의미가 없습니다.
만약 어느 회사에 HR 부서, Marketing 부서, IT 부서가 있다면, HR=1, Marketing=2, IT=3으로 숫자로 변환할 수 있습니다. 그러나 여기서 3이 1보다 크다는 의미는 존재하지 않습니다. 이러한 숫자들은 단지 분류를 위한 하나의 기호(Label)일 뿐입니다.
범주형 변수는 세부적으로 ① 이분형 변수(Binary variable), ② 명목형 변수(Nominal variable), ③ 서열(순서)형 변수(Ordinal variable)로 나뉩니다.
이분형 변수는 두 개의 범주만 존재하는 변수입니다. 합격과 불합격, 재직과 퇴직, 구매와 비구매 등과 같이 두 가지의 구분만 존재하는 것입니다. 이러한 변수는 통계 분석에서 종종 0과 1로 코딩합니다. 특히 로지스틱 회귀 분석이나 머신러닝 분류 모델에서는 매우 자주 등장하는 형태의 변수입니다.
명목형 변수는 여러 범주가 존재하지만, 그 사이에 순서가 없는 변수를 의미합니다. 예를 들어 혈액형(A, B, O, AB), 국가(한국, 미국, 일본) 또는 부서(HR, IT, Marketing)와 같은 변수들이 여기에 해당합니다. 이 변수들의 특징은 범주 간에 대소 비교가 불가능하다는 점입니다. IT부서가 HR부서보다 "더 크다"라거나 "더 작다"라고 말할 수 없는 것처럼 명목형 변수의 범주는 단순한 분류 체계일 뿐입니다.
서열형 변수는 범주 사이에 순서(Order)가 존재하는 변수입니다. 직무 만족도 점수의 경우 [1점부터 5점], 서비스 평가의 경우 [매우 불만족, 불만족, 보통, 만족, 매우 만족], 직급의 경우 [사원, 대리, 과장, 차장]과 같이 이 변수들은 분명히 순서가 존재합니다. 직무 만족도 점수 5점은 3점보다 높은 평가이며, 차장은 대리보다 높은 직급에 해당합니다.
그러나 여기에는 중요한 특징이 있습니다. 바로 범주 사이의 간격이 반드시 동일하지 않다는 점입니다. 예를 들어 만족도 점수 3점에서 4점으로 올라가는 변화와 4점에서 5점으로 올라가는 변화는 동일한 의미를 갖는다고 확신할 수 있는 것이 아닙니다. 이러한 이유 때문에 서열형 변수는 통계 분석에서 종종 비모수 검정(Non-parametric test)을 사용하게 됩니다.
모수 검정(Parametric test)은 데이터가 일정한 분포(정규분포)를 따르고, 값 사이의 간격이 산술적으로 일정하다는 가정에 바탕합니다. 만약 5점 척도의 만족도 점수에서 보통(3점)에서 만족(4점)으로 가는 마음의 크기와 만족(4점)에서 매우 만족(5점)으로 가는 마음의 크기를 산술적으로 정확히 같다고 보긴 어렵습니다. 이렇게 간격이 불분명하기 때문에 서열형 변수에서 "평균 3.7점"과 같은 수치는 수학적으로 계산이 가능하지만, 실제의 의미를 왜곡할 위험(평균의 함정)이 큽니다.
비모수 검정(Non-parametric test)은 데이터의 구체적인 수치(값) 대신 데이터의 순위(Rank)나 빈도를 사용하여 분석하는 방법입니다. 기본적으로 "만족도가 몇 점인가?"라는 절대적인 값 대신에 "누가 누구보다 더 높은 점수를 줬는가"와 같은 '순위'를 따집니다. 데이터가 정규분포를 따르지 않거나 표본의 수가 너무 적거나, 지금처럼 간격이 불명확한 서열형 변수일 때 보다 안전하게 결론을 내릴 수 있습니다.
수치형 변수는 값이 숫자로 표현되며 실제 계산이 가능한 변수를 의미합니다. 나이, 키, 체중, 연봉, 매출과 같은 변수들이 여기에 해당합니다. 이 변수들의 특징은 덧셈, 평균, 분산과 같은 수학적인 계산이 가능하다는 점입니다. 우리가 앞에서 배웠던 평균, 표준편차, t-검정과 같은 통계의 개념들은 대부분 이러한 수치형 변수를 기반으로 합니다. 수치형 변수는 이산형 변수(Discrete variable)와 연속형 변수(Continuous variable)로 나뉩니다.
이산형 변수는 값이 개별적인 정수 단위로 나타나는 변수입니다. 자녀의 수, 결석 횟수, 클릭 수와 같은 변수들이 이에 해당합니다. 이러한 변수들은 값이 연속적으로 존재하는 것이 아니라 특정한 값들만 가질 수 있습니다. 예를 들어 자녀의 수가 3명일 경우 1과 2 사이, 2와 3 사이에 1.3, 2.7과 같은 값은 존재할 수 었습니다. 따라서 이산형 변수를 이야기할 때 "가능한 값(개수, Count) 사이에는 실제로 관측될 수 없는 값들이 존재한다."라고도 말합니다(Discrete variable is a variable that can take only specific separeted values).
연속형 변수는 값이 연속적인 범위 안에서 자유롭게 변화할 수 있는 변수입니다. 키, 체중, 온도, 시간, 매출과 같은 변수들이 대표적으로 해당합니다. 이 변수들은 소수점 단위까지 측정이 가능하며, 이론적으로는 무한히 많은 값들을 가질 수 있습니다. 통계학에서 자주 다루는 정규분포, t-검정, 회귀분석 등의 기법들은 대부분 이러한 연속형 변수를 대상으로 합니다. 연속형 변수는 측정 수준에 따라 간격형(Interval)와 비율형(Ratio)으로 구분됩니다.
간격형 변수는 값 사이의 간격은 의미가 있지만 절대적인 0점이 존재하지 않는 변수입니다. 대표적으로는 온도(섭씨)를 예로 들 수 있습니다. 20도가 10도보다 두 배 더 뜨겁다고 말할 수 없기 때문입니다. 반면 비율형 변수는 소득이나 매출과 같이 절대적인 0점이 존재하는 변수입니다. 절대적인 0점이 존재하기 때문에 200만 원은 100만 원보다 두 배 더 많다고 말할 수 있습니다. 이러한 차이는 통계 분석에서 해석의 방식에 영향을 미치게 됩니다.
지금까지는 데이터의 유형을 기준으로 변수를 살펴보았습니다. 이제는 분석 과정에서 변수가 어떤 역할을 하는지 살펴보겠습니다. 변수의 역할과 관련하여 통계분석에서는 일반적으로 두 가지의 변수를 정의합니다. 첫째는 독립변수(Independent variable), 둘째는 종속변수(Dependent variable) 입니다.
독립변수는 어떤 결과에 영향을 미치는 원인 변수이고, 종속변수는 그 결과로 나타나는 변수입니다. 예를 들어 연봉 상향 조정에 따른 조직 만족도의 효과를 분석한다면, [연봉]의 상향 조정은 직원의 [조직 만족도]에 영향을 줄 수 있는 변수이므로 독립변수가 됩니다. 반면, 연봉의 상향 조정 이후에 진단한 조직 만족도 점수는 분석의 결과이므로 종속변수가 됩니다. 이 뿐만 아니라 교육 시간과 성과, 광고비 규모와 매출액, 리더십과 팀 만족도 점수와 같은 변수 간 구조는 회귀분석(Regression analysis)이나 인과 분석(Causal analysis)의 기초 데이터가 됩니다.
회귀분석(Regreesion Analysis)은 '상관관계'와 '예측'이 결합된 분석입니다. 상관분석(Correlation)은 두 변수가 얼마나 끈끈하게 열결되어 있는지를 '방향(양/음)'과 '강도'만 봅니다. "키가 크면 몸무게도 많이 나가는 경향이 있어."라는 정도의 정보를 제공합니다. 회귀분석은 상관관계를 바탕으로 '수식(y=ax+b)'을 만듭니다. 즉, "키가 1cm 커질 때 몸무게는 정확히 몇 kg 늘어날까?"라는 구체적인 영향력의 크기를 계산하고, 이를 통해 미래의 값을 예측합니다. 즉, 상관분은 관계의 존재 여부를 보여주는 '스냅숏'이고, 회귀분석은 그 관계를 설명하는 '공식'을 만드는 과정이라고 할 수 있겠습니다.
인과분석(Causal Analysis)은 '원인'과 '결과'에 대한 분석입니다. 특정 요인이 결과에 직접적인 변화를 일으켰는지 원인을 규명합니다. "다른 요인들을 모두 통제했을 때, 오직 광고비 집행만이 매출 상승을 이끌었는가?"를 따집니다. 즉, 'A가 변해서 B가 변했다'라는 확신을 얻기 위한 분석이라고 할 수 있습니다. 기술적으로는 인과분석에서도 회귀 모델을 도구로 사용하여 영향력의 크기를 계산합니다. 하지만 데이터를 바라보는 관점과 검증 과정에 있어서는 회귀분석보다 훨씬 까다롭습니다.
인과분석과 회귀분석의 핵심 차이는 '교란 요인(Confounder)'의 통제 여부입니다. 일반적인 회귀분석은 "광고비(x)를 1억 쓰면 매출(y)이 5억 상승한다."라는 수식을 찾는 데 집중합니다. 이때 매출의 상승이 사실은 '크리스마스 시즌' 때문이었어도, 수식상으로는 관계만 보이면 그에 대한 결론을 내립니다. 반면, 인과분석은 "매출 상승(y)이 정말 광고비(x) 때문인가, 아니면 시즌 효과(z) 때문인가?"를 먼저 의심합니다. 그래서 시즌 효과와 같은 외부 요인을 철저히 배제(통제)한 뒤, 순수하게 x가 y를 변화시킨 '인과적 효과'만을 발라내어 계산합니다.
변수의 유형 및 변수 간의 관계(역할)에 따라 어떤 통계 분석 방법이 사용되는지 간단하게 정리해보면 다음의 표와 같습니다.
만족도 점수와 같이 일반적으로 Likert 척도로 사용되는 변수는 이론적으로 서열형 변수에 해당하지만, 실제 통계 분석에서는 연속형 변수처럼 취급하는 경우가 상당히 많습니다. 따라서 "종속변수는 반드시 연속형 변수여야 한다."라는 표현은 단순화된 설명이며, 실제 통계학에서는 조건부로 서열형 변수 역시 t-test, ANOVA, 나아가 회귀분석에 사용됩니다.
많은 통계학자들은 척도가 5점 이상인 경우, 데이터의 분포가 심하게 왜곡되지 않았고, 표본의 크기도 충분하다면 이러한 데이터를 연속형 변수처럼 분석해도 큰 문제가 발생하지 않는다고 봅니다. 그리고 이러한 관행은 특히 심리학과 사회과학 연구에서 널리 받아들여지고 있습니다. 즉, Likert 척도가 일정 수준 이상의 기준을 충족하였을 경우 연속형 변수에 근사한다는 관행이 있습니다.
그리고 중심극한정리(CLT)에 따라 평균의 안정성이란 점도 염두합니다. 즉, 표본의 크기가 충분히 크다면 평균의 분포가 안정적으로 나타난다는 통계적 특성을 반영하는 것입니다. 우리가 앞에서 배운 중심극한정리에 따르면 표본 크기가 충분히 커질 경우 평균의 분포는 정규분포에 가까워집니다. 이러한 특성 덕분에 실제 분석에서는 서열형 변수라도 평균 기반 분석을 수행하는 경우가 많습니다.