brunch

You can make anything
by writing

C.S.Lewis

by 천년하루 Aug 03. 2024

통계를 화장실에서 배운다.

4-4. 논문을 쉽게 쓰는 방법 ▶ 통계를 화장실에서 배운다.

통계는 잘 몰라도 추구하는 원리는 알아야 한다. 화마로 생명체가 재로 변한 민둥산에 새로운 숲을 이루기 위해서는 해당 토지와 환경에 적정한 나무를 선택하고 식재 시기와 방법을 계획한다. 통계학을 산이라고 가정하면 대학 교재 및 유명 도서로 대표되는 숲에는 어떤 종류의 나무가 자라고 있는지 목차를 통해 분석해 본다. 저술자는 통계학을 어떤 요소를 중심으로 학습해야 하는지 제시한다. 이와 관련 생물통계학, 통계학 도감, 통계학 개론 등 세 권의 책에서 제공한 목차를 통해 주요 요소를 확인한다.


[생물통계학]*

① 생물통계학의 개념

② 자료의 수집과 정리(변량 및 자료, 모집단과 표본, 자료의 수집, 자료의 정리)

③ 대푯값과 산포도(대푯값, 산포도)

④ 확률(확률의 개념, 확률의 계산, 확률의 법칙, 확률의 분할과 베이스 규칙)

⑤ 확률분포(확률변수, 확률분포, 이산확률분포, 연속확률분포)

⑥ 추정(불편추정치, 표본 평균의 분포, 점, 구간, 분산의 구간 추정, 비율의 추정)

⑦ 통계적 가설 검정(가설 검정, 모평균의 검정)

⑧ 가설 검정(독립적 표본, 대응 비교, 차이 검정, 비모수 검정)

⑨ 일원 분산분석(분산분석의 원리, 분산분석의 과정, 처리 평균 간 비교)

⑩ 난괴법(분산분석의 과정, 처리 평균 간의 비교, 난괴법의 가정과 상대효율)

⑪ 비모수 방법(대응 비교, 독립된 표본, 다수 표본 평균 간의 비교)

⑫ 범주 자료의 검정(이중분할표, RxC분할표, 적합도 검정)

⑬ 상관 분석(상관계수, 가정과 특성, 모상관계수의 검정과 신뢰한계, 순위 상관)

⑭ 회귀 분석(회귀선, 회귀직선, 모집단 절편과 회귀계수의 구간추정, 곡선 회귀)

⑮ 공분산분석(공분산분석 모형, 공분산분석 검정, 공분산분석과정)

* 류문일, 김진수, 홍기창 (2011). 생물통계학. 서울: 고려대학교출판부.


[통계학 도감]*

① 기술통계학(평균, 분위수와 분산, 변동계수, 상관계수, 순위상관)

② 확률분포(확률, 확률분포, 균일분포, 이항분포, 정규분포, 표준정규분포, 시그마 구간, 왜도와 첨도, 포아송 분포, χ²-분포, F-분포, t-분포)

③ 추측통계학(추측통계학, 불편추정, 자유도, 평균의 분포, 비율의 분포, 분산의 분포, 상관계수의 분포, 계통오차와 우연오차, 대수의 법칙과 중심극한정리)

④ 신뢰구간의 추정(모평균, 모비율, 모분산, 모상관계수의 신뢰구간, 부트스트랩법)

⑤ 가설검정(가설검정, 귀무가설과 대립가설, 표본평균, 제1종 과오와 제2종 과오, 표본비율, 표본분산, 무상관 검정, 평균 차이 검정, 비율 차이 검정, 비열성 시험)

⑥ 분산분석과 다중비교(일원배치 분산분석, 등분산검정, 대응일원배치 분산분석, 이원배치 분산분석, 다중성, 본페로니법과 셰페법, 튜키법과 튜키·크레이머법, 던넷법)

⑦ 비모수 통계(비모수 검정, 피어슨의 χ² 검정, 피셔의 정확검정, 맨·휘트니의 U 검정, 부호검정, 윌콕슨의 부호순위검정, 크러스컬·월리스 검정, 프리드먼 검정)

⑧ 실험계획법(피셔의 3원칙, 직교계획법, 파라미터 설계, 컨조인트 분석, 검출력 분석)

⑨ 회귀분석(회귀분석, 최소제곱법, 결정계수, t 검정, 잔차분석, 중회귀분석, 다중공선성, 변수선택법, 절편 더미, 기울기 더미, 프로빗 분석, 생존곡선, Cox 비례 해저드 회귀)

⑩ 다변량 분석(주성분분석, 인자분석, 구조방정식, 클러스터 분석, 코레스폰던스 분석)

⑪ 베이즈 통계학과 빅데이터(베이즈 통계학, 베이즈 정리, 사후확률, 베이즈 갱신, 빅데이터 분석, 연관성 분석, 트렌드 예측과 SNS 분석)

* 쿠리하라 신이치, 마루야마 아츠시 (2019). 통계학 도감. 경기: (주)도서출판 성안당.

     

[통계학 개론]*

① 통계의 의의와 목적

② 데이터의 요약과 정리(수치적 자료, 범주적 자료)

③ 집중경향치와 산포도(산술평균, 기하평균, 산포도, 분산, 표준편차, 변동계수)

④ 확률의 기초(확률의 개념, 확률의 계산, 조건부확률)

⑤ 확률변수와 확률분포(확률변수, 확률분포, 이항분포, 정규분포)

⑥ 표본분포(표본추출과 오류, 표본분포, 중심극한정리)

⑦ 신뢰구간의 설정(t-분포, 오차한계, 모집단비율, 표본의 크기)

⑧ 가설의 검정(가설검정, p값, 독립모집단, 대응비교, 모집단비율)

⑨ 분산분석(일원분산분석, 이원분산분석)

⑩ 상관과 단순회귀분석(공분산, 상관계수, 단순회귀분석, 통계적 추론, 회귀계수)

⑪ 다중회귀분석(다중회귀모형, 다중회귀분석)

⑫ 카이제곱 검정(모집단비율, 독립성 검정, 동질성 검정)

* 김태웅 (2016). 통계학 개론. 경기: 신영사.


대학원 생활을 시작하면서 논문 쓰는 과정에서 가장 힘든 여정 가운데 하나가 통계라고 한다. 통계학은 전문 영역으로 복잡한 내용을 포함하고 있어 일정한 지식이 필요하다. 논문의 과학적 글쓰기를 위해 적용하고 있는 통계적 분석 방법은 통계학을 기반으로 가설을 검정하고 결과를 분석하기 때문에 통계학 전반에 걸친 지식을 알아야 한다고 걱정한다. 이에 학습도 시작 전에 어려움에 휩싸인다.


세 권의 책에서 제시하는 공통된 목차를 통해 꼭 필요한 부분만 정확히 이해하고 넘어가는 방식으로 접근한다. 지금 책을 보고 있는 독자와 다수의 대학원생은 논문 쓰기를 접하면서 통계에 관심을 가진다. 이전에는 전혀 관심을 저 멀리 보냈다가 가끔 우리나라 군사력 순위, 올림픽 메달 순위, 국가 안전도 순위 같은 자료에 관심을 보인다.
선거철이 되면 후보들의 사전 인기도 조사와 선거 당일 출구조사를 통해 누가 당선이 될지 후보자들의 득표율을 예측하여 발표하는데 조사에 응답한 투표자 수, 후보자 득표수, 신뢰수준과 표준오차를 함께 제공한다.
공개 내용은 믿을 수 있는 기관에서 작성한 자료라고 신뢰수준과 표준오차를 제시하는데 어떤 과정을 거치는지 모른다. 사회생활에 큰 지장이 없기 때문이다. 확률과 통계는 고교 시절에 배우지만 흐르는 시간에 속절없이 흘려보내 첫 만남처럼 생소하기만 하다. 그래도 우린 대통령이나 국회의원을 뽑는 선거에서 누가 당선될 것인지 궁금해 서로 갑론을박한다. 이때 방송사에서는 특정한 시기에 리서치 업체가 발표한 설문조사 자료를 분석하여 당선 가능성이 높은 예상 후보가 누구인지 예측하고 공개 방송을 시작한다.


통계학을 전문적으로 탐구하는 통계학자나 관련 업체가 아니라면 깊이 연구할 필요성은 작아진다. 논문에서 쓰이는 통계 분석은 과학적 방법으로 결과를 추론하기 위한 하나의 도구일 뿐이다. 분석할 논문의 변수 사이에 관계나 차이를 검정하기 위한 방식으로 사용하는 것이지 도구의 발생 기원이나 발전 과정을 정의할 필요는 없다. 논문 작성에 필요한 부분을 이해하고 적정하게 사용하여 가설을 검증하면 된다.

버스나 택시를 타고 집에 가는데 차량의 운동 역학이나 동력 전달 방법을 깊이 연구할 필요는 없다. 탑승하려는 고객은 이용 버스의 노선에 해당하는 이동 경로 파악이 제일 중요하고, 출발 버스의 배차 간격을 알고 있다면 목적지 이동에 적정한 시간을 예측할 수 있다. 운행 버스는 불특정 다수의 승객을 태우고 정해진 노선으로 움직이지만 택시는 개별 승객이 요구하는 목적지를 향해 이동한다. 버스와 택시 그리고 승객 사이에는 여러 관계나 차이가 존재한다.

변량 사이에 차이나 관계를 과학적 방법으로 분석하여 추론하는데 하나부터 끝까지 관계식을 일일이 계산할 필요는 없다. 통계 분석 프로그램을 활용하여 가설을 검정하기 때문에 분석 방법에 따른 작동 원리를 이해하고 도출된 결과를 논문에 기재하는 기술이 중요할 따름이다.


[통계학을 발견하다]

통계학은 학문의 한 분야로 아인슈타인의 상대성 이론이나 막스 보른의 양자역학이라는 용어처럼 한 사람이 확정한 개념이 아니다. 국가의 세금 징수와 인력 동원을 위해 실시한 인구조사가 통계학의 기원이라는 것이 다수설이다.

17세기 중반 런던에서 존 그란트(John Graunt, 1620~1674)는 교회에서 보관하고 있던 사망 기록을 연구하여 유아기와 도시 사망률이 높다는 것을 밝혀낸다. 1662년 윌리엄 페티와 함께 저술한 사망률에 관한 자연적·정치적 관찰(Natural and Political Observations Made upon the Bills of Mortality)에서 사망표 분석으로 기술통계학의 시작을 알린다.

20세기에 윌리엄 실리 고셋(William Sealy Gosset, 1876~1937)은 영국 옥스퍼드 대학교에서 수학과 화학을 전공한다. 1899년 흑맥주로 유명한 아일랜드 맥주회사 기네스(Guinness) 양조장에서 일할 때 맥주 맛이 들쑥날쑥한 것은 맥주 맛을 결정하는 효모의 양이 일정하지 않아서라고 확신한 고셋은 이 문제 해결을 위한 연구에 몰입하다 작은 표본으로 모집단의 특성을 추측하기 적합한 t-분포를 발견한다.

     

[분산을 변기에서 배우다]

대상의 상태를 파악하기 위해서는 기준을 세우고 간격이나 격차를 수로 표현할 수 있어야 한다. 만약 뭔가를 노트에 적어 데이터로 보관한다면 데이터 변수들이 가지는 특성을 찾아야 한다. 그 기준이 되는 대푯값(Representative Value) 찾기가 문제 해결의 핵심이다.

우선 논문에서 가장 많이 언급되는 변수의 특성과 종류를 파악해야 하는데, 변수(Variable)는 말 그대로 변화를 일으키는 요인으로 자연적 또는 사회적 현상을 나타내는 특성을 가진다. 데이터 특성에 따라 질적변수인 명목변수와 순위변수, 양적변수인 이산변수와 연속변수가 있으며, 데이터 자료의 관계에 따라 독립변수와 종속변수로 구분한다.

통계학은 변수에 대한 수적 자료인 데이터를 수집, 정리 및 분석하고 해석하는 통계적 방법으로 기술통계와 추측통계로 분류한다. 기술통계가 데이터를 정리하고 요약하여 표본의 특성을 기술한다면 추측통계는 표본을 이용하여 모집단을 추론하는 방식이다.

표본의 특성을 알기 위해서 필요한 대푯값은 자료의 특징이나 경향을 가리키는 수의 값으로 평균값, 중앙값, 최빈값 따위가 있다. 평균값은 여러 수의 더한 값을 개수로 나눈 값이며 중간 위치한다. 중앙값은 크기순으로 나열할 때 중앙에 있는 값이고 최빈값은 가장 많이 나타나는 값이다. 통계학은 여러 특성을 분석하기 때문에 자료 연구의 기초가 되는 기본 원리는 알아야 한다. 학습을 위한 기본 개념 정리가 중요한 이유다.



우린 양변기를 통해 대푯값으로부터 얼마나 떨어진 곳에 변들이 분포하는지 알아야 한다. 계산된 평균값만 가지고 데이터의 흩어진 상태를 분간하기 어렵다. 다양한 지표를 이용하여 똥이 흩어진 정도를 파악해야 한다. 산포도는 변수의 관찰되는 값들이 흩어진 정도를 나타내는 지표로 범위(R), 사분위수범위(IQR), 표준편차(σ), 분산(σ²)이 있다. 표준편차(σ)는 집단 내 개체들의 산포도이다.

분산(σ²)은 확률변수가 대푯값으로부터 얼마나 떨어진 곳에 분포하는지 가늠하는 숫자로 편차 제곱의 평균으로 나타낸다. 통계학의 기본을 학습했으니 이제 난이도가 살짝 있는 기술을 연마해야 한다. 습득하기가 어려운 내용이 아니기에 눈으로 주시하고 머릿속 이미지 만들기 반복 과정을 하면서 용어에 대한 어색하고 불편한 마음을 조금씩 걷어내자.

     

[표본으로 전체를 보다]

전수조사는 대상이 되는 통계 집단의 단위를 하나하나 전부 조사하는 관찰 방법으로 많은 시간과 비용이 소모된다. 이런 이유로 표본을 통해 전체를 추정하는 방식이 활용된다. 모집단이 정규분포가 아니더라도 표본크기가 n≥30 이상이면 평균의 표본분포는 정규분포에 가까워진다. 추측통계는 표본으로 모집단의 특성 파악에 이용된다.

애연가로 유명한 로널드 피셔(Ronald Aylmer Fisher, 1890~1962)는 흡연과 폐암 사이 인과관계를 연구하는데 몰입하지만, 연구의 데이터(data) 부족에다가 암에 걸리기 쉬운 유전자와 담배를 좋아하는 유전자 사이에 서로 구분하지 못할 가능성이 있다고 지적하며 인과관계 증명에 실패한다. 사실 이 연구는 담배회사의 지원을 받아 수행한 연구였다. 지금은 충분한 데이터로 담배와 폐암 사이에 인과관계가 있다는 것이 증명되어 담뱃갑에 설암이나 폐암에 걸린 사람의 흉측한 사진을 게시한다. 흡연이 죽음에 이르게 하는 유해 물질임을 경고하며 흡연자에게 경각심을 일깨워 준다.

     

[축구는 시작부터 확률 게임이다]

과거로 전이하면 가장 많이 생각하고 후회하는 것이 로또 번호를 챙기지 못한 아쉬움이다. 우리가 겪은 경험 자료는 어딘가에 보관되어 있지만 정확하게 찾아내어 기록하고 작성하는 일은 실제로 일어나기 힘든 경우이다.

소설이나 영화 속 주인공이 되어 전생한 삶을 살아간다고 해도 일순간 발생한 사건에 대해 최고의 선택은 쉽지 않다. 지금 당장 가족의 휴대전화 번호를 상기해 보자. 11자리 숫자 중에서 앞 번호 세 자리를 제외한 8자리 숫자를 순서대로 나열할 수 있다면 좋겠지만 그렇지 않다면 전이해도 큰 변화를 맞이하기 힘들다. 단지 큰 사건에 대한 대략적인 내용을 인지하고 있을 뿐 정확한 사실관계 파악은 어렵다. 당시에도 중요 정보의 접근은 쉽지 않은 경로에 위치하고 다양한 변수들이 존재한다.

월드컵 경기같이 규모가 있는 축구 경기에서는 양쪽 팀의 주장이 각각 중앙선(half line) 앞으로 나와 동전 면을 선택하고 심판이 던져 우연히 나온 동전 면을 통해 진영을 결정한다. 이때 동전 앞면이 나올 가능성은 50%로 결과를 예측할 수 있다. 이렇게 우연히 정해진 결과의 가능성을 예측하기 위해선 확률이나 확률분포의 이해가 필요하다.

확률은 동전 던지기에서 특정한 결과가 나올 수 있는 비율이다. 확률변수는 던져야 알 수 있는 결과에 수치를 부여하고, 확률분포는 확률변수가 취하는 값이나 그 값이 나타날 확률을 짝지어 정리한다. 확률분포는 이산확률분포와 연속확률분포로 구분한다.

이산확률변수는 동전 던지기처럼 딱딱 끊어져 셀 수 있는 정수 같은 값들을 가지는 확률변수다. 동전을 여러 번 던져 앞면이 나오는 수의 이항분포, 주사위를 여러 번 던져 각 면이 나오는 횟수의 다항분포, 발생빈도가 매우 낮은 희귀사건의 포아송 분포가 있다.

연속확률변수는 연속적인 값인 몸무게 1.96과 키 3.84처럼 실수를 가지는 확률변수다. 곤충의 몸무게나 키와 같이 평균을 중심으로 좌우대칭인 종 모양의 곡선으로 정규분포, 분산의 추정치의 χ²-분포, 작은 표본크기에서 평균 추정치의 t-분포, 두 분산의 비율인 F-분포가 있다. 변수의 확률분포를 알아야 어떤 식으로 논문을 이끌고 갈지 가늠할 수 있다.

    

[B, β, F, t, p]

표본분포는 표본통계량의 확률분포로 평균의 표본분포, χ²-분포, t-분포, F-분포 등이 있다. 평균의 표본분포와 t-분포는 모평균의 신뢰구간 추정과 가설검정에 이용, χ²-분포는 모분산의 신뢰구간 추정과 범주형 데이터분석에 이용, F-분포는 분산분석에 이용하여 통계량과 모수의 관계를 규명해 준다.

통계 접근을 쉽게 하려면 통계 용어가 눈에 익숙해야 한다. 통계 용어를 쉽게 습득하기 위한 기술로 쉬운 이미지를 설정하고 연상하는 방법이다. 통계는 버스요금에서 시작한다. B값을 버스(Bus)요금, β값은 배(βoat)삯, F값은 연료(Fuel)비, t값은 택시(taxi)비, p값은 피 값(price)으로 가정하고 이미지 만들기(image making)를 한다.

B값(버스요금)은 수도권과 비수도권 사이에 환승할인제가 통일되지 않아 계산식에 이용되는 비표준화 계수요. β값(배 삯)은 배를 타고 운항하기에 1인용 구명조끼를 입고 타는 표준화 계수다. F값(연료비)은 집단 간 분산과 집단 내 연료 분산 비율이다. F-분포는 정규분포의 모집단에서 독립적으로 추출한 두 표본의 분산비로 두 개의 자유도에 의해 분포가 결정되며 분산분석에 이용된다. t값(택시비)은 기울기를 통한 선형관계 유무로 검정한다. t-분포는 모분산이 알려져 있지 않거나 작은 표본 n<30인 경우 모평균의 신뢰구간을 구하여 가설검정하며, 두 표본평균 사이에 차이를 검정하는 데 이용한다. F값이 소문자 f가 아닌 대문자 F인 이유는 고유명사인 로널드 피셔(Ronald Aylmer Fisher, 1890~1962)라는 이름의 Fisher에서 F를 차용했기 때문이다.

t값인 1.96에 제곱하면 F값 3.84가 되는데, t값이 1.96보다 크거나 F값이 3.84보다 크면 양측 검정의 신뢰구간 한계치인 95%에서 대체로 유의미한 결과 값을 보여준다. t-검정이나 F-검정에서 p값이 0.05보다 작아지면 귀무가설은 기각되고 연구가설이 채택되는 방식을 취하는데 여기서 p값(피 값)은 유의수준을 말한다. 지금까지 세 권의 책에서 제시한 목차 분석을 통해 주요한 통계의 기초, 확률과 분포에 대하여 알아보았다. 이제 논문 작성에 필요한 최소 범위 내 분석 방법을 살펴본다.


[귀무가설을 기각하라]

연구가설은 논문의 핵심 요소이다. 가설을 세웠으면 어떻게든 검정해야 하는데 번뜻이는 아이디어나 그럴듯해 보이는 생각을 가설로 설정하고 제안하면 나중에 큰 후회를 하게 된다. 그렇다고 포기할 필요는 없다. 바닷속에는 다양한 어종의 물고기가 수없이 많지만, 여러 이유로 잡지 않는 것이고, 하늘 아래 새로운 것이 없다고 외치지만 새로운 발명품이 하루가 다르게 쏟아지고 있는 현실이다. 아무리 이상한 가설을 설정했어도 그와 유사한 개념의 연구논문이 존재한다면 연구를 그만둘 필요가 없다는 역설이다.


가설검정은 모수값을 미리 가정해 놓고 표본의 통계량이 가정한 모수와 일치하는지를 검정한다. 귀무가설은 표본으로 그 진위를 검증하는 가설로 두 모수치 사이에 차이가 없다고 하는 가설이다. 여기서 귀무(歸無)는 무로 돌아간다는 뜻으로 이 가설이 채택되면 모수치들 사이에 확률적으로 차이가 없다고 결론 내리고, 기각된다면 차이가 있다고 결론 내린다.

이를 통하여 모수와 통계량 사이의 차이가 있고 없음을 판정한다. 귀무가설을 기각해야 연구가설이 채택되는 원리다. 귀무가설이 기존에 알려져 있던 사실이라면 연구가설은 새로운 사실이다. 지동설이 채택되기 이전에는 천동설이 귀무가설이고 지동설은 연구가설이다.

각종 논문에 필요한 가설을 설정하기 위해서는 원인과 결과가 되는 변수를 꼼꼼히 찾아서 가설을 만들어야 하는데, 연구에 필요한 도구나 재료는 선행 연구논문이 가득 차 있는 황금 어장에 들러 뜰채로 건져 올린 뒤 깨끗이 손질해서 일품요리를 만들어서 먹으면 된다.


[가설을 검정하라]

귀무가설 원리를 습득했으면 본격적으로 각종 가설을 검정한다. 가설(hypothesis)은 개념들 및 구성개념들 사이 관계에 대한 입증을 위해 설정하는 가정(an unsubstantiated assumption)이며, 가설들의 입증을 통해 이론(theory)을 구축할 수 있다.


독립표본 t-검정(independent samples t-test)은 정규분포를 기초로 하는 모수검정으로 두 독립표본들의 평균을 비교하는 분석 방법이다. 비교할 두 그룹은 상호 독립적이다. 종속변수는 등간이나 비율척도로 측정하나 독립변수들은 2개의 명목 자료를 가져야 한다. t-검정은 t-분포를 이용하여 두 집단을 비교한다. 예컨대 국제결혼 커플의 이혼 발생에 따른 성별 귀책사유를 내국인 중심으로 비교한다면 두 표본의 평균 간 차이의 유의성을 검정하면 된다.
그룹변수(grouping variable)에 해당 변수는 독립변수의 값을 가지며, 3개 이상의 명목 자료를 가지는 독립변수가 있을 때 종속변수에 대한 분석으로 ANOVA(Analysis of Variance : 분산분석)를 수행한다. ANOVA, 분산분석, 변량분석은 서로 같은 이름으로 일명 삼태자로 명명한다. t-검정이 두 집단을 비교한다면 F-검정은 F-분포를 이용하여 세 개 이상의 집단을 동시에 비교하는데 집단 간의 분산과 집단 내의 분산을 이용하여 분산분석이라고 한다. 분산분석의 조건은 세 가지로 비교 집단들은 독립적이고, 종속변수는 정규분포이고, 모든 집단에서 분산이 같은 경우라야 F-검정이 가능하다.
2개 이상의 종속변수들에 대한 공분산을 통해 변수들의 차이를 MANOVA(Multivariate Analysis of Variance : 다변량 분산분석)로 수행한다. 다변량 분산분석에서 공분산행렬에 대한 동질성 검정인 Box의 동일성 검정(test for homogeneity of variance-covariance)인 Box’s test, 일원분산분석(One-way ANOVA) 및 일변량 사후검정을 제시한다.
SPSS를 통한 MANNOVA 수행은 다음과 같다. “분석/일반선형모형/다변량”을 지정한다. 생성된 “다변량” 대화상자에서 “종속변수” 박스에 2개 이상의 해당 변수를, “고정요인” 박스에 통제변수를 이동시킨다. “사후분석” 단추를 클릭한 다음, 사후검정 변수박스에 통제변수를 이동시키고, Bonferroni를 지정한 뒤 “계속”을 클릭한다. “옵션” 단추를 클릭한 뒤 기술통계량과 동질성 검정을 지정한 뒤 “계속”, “확인”을 클릭한다.
동일성 검정은 MANOVA의 검정가정으로, 다변량 검정을 해석하는 방식에 대한 의미를 갖는 Box의 검정 결과가 우선 평가되어야 하며 전형적으로 Box의 검정에 대한 유의확률이 0.1% 미만이면 Box의 동일성 검정은 유의하다[Hinton et al.(2014), 222-225].


논문에서 가설을 설정하고 분석하면 도돌이표처럼 나오는 말이 있는데 “차이가 있다, 없다. 관계가 있다, 없다.”라는 말과 “유의하다, 유의하지 않다.”라는 말이다. 논문은 변수 사이에 차이나 관계를 분석한 글이다.

집단 비교는 동일 변수에 대해 둘 또는 여러 표본의 통계량이 서로 같은지를 검정 그 표본들이 속한 모집단을 상호 비교한다. 이때 두 표본의 평균 비교는 ‘두 표본의 평균은 차이가 없다’라는 귀무가설을 검정한다.

가설검정은 주로 귀무가설의 채택 또는 기각 여부를 판정한다. 귀무가설이 기각되면 연구가설이 “유의하다”라고 말함으로 유의성검정과 쓰임이 같게 되는데, 가설검정은 통계학적 의미가 있어 보이고, 유의성검정은 실험적 의미가 강해 보인다.


[변수들의 관계를 밝혀라]

변수(variable)는 어떤 사상이나 행동, 특징과 특성, 속성 등의 측정 가능한 상징으로. 추상적 구성개념의 표현을 위해서 하나 이상인 표지(관찰)변수를 사용할 수 있다. 연구에서는 추상적인 종속, 독립, 매개변수에 대하여 측정이나 검정에 알맞은 특수한 기준들에 충족하도록 구성개념들의 특징을 구체화 가능한 개념으로 변수의 조작적 정의를 규정한다[Schindler(2022), 14].
외재변수(extraneous variables : EVs)는 종속변수에 영향을 주는 독립변수 이외의 변수이며, 가외변수라고도 한다. 외재변수들은 자료수집 과정이나 실험설계에서 통제되지 않아 효과나 영향이 알려지지 않은 변수들이어서 자료수집이나 결과 해석에 오류나 불확실성을 초래하기 때문에 측정하는 시점에서 통제되어야 한다.
① 통제변수(Control variables : CV)는 분석하려는 인과관계에 영향을 주어 왜곡을 발생시킬 수 있는지 결정하기 위해 측정하는 외재변수이다. 따라서 통제변수는 종속변수에 대한 독립변수의 효과에 영향을 주는 것을 회피하도록 일정하게 유지시킬 필요가 있는 추가변수이며, 관찰 및 측정이 가능한 변수이다.
② 조절변수(Moderating Variables : MV)는 분석하려는 인과관계에 유의적인 기여효과를 갖는 것으로 믿어지는 2번째의 독립변수이며, 독립변수와 종속변수 간의 관계 특성에 영향을 미친다.
③ 교락변수(confounding variables : CFVs)는 분석하려는 인과관계에 대해 조절변수와 유사하게 영향을 주어 독립변수들의 효과를 왜곡시키는 원인이 되는 요소(인자)이다. 한편 교락변수는 독립변수와 종속변수 간의 추론에 대해 교란을 줄 수 있지만 관찰이나 측정이 곤란한 변수이다.
④ 매개(개입)변수(Mediating(intervening) variable : IVV)는 독립변수의 종속변수에 대한 효과를 전달해 주는 변수이며, 이론적으로는 종속변수에 영향을 주지만 관찰하거나 측정할 수 없는 요인이다. 이러한 변수의 효과는 관찰된 현상에 대한 독립변수와 조절변수들의 효과들로부터 추론해야 한다[Schindler(2022), 16-19; Saunder et al.(2023), 193].


단순상관분석은 두 변수가 함께 변화하는 관계를 분석한다. 두 변수 모두 독립변수로 상관계수 r은 두 변수 사이에 관계가 얼마나 강한지 나타낸다. 상관계수는 두 독립변수의 표준편차 곱에 대한 공분산의 비율로 정의하는데, 결정계수 R²은 두 독립변수 간 상관관계의 강도를 나타내며 회귀방정식이 얼마나 정확하게 예측할 수 있는지 알려준다.


단순회귀분석은 두 변수 사이의 원인과 결과를 분석한다. 원인이 되는 변수를 독립변수 X로 하고, 결과가 되는 변수를 종속변수 Y라 한다. 두 변수의 추정 회귀방정식 y=a+bx+e로 표현하며 한 변수로 다른 변수의 값을 추정하거나 예측할 수 있다.


구조방정식(Structural Equation Modeling, SEM)은 원인과 결과 사이에 있는 관계를 설정하고, 그 가설을 데이터로 분석한다. 공분산 구조분석(Covariance Structural Analysis, CSA)이라고도 한다.


    

조건부프로세스분석(conditional process analysis)은 독립변수인 X가 종속변수인 Y에 어떤 영향을 주는지 여부와 동시에, 독립변수 X가 그 영향을 종속변수 Y에 대해 어떻게 행사하며 어떤 경로를 거쳐 영향을 주고, 제3의 변수들이 그 영향 경로에 의해 어떤 효과를 미치고 그 크기는 어떻게 결정되는지 여부를 탐색하기 위해 직접효과, 간접효과, 조절된 직·간접효과를 분석한다.

독립변수 X가 종속변수 Y에 주는 영향 과정에서 하나 이상의 개입변수들(intervening variables) M의 역할을 찾는 경로분석을 수행하여 매개변수의 효과를 알아보도록 매개분석(mediation analysis)을 수행한다.
조절변수(moderator variable) W가 독립변수 X의 종속변수 Y에 대한 인과적 효과의 영향 여부와 그 효과를 알기 위해서 선형교호작용(linear interaction)을 규명하는 조절분석을 수행한다.
매개된 조절, 조절된 매개 및 조건부 간접효과들(conditional indirect effects)을 동시 추정하여 그 효과를 규명하도록 이들을 다 함께 결합한 인과 체계를 통해 Y에 대한 X의 간접효과와 직접효과들(매개성분)의 조건부 특성(조절성분)을 추정하고 해석에 초점을 두는 조건부프로세스분석 과정을 수행한다.
모형에 대한 인과 과정에 따른 개념도(concept map)를 제시한 후 추정 결과를 통계 과정에 따른 효과변수 영향을 제시한다. 회귀계수, 표준오차와 표준화계수, t통계량에 따른 유의수준(p-값) 또는 95% 신뢰구간 하한 및 상한을 제공한다[Hayes(2022), 84, 240, 418].


[탐색요인분석과 신뢰도 및 타당도 검정]

조건부 프로세스(conditional process)의 추론분석은 탐색요인분석으로 수행한다. 이를 위해 주성분분석(principal component analysis)인 공통요인분석(common factor analysis)으로 변수 그룹들을 규명한다.
주성분분석은 직접 측정을 할 수 없는 잠재변수(latent variables)의 구성개념을 통해 정보 내용을 파악할 수 있게 자료의 총효과분산(total variance)으로 적정 설명이 가능하도록 측정 자료의 정보 손실을 줄이기 위한 주성분들(principal components)을 도출한다.
주성분분석은 전체분산을 통해 공통분산, 특정분산, 오차분산으로 구분하며 요인들이 각 변수들이 갖는 선형관계를 규명한다. 주성분분석의 수행은 투입행렬의 변수들의 변동을 극대화시키는 직교 구성요인들의 집합으로 구성되며 각 요인들 사이에 상관관계가 없는 결과행렬이 얻어지도록 수행한다.
탐색요인분석의 공통성(communality)은 요인들이 가진 특정 표지변수의 적재량에 의해 얻어지며 그 표지변수가 갖는 분산의 크기이며, 추출된 요인들의 설명력을 나타내는 측도이다.

공통성(communality)은 어떤 변수에 포함되어 다른 변수들과 공유하는 분산의 크기로, 추출된 표지변수의 전체 요인들이 얼마나 설명할 수 있는지에 대해 요인적재량((factor loading)을 제곱한 값들의 합으로 계산한다. 변수들이 요인분석에 적용되기 위해서는 0.50을 초과해야 한다. 따라서 표지변수의 신뢰도인 공통성(communality)을 최대 유지하면서 유의확률 5% 수준에서 0.30 이상의 유의미한 상관관계를 보여주는 표지변수들의 요인들을 도출한다. 그리고 관찰변수와 요인 간에 계산된 단순 피어슨 상관계수(Peason Correlation Coefficient, PCC)의 요인적재량(factor loading)이 0.4를 초과하는 것에 대해 유효하게 표시한다.
요인적재량을 제곱한 값은 해당 표지변수의 명시변수로 그 요인의 실질적 중요성을 측정하는 수단으로 역할을 한다. 또한 모든 요인의 적재량들이 0.70을 초과하면 그 단일요인의 적재량으로 해당 표지변수들의 분산들이 절반 이상 설명하는 것을 의미한다.
중요성이 큰 요인에 관해 높은 적재량을 갖지만, 다른 요인들에 대해서 낮은 적재량을 가지게 되면 해석 접근성을 어렵게 한다. 이런 문제를 해결하기 위해 수직 및 수평축을 모두 회전시켜서 요인들이 독립적 또는 비관련성을 유지하면서 회전시키는 직각회전(orthogonal rotation)의 배리맥스(Varimax) 방법을 사용한다.
배리맥스 직각회전은 변수들 내부에서 요인들의 적재량 제곱들의 합을 통해 분산이 최대화되어 해석 가능성이 높은 요인들을 가져오게 하고 작은 요인들은 줄여 변수 요인들을 높게 적재시키는 방식으로 다요인 구조에서 요인들 의미를 뚜렷하고 쉽게 해석하기 좋은 방법이다.
신뢰도(reliability)란 하나의 대상에 대해 유사 및 반복 측정했을 때 산출된 결과의 일관성을 산출하는데 크론바흐 알파(Cronbach's alpha)는 리커트 척도형 검정 항목들의 반영 또는 효과 지표들(reflective or effect indicators)이 단일 구성개념 또는 개념을 일관성 있게 측정하는 문제에 대해 내적 일관성(internal consistency) 검정을 위해 가능한 모든 반분 신뢰도 계수들(split-half reliability coefficients) 평균을 계산한 결과에 따른 크론바흐 알파(Cronbach's alpha)가 0.70 이상을 임계치로 한다.
타당도(validity)는 사용 표지변수들의 조작적 정의가 실제 표지변수들의 사용 적합성을 내용타당도(content validity), 구성타당도(construct validity), 수렴타당도(convergent validity), 판별타당도(discriminant validity) 검정으로 수행할 수 있다.
수렴타당도(convergent validity) 검정은 확인요인분석에서 이용되는 평균분산추출량(Average Variance Extracted : AVE) 계산으로 적용한다. 하나의 요인에 대해서 각각의 표지변수들의 R²을 표준화 요인적재량 제곱을 구한다. 그 합계를 표지변수들 수로 나누고 표지변수들 요인적재량 제곱의 평균에서 AVE를 구해서 0.5보다 크면 해당 구성개념의 수렴타당도 적정성을 확인한다.
탐색요인분석을 통해 해당 요인 표지변수들의 상관계수행렬에서 평균단조특성 상관계수(average monotrait correlation) 값을 구하여 0.5 이상이 되면, 평균분산추출량(AVE) 기준의 충족조건을 달성한다.
판별타당도(discriminant validity) 검정을 위해서는 표지변수들의 상관계수행렬을 기초로 하는 HTMT(Heterotrait-Monotrait Ratio of Correlations) 판별분석을 사용하며, 표지변수들이 사용하는 요인들 사이 HTMT를 계산하여 0.85 미만의 값에 대해서 판별타당도를 확인한다[Johnson and Christensen(2014), 168-178; Aaker et al.(2019), 408-418; Hair et al.(2019), 125-133; Collier(2020), 85-87; Malhotra(2020), 608-623; Babbie(2021), 480-482; Hair et al.(2021), 383-385].     


학위 논문에서 가설을 설정하고 검정하는데 활용되는 분석 방법을 전반적으로 살펴보았다. 특별히 어렵거나 이해하지 못할 내용은 없다. 신뢰도 및 타당도 검정 부분은 연구 과정에서 매우 중요한 부분이기 때문에 정확한 탐구가 필요하다. 구조방정식 모델을 통해 연구 가설을 분석하려면 확인적 요인분석(Confirmatory Factor Analysis, CFA)을 수행한다. 이 책은 조건부프로세스분석에 초점을 두었다. 추후 구조방정식 모델 분석을 위한 확인적 요인분석에 관한 자료를 추록할 예정이다. 연구 가설 검증에서 모수를 모르기 때문에 작은 부분을 통해 전체를 예측하기 위한 방법론으로 통계 학습이 필요한 이유다. 아무리 낯설고 어렵더라도 자주 보다 보면 친근해지는 것이 만물의 이치다.


[비세는 택시(B/SE=t)를 타면 졸업한다]

논문을 작성하다 보면 B(비) SE(세)는 t(택시)를 타게 된다. 비문을 알게 될 때면 졸업한다.

B값(버스비)에 SE(Standard Error, 표준오차)를 /(나누기)하면 t값(택시비)이 나온다. 비세는 택시(B/SE=t) 머릿속에만 존재하는 형상이다.


지금까지 논문 작성에 필요한 최소 범위 안에서 다양한 분석 방법을 살펴보았다. 학과 선배 논문에 쓰인 분석 방법을 탐구하고, 부족한 부분은 통계청 통계교육원(https://sti.kostat.go.kr)에서 모든 국민을 대상으로 무료 통계 교육 과정을 운영하고 있으니 학습 참여를 적극 추천한다.

대다수 학위 논문의 첫해 독자는 심사위원과 후배 연구자다. 적게는 몇 십부터 많게는 수백 명 정도다. 논문의 성공은 첫 독자인 심사위원들에게 새로운 연구 가설이 인정받느냐 받지 못하느냐에 따라 결정된다고 해도 과언이 아니기에 비세는 택시도 타보고 기왕에 시작한 거 박사 명함 새겨 뿌려보고 폼 나게 살아야 한다.

     

[행복함]

바흐, 헨델 소망을 점한다.
온천욕으로 신망을 늘린다.
다리에 바람이 산들산들 불어온다.
포근한 이불에 누워 오감을 부른다.
     
모든 편안함을 한 곳에 모아둔다.
심장 소리 파랑이고 뇌 새김 파동에 신난다.
충만함을 경험한다.
사랑을 분출하고 아이가 태어나고 감격을 맞는다.
     
모든 감정이 한 번에 이뤄진다.
가슴이 벅차올라 하부 압박이 풀리면 눈물이 흐른다.
    

대학원 박사 학위 수여식이 시작되고, 행사에 참석한 여러 예비 박사는 수여식 종료에 맞춰 대학원을 떠나 평형 사회에 새내기 박사로 첫발을 디딘다. 학교 정문을 떠나 집으로 돌아오는 차 안에서 보조석 옆에 놓여 있던 파란색 표지 안에 담긴 박사 학위증을 다시 쳐다보며 나름대로 고생한 자신을 토닥인다. 그렇게 하루가 지나고 어제 하늘과 다름없는 아침, 이슬 한 방울 가득 맺힌 소나무 가느다란 잎을 보며 맞이한 오늘이다. 여느 때와 다르지 않은 출근길인데 그 길에 들어선 지금, 주변 경치가 밝게 보이고 막 정감이 들고 그런다.





브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari