brunch

논문작성법

3-2. 분석(회귀, 조절/ 매개분석)

by 연금책사

회귀분석: 독립변수(원인)와 종속변수(결과) 간의 상호 연관성 정도를 파악하는 분석방법 .
: 변수간 인과관계 파악, 등간과 비율척도 적용.


-명목과 서열척도는 더미변수나 로지스틱 회귀분석.


-회귀분석 구분:

1. 독립변수 개수 (1개-단순회귀분석, 2개 이상-다중회귀분석)

2. 변수의 척도 (일반회귀분석-연속형인 비율척도와 등간척도, 더미변수 회귀분석- 범주형 독립변수인 명목척도와 서열척도, 로지스틱 회귀분석- 범주형 종속변수인 명목척도와 서열척도)

3. 독립변수와 종속변수의 인과관계 유무 (선형회귀분석- 인과관계있음, 비선형회귀분석- 인과관계없음)


- 다중회귀분석: 독립변수가 2개 이상으로 구성.


- 로지스틱회귀분석: 종속변수가 0 or 1개일 때 사용.

*단순회귀분석(독립변수 1개, 연속형 등간, 비율척도)
ex) 광고비가 매출액에 미치는 영향.


검증 1. 선형인지 파악(그래프-레거시 대화상자-산점도(X축-광고비, Y축-매출액) 확인
검증 2. 회귀분석(분석-회귀분석-선형)(회귀계수-추정값과 신뢰구간 체크, 모형적합, 기술통계 - 확인
=> R(상관계수), R제곱(회귀식의 설명력) y=a+bx
표준화계수는 다중회귀분석일 때 봄(독립변수 다수)

*다중회귀분석(독립변수 2개 이상, 연속형 등간, 비율)
ex) 스마트폰 외관, 유용성, 편의성이 만족감에 영향.


분석 1:(분석-회귀분석-선형)(종속변수-만족감, 독립변수-외관, 유용성, 편의성)(통계량-추정값, 신뢰구간, 기술통계, 모형적합, 공선성진단, Durbin wason) (도표-X축(ZPRED), Y축(ZRESID), 히스토그램, 정규확률도표 체크- 확인.
분석 2: (분석-회귀분석-선형) 요인분석에서 추출한 fac로 된 값인 (종속변수-fac만족감, 독립변수-fac외관, fac유용성, fac편의성) 밑에 방법: 후진 체크


-Durbin wason은 2에 가까우면 독립적임.
-VIF(Variance Inflation Factor, 분산팽창계수): 10 미만이면 다중공선성(서로 겹치는 부분) 문제없다고 봄.
-공선성진단:상태지수가 15 미만이면 공선성 문제없다.
-산점도그림:선형이 아니면 문제없음(등분산 가정함)
-ANOVA:회귀식의 유의성을 판단하는 표.

*단계적 회귀분석: 연구자의 투입방법(후진, 전진 등)에 따라 영향력 구분하여 영향 있는 독립변수만 나타냄.
=> 후진:변수를 모두 투입하여 영향력 없는 변수 제거.


*위계적 회귀분석: 연구자 경험바탕으로 영향력이 큰 변수부터 투입하는 방법.
ex) 1단계-외관, 2단계-외관+유용성, 3단계-외관+유용성+편의성을 순차적으로 투입해 만족감 봄.
(블록에서 '외관' 넣고 다음 '유용성' 다음 '편의성')
=> 모형요약: R제곱값(회귀식 설명력)이 점점 증가됨.


*더미변수 회귀분석:독립변수가 명목, 서열척도일 경우 0과 1 사이 가상변수인 더미변수로 변경 후 분석.
ex) 스마트폰 만족감에 있어 성별, 직급별 만족감 차이에 유의미한 영향이 있는지 분석.(더미변수:N-1)


-성별 더미변수: 새로운 변수로 코딩하는 방법
=>(변환-다른 변수로 코딩변경:이름(D성별), 레이블 (더미성별) 변경 후 기존값 새로운 값(1=>0, 2=>1)
-직급별 더미변수: 명령문으로 하는 방법을 사용함. 사원 00, 과장 10, 부장 01.
=>(파일-새 파일-명령문:if(직급=1) 직급 dum1=0
if(직급=1) 직급 dum2=0 if(직급=2) 직급 dum1=1
if(직급=2) 직급 dum2=0 if(직급=3) 직급 dum1=0
if(직급=3) 직급 dum2=1 EXECUTE 쓰고 실행-모두.
(분석-회귀분석-선형: 종속변수(fac만족감) 독립변수 (더미성별)-확인/독립변수(직급 dum1과 직급 dum2)

조절/매개/로지스틱 회귀분석
*조절 회귀분석:

1단계(종속 <-독립)

2단계(종속 <-독립, 조절) 3단계(종속 <-독립, 조절, 상호작용변수)
상호작용변수는 변수계산에서 독립 ×조절변수로 함.
ex) 외관, 유용성, 편의성이 만족감 영향에 브랜드 조절.


먼저, 상호작용변수를 만듦(변환-변수계산: 대상변수(외관브랜드조절) 숫자표현식(fac외관 ×fac브랜드) 다음 누르고 유용성브랜드조절, 편의성브랜드조절을 만들고 (분석-회귀분석-선형: 종속변수(fac만족감), 독립변수(fac외관 다음 fac브랜드 다음 외간브랜드조절) 통계량(추정값, 모형적합, R제곱값, 공선성진단, Durbin wason) 확인
=> 결과는 모형요약에서 R제곱과 R제곱변화량 봄.
(R제곱변화량이 변화면 조절변수 효과가 있음 의미)

*매개 회귀분석:

1단계(독립->매개) 유의성 점검하고 2단계(독립->종속) 유의하고 3단계(독립, 매개->종속) 유의성 점검하고 4단계(베타값 비교 2단계>3단계) 되어야 매개효과가 인정된다.
(1986년 바론과 케니 연구에서 매개효과 밝힘)
ex)(외관, 유용성, 편의성)->브랜드->만족감


분석 1. (분석-회귀분석-선형:종속변수(fac브랜드) 독립변수(fac외관) 확인 => 결과는 분산분석의 유의 수준 봄.
분석 2. (분석-회귀분석-선형:종속변수(fac만족도) 독립변수(fac외관 다음 fac브랜드)처럼 위계적 회귀분석 후 - 확인=> 결과는 R제곱, 베타
같은 방법으로 분석 1, 분석 2로 fac유용성과 fac편의성을 4단계로 순차적으로 반복실행함.
=> 독립변수의 베타(표준화) 비교 후 매개효과가 있음.

*로지스틱 회귀분석: 독립변수가 명목, 서열, 등간, 비율 척도이고, 종속변수가 명목, 서열 척도인 경우 분석함.
:이분형 로지스틱(종속변수가 명목척도 2개로 구성), 다항 로지스틱(종속변수가 명목, 서열척도 3개 이상)
ex) 지역(1=강남, 2=강북)과 학력(1=초대, 2=대졸, 3=대학원)에 따른 스마트폰 구매의사 여부(1=있다, 2=없다)의 차이를 확인함.
(엑셀의 변수보기: 기준값-1, 설명-강남....... 기준값-2, 설명-구매 않음)


(분석-회귀분석-선형:이분형 로지스틱(종속변수-구매의사, 공변량-지역, 학력)(범주형-지역, 학력을 범주형 공변량으로 이동(계속)(방법-뒤로 LR)(옵션-분류도표, Hosmer-Lemeshow 적합도, exp(B) 신뢰구간 체크 후 확인)
=>(해석)'분류도표'는 0.5 기준으로 구매와 구매 않음.


- 'Hosmer-lemeshow 적합도'는 유의 수준이 0.05보다 크면, 로지스틱 모형이 적합함을 나타냄.
- '모형요약'의 R제곱으로 모형의 설명력을 말함.
- '방정식에 포함된 변수'의 유의 수준이 구매유의 설명함.

keyword