선형회귀분석 알고리즘, P-VALUE, R 스퀘어 값에 대한 설명과 함께
안녕하세요, 하트카운트팀입니다. 오늘은 변수 간의 관계를 통계적으로 설명하는 알고리즘인 회귀분석에 대해 알아보겠습니다.
변수값(매출, 만족도 등)의 차이가 어디에서 비롯되는지 알고자 할 때 사용하는 가장 오래되고 널리 쓰이는 이해하기 쉬운 알고리즘
독립변수(X)를 가지고 숫자형 종속변수(Y)를 가장 잘 설명‧예측(Best Fit)하는 선형 관계(Linear Relationship)를 찾는 방법
앞으로 100년 후에도 꾸준히 사용될 알고리즘으로 선형회귀 분석이 첫번째로 꼽히는 이유는 모형의 내용을 사람이 직관적으로 이해할 수 있기 때문
X와 Y 사이에 선형적 관계가 있다는 가정 하에 실제 Y값(점들)과 예측한 Y값(직선)의 차이를 최소화하는 방정식을 계산 (그림 참고)
Y = b0 + b1X + error
b0 : Y축 절편(Intercept); 예측변수가 0일 때 기대 점수를 나타냄
b1 : 기울기로 X가 한 단위 증가했을 때의 Y의 평균적 변화값을 나타냄
Statistical Significance(통계적 유의성)을 나타내는 수치로 X와 Y 사이에 발견된 관계가 통계적으로 유의미한지 여부를 알려줌
데이터를 통해 확인한 관계가 우연히 나왔을 확률로 생각하면 됨
P값이 0.03이라면 X와 Y 사이에 (선형적) 관계가 없는데도 불구, 데이터 샘플링의 실수로 관계가 우연히 발생했을 확률이 3% 정도 된다는 이야기
절대적 기준은 없고 통상 0.01~0.05 보다 낮으면 유의미하다고 봄
변수 사이 관계의 세기(Size of an Effect)를 나타내는 것은 아님 (P값은 0.0001로 매우 작지만 X의 변화에 따른 Y값의 변화[관계의 세기]는 무의미한 수준으로 미미할 수 있음)
X가 Y를 얼마나 잘 설명/예측하는가를 알려주는 통계량
Goodness of Fit: X로 설명할 수 있는 Y 변화량의 크기를 나타내며 0에서 1사의 값을 가짐 (1이면 차이를 100% 설명한다는 이야기)
아래 그림처럼 낮은 결정계수가 반드시 나쁜 (Inherently Bad) 것은 아님
좌, 우 모두 동일한 회귀방정식: Y = 44 + 2*X; P < 0.001
우측 모형이 좌측 모형보다 예측 정확도(R2)는 매우 높음 (즉, X값이 250이면 Y값은 얼마가 될까를 더 정확히 예측)
하지만, 변수 간 경향성은 동일: X: 1단위 증가 → Y: 2단위 증가 (예측의 정확도가 아니라 경향성을 파악하는 게 중요하다면 좌, 우 모두 유의미한 패턴임)
위의 선형회귀분석 알고리즘을 활용한 기능인 하트카운트의 요인분석을 통해 매체별로 어떤 관계를 가지는지 알아보겠습니다.
직접 해 보고 싶으시다면 무료로 시작하기를 클릭하세요.
다양한 샘플 데이터셋이 제공되니 이용해 보세요 :-)
*첫 번째 기능은 하트카운트의 유료 기능인 요인분석, 두 번째 기능은 무료 버전에서도 사용 가능한 스마트 플롯 기능입니다.
실무자를 위한 데이터 자동 분석 솔루션, 하트카운트 사용해보기
여기를 클릭해주세요.
하트카운트 뉴스레터 구독하기는 여기를 클릭해주세요.
하트카운트 도입, 견적 및 구축 문의는 여기를 클릭해주세요.
(협업 문의는 support@idk2.co.kr로 부탁드립니다.)
하트카운트 데모 비디오는 여기를 클릭해주세요.
여기를 클릭하여 데이터 분석/시각화 커뮤니티 '데이터 히어로'에 참여하세요.