[ADsP 3과목] 47회 기출문제정리(31번~40번)

by 위키북스

남은 기간 동안 막판 정리는 결국 기출문제 중심 복습이 가장 효율적인 것 같아서,

이번에는 ADsP 47회 3과목 2장(회귀분석·시계열) 기출문제 풀이 영상을 바탕으로 시험에 자주 나오는 핵심 포인트 위주로 정리해봤습니다.


이 글은 기출문제를 하나씩 다시 짚어보면서

✔ 회귀분석과 시계열에서 어떤 개념을 반복해서 묻는지

✔ 회귀계수 해석, 다중공선성, 정상성 같은 헷갈리기 쉬운 개념 포인트는 무엇인지

✔ 보기에서 자주 등장하는 함정 표현과 오답 포인트는 무엇인지

를 중심으로 정리한 기록입니다.


특히 3과목 2장은 공식 계산보다는 결과표를 어떻게 해석하는지,

개념을 정확히 이해하고 있는지를 묻는 문제가 많이 나오기 때문에

시험 직전에 빠르게 훑어보기 좋은 파트라고 생각해요.


이론서 요약보다는 실제 기출에서 어떻게 출제됐는지에 초점을 맞춰 정리했습니다.

앞서 정리한 3과목 1장과 2과목 내용과 함께 이어서 복습하시면

ADsP 3과목 전체 흐름을 잡는 데 도움이 될 것 같습니다.




문제 31: 단순회귀분석
image6.jpg?type=w966 [문제 31 화면]


31번. 단순 회귀 분석에서 오차 제곱합이 20이고 샘플 수가 10일 때 오차항의 분산 추정량은 얼마인가를 묻는 문제입니다. 문장은 한 줄이지만 사실 굉장히 많은 걸 알아야 푸는 문제입니다. 이 문제를 풀려면 공식을 알고 있어야 하고, 그 공식이라는 게 결국 자유도를 먼저 계산할 수 있어야 합니다.


순서를 보면 먼저 자유도를 계산하고, 그다음에 그 값을 이용해서 분산 추정량을 구하면 됩니다. 단순 회귀 분석에서 오차항의 분산 추정량은 평균제곱오차이고, 평균제곱오차는 오차 제곱합을 자유도로 나눈 값입니다.


그래서 첫 번째 단계는 자유도가 얼마인지 구하는 것입니다. 자유도는 n - k - 1이고, 여기서는 단순 회귀 분석이므로 독립변수가 1개라서 k는 1, 샘플 수가 10이니까 n은 10입니다. 따라서 자유도는 10 - 1 - 1로 8이 됩니다.


이제 자유도가 8이 나왔으니 오차항의 분산 추정량은 오차 제곱합 20을 자유도 8로 나누면 되고, 계산하면 2.5가 됩니다.


그래서 정답은 2.5입니다.




문제 32: 다중 공정성
image8.jpg?type=w966 [문제 32 화면]

32번. 다중 공선성 문제가 발생했을 때 해결 방법으로 가장 거리가 먼 것을 고르는 문제입니다. 다중 공선성 문제가 발견됐다는 건 변수들끼리 서로 상관성이 너무 높아서 분석에 영향을 준다는 뜻이고, 그래서 그 문제를 해결해야 한다는 얘기입니다. 이런 문제를 해결하는 방법으로는 라쏘, 리지, 엘라스틱넷 같은 방법들이 있습니다.


그런데 로지스틱 회귀는 아닙니다. 로지스틱 회귀는 말 그대로 범주형 종속 변수를 분류·예측하는 모델이지, 다중 공선성 문제를 해결하기 위한 방법은 아닙니다. 그래서 1번, 2번, 3번처럼 라쏘, 리지, 엘라스틱넷이 나왔을 때는 다중 공선성 문제의 해결 방법으로 볼 수 있지만, 로지스틱 회귀는 해당하지 않습니다.


문제 자체는 쉬운 편이지만, 결과적으로 라쏘, 리지, 엘라스틱넷 이 세 가지에 대해서는 각각 특징을 알고 있어야 합니다. 라쏘는 L1 규제를 적용해서 회귀 계수의 절댓값 합에 페널티를 부여하는 방식이고, 불필요한 변수의 계수를 아예 0으로 만들어 버립니다. 계수가 0이 되면 해당 변수는 제거되는 효과가 나는 거죠.


리지는 L2 규제를 적용하는 방식으로, 라쏘는 L1, 리지는 L2라고 외우시면 됩니다. 리지는 회귀 계수의 제곱합에 페널티를 부여해서 계수의 크기를 줄이지만, 계수가 완전히 0이 되지는 않습니다. 그래서 라쏘와 리지는 매우 비슷하지만, 라쏘는 변수를 완전히 제거할 수 있고 리지는 그렇지 않다는 차이점이 있습니다.


엘라스틱넷은 이 두 가지 방식을 적절하게 조합한 방법입니다.



문제 33: 다중 공선성
image7.jpg?type=w966 [문제 33 화면]


33번. 다중 공선성에 대해 잘못 설명하고 있는 것을 고르는 문제입니다.


1번, 분산팽창계수(VIF)가 일반적으로 10을 초과하는 경우 독립변수 간 상관 구조가 과도하여 다중 공선성이 존재한다고 판단하는 것이 통상적이다라는 설명은 맞는 얘기입니다.


2번, 표본 규모가 충분히 커질수록 회귀계수 추정치의 변동량이 완화되므로 다중 공선성이 분석 결과에 미치는 영향력은 상대적으로 감소할 수 있다는 설명도 맞습니다.


3번, 다중 공선성이 존재하더라도 회귀계수의 분산은 불변하며 추정의 불안정성에는 영향을 미치지 않는다는 설명은 잘못된 설명입니다. 다중 공선성이 존재한다는 것은 회귀계수의 분산이 커진다는 뜻이고, 그 결과 추정이 불안정해집니다. 그런데 분산이 불변한다고 한 부분 자체가 틀린 말입니다.


해설을 보셔도 다중 공선성이 존재해도 회귀계수의 분산이 변하지 않는다는 설명은 잘못됐다고 나와 있습니다. 실제로는 회귀계수의 분산이 오히려 커지고, 추정의 불안정성에도 큰 영향을 미칩니다. 그래서 3번은 읽다 보면 뭔가 이상하고 거짓말처럼 느껴지는 보기입니다. 다중 공선성에 대한 개념을 잘 몰라도 3번은 비교적 쉽게 걸러낼 수 있는 보기입니다. 마지막으로 독립변수들 사이의 강한 선형 의존 관계는 다중 공선성의 핵심적인 원인으로 간주된다는 설명도 맞는 얘기입니다.


따라서 정답은 3번입니다.



문제 34: 회귀분석
image10.jpg?type=w966 [문제 34 화면]


34번. 아래는 칼리지 데이터를 활용해서 사립학교 여부와 여러 변수를 이용해 졸업률을 예측한 회귀 분석 결과이고, 이 중에서 잘못 설명하고 있는 것을 고르는 문제입니다. 이런 문제는 처음 보면 좀 복잡해 보이는데, 보기를 하나씩 뜯어보면 생각보다 어렵지 않게 풀 수 있습니다. 1번부터 보면 모형이 통계적으로 유의하지만 설명력이 낮아 실제 데이터의 변동을 충분히 설명하지 못할 수 있다는 설명입니다.


통계적으로 유의하다는 건 p-value를 보면 되는데, 여기서 p-value가 2e-16 정도로 0.05보다 훨씬 작기 때문에 통계적으로 유의한 건 맞습니다. 그다음 설명력이 낮다는 건 결정계수, 즉 R-squared 값을 보면 되는데 R-squared 값이 0.2419로 낮은 편이기 때문에 설명력이 제한적이라는 해석도 타당합니다. 그래서 1번은 맞는 설명입니다.


2번은 사분위수 범위를 활용해 이상치를 판단할 때 Personal 변수에 이상치가 있다는 설명인데, Personal 변수의 요약 통계를 보면 최소값이 250, Q1이 850, 중앙값이 1200, 평균이 1341, Q3가 1700, 최대값이 6800입니다. 여기서 IQR은 1700 - 850으로 850이고, 이를 이용해 상한값과 하한값을 계산하면 범위를 벗어나는 값이 존재합니다. 최대값 6800도 범위를 벗어나고 최소값 250도 벗어나기 때문에 이상치가 존재한다고 볼 수 있어서 2번도 맞는 설명입니다. 다만 이 보기는 판단하려면 직접 계산을 해야 해서 조금 까다로운 편입니다.


3번을 보면 사립학교가 공립학교보다 졸업률이 낮다고 설명하고 있는데, 회귀 분석 결과에서 PrivateYes 변수의 계수 Estimate 값을 보면 약 6.81입니다. 이 값이 양수라는 건 사립학교가 공립학교보다 졸업률이 약 6.8% 더 높다는 의미이기 때문에, 사립학교가 공립학교보다 졸업률이 낮다는 설명은 반대입니다. 그래서 3번이 틀린 설명입니다.


4번은 졸업률에 가장 큰 영향을 미치는 변수는 사립학교 여부라는 설명인데, 다른 변수들의 계수 값이 0.0052, -0.0037 정도로 매우 작은 반면 PrivateYes의 계수는 6.81로 가장 크기 때문에 졸업률에 가장 큰 영향을 미친다고 해석하는 게 맞습니다. 그래서 4번도 맞는 설명이고, 최종적으로 잘못 설명한 것은 3번입니다.


이런 유형의 문제는 조금 까다롭긴 하지만 교재에 회귀 결과 해석하는 부분을 한번 천천히 읽어보면 도움이 되고, 유튜브에도 회귀 결과 해석을 자세히 설명해주는 강의들이 있으니 이해가 잘 안 되면 참고해서 보시는 걸 추천드립니다.




문제 35: 다중회귀분석
image9.jpg?type=w966 [문제 35 화면]


35번. 아래는 내장 데이터인 mtcars를 이용한 다중회귀분석 수행 결과이고, 이 중에서 결과를 잘못 해석한 것은 무엇인가를 묻는 문제입니다. 빠르게 한 번 훑어보겠습니다.


1번을 보면 위 회귀분석은 HP와 WT를 독립변수로 활용한다는 설명인데, 실제 결과표를 보면 HP와 WT가 독립변수로 들어가 있고 Estimate 값도 각각 -0.03, -3.2 정도로 제시되어 있습니다. HP는 마력, WT는 차량 무게를 의미하고 이 두 변수가 연비인 MPG에 어떤 영향을 미치는지를 분석한 회귀모형이기 때문에 1번 설명은 맞는 말입니다.


2번은 회귀모형의 p-value 값이 0.05보다 작아 통계적으로 유의하다는 설명인데, 결과 하단을 보면 p-value가 3.768e-11로 0.05보다 훨씬 작기 때문에 모형 전체가 통계적으로 유의하다는 해석도 맞습니다.


3번을 보면 WT는 통계적으로 유의하지 못하므로 최종 회귀식은 MPG = 29 - 0.03HP 와 같이 WT를 제거해야 한다는 식으로 설명하고 있는데, 여기서 이 해석이 잘못되었습니다. 회귀식에서 각 변수 앞에 곱해지는 값은 해당 변수의 회귀계수 Estimate 값이고, 결과표에는 HP와 WT 모두 포함된 상태로 추정된 회귀계수가 제시되어 있습니다. WT가 통계적으로 유의하지 않다는 사실 자체는 맞을 수 있지만, 그렇다고 해서 최종 회귀식에서 해당 변수를 단순히 제거하는 것은 잘못된 해석입니다. 변수 제거 여부는 추가적인 모형 진단과 재분석 과정을 거쳐 결정해야 하고, 단순히 유의수준만으로 바로 제외할 수는 없습니다. 이걸 묻기 위해 출제자가 3번 지문을 만든 거고, 생각보다 그냥 넘기면 헷갈릴 수 있는 문제입니다.


통계적으로 유의하지 않다고 해서 회귀식 전체에서 완전히 배제해도 되는지를 한 번 더 생각해보면 안 된다는 결론이 나오죠.


그래서 정답은 3번입니다.



문제 36: 시계열
image2.jpg?type=w966 [문제 36 화면]


36번. 다중 시계열 분석에 관한 설명으로 적절하지 않은 것은 무엇인가를 묻는 문제입니다. 시계열 분석 문제고요.


1번을 보면 시계열 자료가 정상성을 만족할 경우 자기회귀 이동평균 모형을 적용하여 모형을 적합할 수 있다는 설명인데, 정상성을 만족하는 시계열에 ARMA 모형을 적용하는 건 맞는 얘기입니다. 그래서 1번은 틀린 설명은 아닙니다.


2번을 보면 정상성이 확인되지 않으면 차분이나 변환 등을 통해 정상성을 확보한 후 분석을 진행한다는 설명인데, 이것도 시계열 분석의 기본적인 전처리 과정이기 때문에 맞는 설명입니다.


3번은 이상치가 확인되면 제거하거나 대체하는 등 적절한 전처리를 수행한 후 분석을 진행하는 것이 일반적이라는 내용인데, 이것 역시 맞는 얘기죠.


4번을 보면 백색잡음은 평균과 분산이 일정하고 시점에 따른 상관이 존재하지 않는 비정상 시계열이라고 설명하고 있는데, 여기서 잘못된 부분이 나옵니다. 백색잡음은 평균과 분산이 일정하고 시점 간 자기상관이 존재하지 않는 시계열로, 비정상 시계열이 아니라 정상 시계열입니다.


따라서 백색잡음을 비정상 시계열이라고 설명한 4번이 틀린 설명이 되고, 정답은 4번입니다.





문제 37: 비선형적 관계
image1.jpg?type=w966 [문제 37 화면]


37번. 두 변수의 비선형적 관계를 분석하는데 사용할 수 있는 지표로 가장 적절한 것은 무엇인가를 묻는 문제입니다. 여기서 핵심은 비선형적 관계가 뭐냐는 거예요. 비선형적 관계라는 건 두 변수 간의 관계가 직선 형태로 설명되지 않는다는 뜻이죠. 즉 선형 상관관계가 아니라는 겁니다.


이런 경우에 사용하는 대표적인 지표가 바로 스피어만 상관계수입니다.


스피어만은 두 변수의 실제 값이 아니라 순위를 기반으로 상관관계를 측정하는 비모수적 지표예요. 그래서 데이터가 정규성을 따르지 않거나, 관계 형태가 선형이 아닌 경우에도 사용할 수 있습니다. 특히 서열척도나 순위 데이터에서 많이 쓰이고요.


스피어만 상관계수 값이 1에 가까울수록 두 변수의 순위가 비슷하게 증가하거나 감소한다는 의미입니다. 중요한 포인트는 스피어만은 선형 관계를 전제로 하지 않는다는 거예요. 그래서 비선형적 관계를 분석할 때 가장 적절한 지표가 스피어만이다 이렇게 바로 연결해서 생각하시면 됩니다.


시험에서는 그냥 비선형적 관계 나오면 스피어만, 선형적 관계 나오면 피어슨 이렇게 짝으로 외워버리시면 됩니다 생각하지 말고 바로 찍을 수 있게요.



문제 38: ARIMA 모형
image4.jpg?type=w966 [문제 38 화면]


38번. 다중 ARIMA 모형에 대한 설명으로 적절하지 않은 것을 묻는 문제입니다. 시계열 모형 관련 문제죠.


1번 보기를 보면 비정상 시계열이라 하더라도 먼저 자기회귀 차수를 선택한 후 필요에 따라 차분 차수를 적용하는 방식으로 모형을 구성한다고 되어 있는데 이 순서가 잘못된 설명입니다.


ARIMA 모형에서는 비정상 시계열을 그대로 두고 AR이나 MA 차수를 먼저 정하지 않아요. 가장 먼저 해야 할 것은 차분입니다. 비정상 시계열을 정상 시계열로 만들기 위해 차분을 먼저 수행하고 정상성이 확보된 이후에 자기회귀 차수와 이동평균 차수를 결정하는 게 올바른 절차입니다. 즉 차분이 가장 먼저고 그다음이 AR 차수와 MA 차수 결정이에요. 그래서 1번은 순서를 거꾸로 설명하고 있어서 틀린 보기입니다.


나머지 2번 3번 4번은 ARIMA 모형의 일반적인 특성과 설명에 부합하는 내용이기 때문에 모두 맞는 설명이고 정답은 1번입니다.



문제 39: 로지스틱 회귀분석
image3.jpg?type=w966 [문제 39 화면]


39번 문제입니다 R 결과 해석 문제예요 내장 데이터인 default 데이터를 사용해서 연체 여부를 예측하기 위한 로지스틱 회귀 분석 결과입니다 로지스틱 회귀 분석은 범주형 종속변수를 예측하는 모형이죠 그래서 이게 로지스틱 회귀라는 걸 알고 결과를 보면 됩니다 문제는 해석을 잘못한 것을 고르는 거예요


먼저 밸런스가 증가할수록 연체 가능성이 높아진다 이건 맞는 설명입니다 밸런스 변수의 회귀계수를 보면 5.737로 양수이고 값도 큽니다 회귀계수가 크다는 건 연체 여부에 미치는 영향이 크다는 의미예요 그래서 밸런스가 커질수록 연체 가능성이 높아진다고 해석할 수 있습니다


그다음 학생의 연체율이 비학생보다 낮다 이건 무엇을 보면 알 수 있냐면 studentYes의 회귀계수를 보면 됩니다 에스티메이트 값이 -6.4682로 음수예요. 마이너스 값이라는 건 학생일 경우 연체 가능성이 낮아진다는 의미입니다 값 자체도 굉장히 크기 때문에 영향도도 큽니다 그래서 학생은 비학생보다 연체 가능성이 훨씬 낮다고 볼 수 있습니다.


3번 income 변수에 대한 설명을 보면 인컴의 p밸류가 0.71입니다 오른쪽 PR값을 보면 0.7115로 0.05보다 훨씬 큽니다 그래서 소득 인컴 변수는 연체 여부에 통계적으로 유의미한 영향을 미치지 않는다고 해석하는 게 맞습니다 이 설명은 맞는 얘기예요


4번 학생과 연체 여부는 서로 독립이다 라는 설명이 틀렸습니다. 왜냐하면 student 변수의 p밸류를 보면 0.00619로 유의수준 0.05보다 훨씬 작습니다 즉 학생 여부는 연체 여부에 통계적으로 유의미한 영향을 미친다는 의미예요 그래서 학생과 연체 여부는 서로 독립이 아니고 관계가 있다고 봐야 합니다.


따라서 잘못 해석한 것은 4번입니다



문제 40: 시걔열 자료의 정상성 조건
image5.jpg?type=w966 [문제 40 화면]

40번. 다중 시계열 자료의 정상성 조건으로 적절하지 않은 것을 고르는 문제예요 시계열 자료의 정상성은 시험에서 정말 자주 나옵니다 시계열 자료가 어떤 조건을 만족해야 정상성을 가진다고 할 수 있는지 이걸 묻는 유형이에요


1번 시계열의 자기상관계수가 시점의 흐름에 따라 체계적으로 감소하는 특성을 보인다 이 설명이 틀렸습니다 왜냐하면 정상성이란 시계열의 통계적 성질이 시간의 흐름에 따라 변하지 않는 상태를 말합니다 즉 평균이 일정하고 분산이 시간에 의존하지 않아야 합니다


정상시계열에서는 공분산이나 자기상관이 특정 시점 자체에 의존하는 게 아니라 두 시점 사이의 시차에만 의존합니다 그런데 1번에서는 시점의 흐름에 따라 체계적으로 감소한다고 했죠 이건 이미 시간에 따라 성질이 변하고 있다는 의미입니다 그래서 정상시계열이 아니라 비정상 시계열의 특징입니다


그래서 1번이 틀린 설명이고요. 나머지 2번 시계열의 분산이 일정하다 3번 평균이 일정하다 4번 공분산이 시차에만 의존한다 이런 내용들은 모두 정상성의 조건에 해당하는 맞는 설명입니다


이 부분이 헷갈리면 앞쪽 시계열 이론 부분을 다시 한번 꼭 보세요 시계열 문제는 거의 매 시험마다 나오고 특히 정상성 여부를 묻는 문제는 빠지지 않고 출제됩니다.



https://www.youtube.com/watch?v=RzgmTic5Dkg&list=PLc91J-KoFBX9baeQ2NoKV6MTwnsLHzVqe

keyword
작가의 이전글[ADsP 3과목] 47회 기출문제정리(21번~30번)