[ADsP 3과목] 47회 기출문제정리(21번~30번)

유튜브 기출문제풀이 영상 기반

by 위키북스

남은 기간 동안 막판 정리는 결국 기출문제 중심 복습이 가장 효율적인 것 같아서,

이번에는 ADsP 47회 3과목 1장(기초통계) 기출문제 풀이 영상 기반으로 시험에 자주 나오는 핵심 내용 위주로 정리해봤습니다.


이 글은 기출문제를 하나씩 다시 보면서

✔ 기초통계에서 어떤 개념을 주로 묻는지

✔ 평균·분산·확률·가설검정 등에서 헷갈리기 쉬운 포인트는 무엇인지

✔ 선택지에서 자주 나오는 함정 표현은 어떤 것인지

를 중심으로 정리한 기록입니다.


특히 3과목 1장은 계산 문제보다는 개념을 정확히 알고 있는지를 묻는 문제가 많아서, 시험 직전에 빠르게 훑어보기 좋게 이론서보다는 기출에서 실제로 어떻게 출제됐는지에 초점을 맞췄습니다.


앞서 정리한 2과목 내용과 함께 복습용으로 이어서 보시면 전체 흐름 잡는 데 도움이 될 것 같습니다.





문제 21: 자료의 척도
image6.jpg?type=w966 [문제 21 화면]


21번. 다음 중 자료의 척도 중 하나로 절대적 기준 0이 존재하는 자료의 척도는 무엇이냐는 문제입니다.

0이 존재하느냐, 존재하지 않느냐로 척도들을 구분하는 거죠.


이 문제의 정답은 4번입니다. 비율 척도는 절대적 기준점인 0이 존재합니다.

그래서 비율 척도에서는 덧셈, 뺄셈, 곱셈, 나눗셈이 모두 가능하고, 무게, 길이, 시간, 온도(캘빈)과 같이 0이 완전한 부재를 의미하는 자료들이 여기에 해당합니다.


반대로 절대적인 기준으로서의 0이 존재하지 않는 경우도 있습니다. 예를 들어 등간 척도나 서열 척도에서의 0은, 계산상 0일 수는 있어도 절대적으로 없는 상태를 의미하지는 않습니다.


그래서 절대적 기준 0이라는 개념은, 실제로 완전한 부재를 의미하는 값들을 말하고, 이런 것들을 모두 모아서 비율 척도라고 부릅니다.


나머지 척도들을 보면,

명목 척도는 단순 분류의 척도로 크기나 순서의 개념이 없고,

서열 척도는 순서 개념은 있지만 각 값 사이 간격의 크기가 정확하지 않습니다.

등간 척도는 값의 간격은 동일하지만 절대적인 0이 없기 때문에 비율 비교는 불가능합니다.


그래서 정답은 4번이 되겠습니다.


*캘빈 온도(Kelvin, 기호: K)는 절대 온도(Absolute Temperature)를 측정하는 국제표준단위(SI)입니다. 영국의 물리학자 켈빈 경(Lord Kelvin)의 이름을 땄으며, 물질의 분자 운동이 완전히 멈추는 이론적인 최저 온도인 절대 영도(0 K)를 기준으로 합니다.



문제 22: 탐색적 데이터 분석의 특성
image8.jpg?type=w966 [문제 22 화면]


22번. 다중 탐색적 데이터 분석(EDA)의 특성으로 적절하지 않은 것을 고르는 문제입니다.

보기들을 하나씩 보겠습니다.


1번, 데이터의 분포 형태 및 중심 경향을 파악하여 주요 통계적 속성을 이해한다.

→ 맞는 얘기죠.


2번, 변수의 측정 척도나 단위 체계를 재정의하고 이상치 및 결측치를 식별·점검한다.

→ 이것도 EDA에 해당하는 맞는 설명입니다.


3번, 동일한 분석 결과의 도출 가능성을 검증하여 분석 절차의 재현성을 확보하는 단계이다.

말은 좋은 말인 것 같긴 한데, 딱 보면 자꾸 걸리는 게 있습니다.


“분석 결과의 도출 가능성을 검증한다”라는 단어가 나와요. 분석 결과를 내고, 그 결과를 검증하고, 재현성을 확보하는 단계는 보통 분석 과정의 거의 맨 마지막에 이루어지는 단계입니다. 그런데 탐색적 데이터 분석(EDA)은 가장 앞단계에서, “이 데이터가 도대체 어떻게 생겨 먹었지?” 하고 살펴보는 단계입니다. 그런데 여기서 분석 결과를 도출하고 그걸 검증한다는 건 말이 안 되죠. 그래서 이 보기, 즉 3번이 틀린 보기입니다.


4번, 시각적 탐색과 요약 통계량을 활용하여 데이터를 직관적으로 해석하는 데 중점을 둔다.

→ 이건 EDA에 대한 맞는 설명입니다.


그래서 정리하면, EDA는 앞단계에서 데이터의 전체적인 구조와 특성을 파악하는 과정이고, 3번 보기처럼 뒷단계에서 이루어지는 재현성 검증이나 결과 도출 가능성 검증은 EDA의 특성이 아닙니다.


따라서 적절하지 않은 것은 3번입니다.




문제 23: 데이터의 사분위수
image7.jpg?type=w966 [문제 23 화면]


23번. 다음은 어떤 데이터의 사분위수(4분위수)를 나타낸 것이고, 이상값의 하한값과 상한값을 올바르게 계산한 것을 고르는 문제입니다.


즉, 이상값을 찾는 문제죠. 이 문제는 IQR만 구하면 끝나는 문제입니다.

IQR은 뭐냐면, Q3 - Q1입니다.

여기서 Q3는 뭐냐면, 서드 Q라고 돼 있는 12가 되겠고요.

그다음에 Q1은 뭐예요? 퍼스트 Q라고 돼 있는 4입니다.

그래서 12 - 4 = 8, 이렇게 해서 일단 IQR을 먼저 구합니다. 즉, IQR은 8입니다.


이제 IQR이 나왔으니까, 이걸 바탕으로 하한값을 구하면 됩니다.

하한값은 Q1 - 1.5 × IQR이죠.

그래서 1.5 × 8을 하면 12가 나오고, Q1이 4니까 4 - 12 = -8이 됩니다. 그래서 하한값은 -8입니다.


반대로 상한값Q3 + 1.5 × IQR입니다. IQR이 8이었고, 1.5배하면 12, Q3가 12니까 12 + 12 = 24가 됩니다.


그래서 정리하면, 하한값은 -8, 상한값은 24입니다.


따라서 정답은 1번이 됩니다. 이 문제는 그냥 계산 문제고요, IQR은 Q3 - Q1이다 이거 하나만 기억하시면 됩니다.


그다음에 1.5를 곱해서 Q1에서는 빼주고, Q3에서는 더해주면 하한값, 상한값이 나옵니다.

너무 어렵게 생각하지 마세요.





문제 24: 1종 오류와 2종 오류
image10.jpg?type=w966 [문제 24 화면]


24번. 다음은 1종 오류와 2종 오류에 대한 설명으로 잘못된 것을 고르는 문제입니다.


먼저 1번, 1종 오류는 실제로 귀무가설이 참인데도 불구하고 이를 잘못 기각하는 오류를 의미한다.

→ 맞는 설명입니다.


즉, 실제로 귀무가설이 참인데 잘못 기각한 경우가 1종 오류입니다.


2번, 2종 오류는 실제로 대립가설이 참임에도 불구하고 귀무가설을 기각하지 못하는 오류를 말한다.

→ 이것도 맞는 설명이고, 이게 2종 오류입니다.


3번, 유의 수준은 1종 오류의 발생을 허용하는 최소 확률을 의미한다.

여기서 틀렸습니다.


1종 오류의 발생을 허용한다는 설명 자체는 맞는데, ‘최소 확률’이라는 표현이 틀렸습니다.

유의 수준은 귀무가설이 참일 때 이를 잘못 기각할 위험을 어느 정도까지 허용할 것인가에 대한 기준입니다.

어떻게 보면 최대 허용치, 마지노선에 해당하는 개념이죠. 그래서 최소 확률이라는 표현 자체가 잘못돼서 이 보기가 틀린 겁니다. 굉장히 맞는 말처럼 보이는데, 이 ‘최소’라는 단어 때문에 틀린 보기입니다.


마지막으로 4번, 유의 수준이 너무 작으면 p-value가 유의 수준보다 커져서 대립가설이 참임에도 불구하고 귀무가설을 기각하지 못하는 문제가 발생한다.

→ 이것도 맞는 설명입니다.


유의 수준을 너무 작게 잡으면 기각을 잘 못 하게 됩니다. 그래서 보통 유의 수준은 0.05를 많이 쓰고, p-value가 유의 수준인 0.05보다 작으면 보통 유의하다고 판단합니다. 이 24번 문제는 유의 수준, 귀무가설, 대립가설에 대한 기본적인 이해가 없으면 시험장에서 굉장히 헷갈리기 쉬운 문제입니다.


읽어보면 난이도가 막 높은 것 같지는 않은데, 한번 헷갈리기 시작하면 계속 헷갈리거든요.

시험장 들어가기 전에 꼭 한 번 제대로 정리하고 가시길 바랍니다.



문제 25: 표본 조사 과정
image9.jpg?type=w966 [문제 25 화면]


25번. 다음은 표본 조사 과정에서 발생할 수 있는 오류에 대한 설명으로 잘못된 것을 고르는 문제입니다.


1번, 비표본 오차는 표본 추출이 정교함으로 완전히 제거하거나 최소화할 수 있다.


1번부터 틀렸습니다.


비표본 오차가 뭐냐면, 설문 문항 자체가 잘못됐거나, 응답자가 설문 문항을 제대로 이해하지 못하고 응답해서 발생하는 오류 같은 것들을 말합니다. 이런 비표본 오차는 표본 추출을 아무리 정교하게 한다고 해도 완전히 제거하거나 최소화하는 게 불가능합니다. 그래서 비표본 오차는 어느 정도 발생할 수 있다는 걸 전제로 하고, 그 오차까지도 염두에 두고 분석을 해야 됩니다.


2번, 표본 편의는 표본 선정 과정에서 특정 집단이 과대 또는 과소 대표되어 모집단의 특성을 왜곡하는 문제를 의미한다.

→ 이건 맞는 설명입니다. 이런 걸 표본 편의라고 부릅니다.


3번, 모집단의 모수를 표본을 통해 추정할 때 표본 오차와 비표본 오차 모두 발생할 수 있다.

→ 이것도 맞는 설명입니다.


4번, 표본 조사에서는 무응답, 응답 편향, 유도 질문 등으로 인한 비표본 오차를 최소화하기 위한 설문 설계와 관리가 필요하다.

→ 이것도 맞는 얘기입니다.


따라서 정답은 1번입니다. 비표본 오차는 응답자가 잘못 응답해서 생기는 문제이기 때문에, 표본 추출을 정교하게 한다고 해서 완전히 제거하거나 최소화할 수 있는 게 아닙니다. 그래서 정답은 1번입니다.



문제 26: 데이터의 분포 그래프


image2.jpg?type=w966 [문제 26 화면]


26번. 아래는 어떤 데이터의 분포를 그래프로 나타낸 것이고, A, B, C에 해당하는 값을 올바르게 짝지은 것을 고르는 문제입니다. 결국 이 문제는 꼬리가 오른쪽으로 긴지, 왼쪽으로 긴지를 묻는 문제입니다.


제시된 그림을 보면 오른쪽으로 꼬리가 긴 분포입니다. 오른쪽으로 꼬리가 길다는 건, 데이터가 중앙에 딱 모여 있지 않고 우측으로 편향된 분포라는 뜻이고, 보통 우측으로 긴 비대칭 분포라고 부릅니다.


이제 A를 보면, 그래프에서 가장 높은 지점이죠. 이 지점이 바로 최빈값입니다.


최빈값이라는 건 가장 빈도가 많은 값, 즉 데이터가 가장 많이 몰려 있는 지점입니다. 그래프에서 제일 높다는 건, 그만큼 데이터가 많다는 뜻이겠죠. 오른쪽으로 꼬리가 긴 분포에서는, 가운데에서 가장 높은 부분이 최빈값이 됩니다.


그다음에 C를 보면, 가장 오른쪽에 위치해 있습니다. 이 값이 바로 평균값입니다. 평균값은 항상 꼬리가 긴 쪽으로 끌려가게 되어 있습니다.


그래서 문제를 풀 때, 오른쪽으로 꼬리가 길면 평균값은 항상 오른쪽, 즉 꼬리 쪽에 있다고 생각하시면 됩니다.


그럼 나머지 하나는 뭐겠어요? 중앙값이겠죠.


정리하면,

A: 최빈값

B: 중앙값

C: 평균값


이렇게 찾으면 굉장히 쉽습니다. 해설을 보면, 제시된 그래프는 오른쪽으로 꼬리가 긴 비대칭 분포라고 나와 있고,


제가 설명한 내용이 그대로 나와 있습니다. 그리고 반대로, 아래에 제가 하나 더 넣은 그림을 보면, 이번에는 왼쪽으로 꼬리가 긴 분포입니다.


아까 말했죠? 평균값은 항상 꼬리가 긴 쪽으로 간다. 그래서 왼쪽으로 꼬리가 길면, 셋 중에서 꼬리에 가장 가까운 값이 평균값입니다. 가장 높은 지점은 당연히 최빈값, 그 사이에 있는 값이 중앙값입니다.


그래서 이 유형의 문제는 원칙 하나만 기억하시면 됩니다.

꼬리가 어느 쪽으로 긴지만 보고, 꼬리 쪽에 가장 가까운 값이 평균값이다.

오른쪽이든 왼쪽이든 똑같습니다.

이거 기억하시면 이런 문제는 다 맞추실 수 있을 거예요.




문제 27: 표본 추출 방법
image1.jpg?type=w966 [문제 27 화면]

27번. 다음은 표본 추출 방법과 그 설명잘못된 것을 고르는 문제입니다.


1번, 계통 추출은 개체에 번호를 부여하고 K 간격으로 나눈 후 각 집단에서 임의로 추출한다.

이게 틀렸습니다.


계통 추출에서 개체에 번호를 부여하는 건 맞습니다. 하지만 그다음이 틀렸습니다. 계통 추출은 K 간격으로 나눈 후 임의로 추출하는 방식이 아닙니다. 계통 추출은 모집단의 각 개체에 번호를 부여한 뒤, 첫 번째 표본만 임의로 선택하고, 그 이후에는 일정한 간격 K마다 표본을 하나씩 추출하는 방식입니다.


예를 들어 K가 5라면, 5, 10, 15, 이런 식으로 일정한 순서를 가지고 뽑는 거죠.

그래서 계통 추출은 임의 추출이 아니라, 규칙적인 간격을 기준으로 하는 추출 방법입니다.


따라서 1번 설명에서처럼 “각 집단에서 임의로 추출한다”라는 표현이 틀렸습니다.

나머지 보기인 층화 추출, 군집 추출, 단순 임의 추출에 대한 설명은 모두 맞는 설명입니다.


이 문제는 표본 추출 방법의 정의만 정확히 알고 있으면 어렵지 않은 문제고요, 표본 추출 방법들은 한 번씩 꼭 읽어보고,

“아, 시험에 이런 식으로 나오는구나” 정도로 정리해 두시면 됩니다.




문제 28: 가설 검정 통계적 유의성
image4.jpg?type=w966 [문제 28 화면]


28번. 다음은 가설 검정에서 통계적 유의성에 대한 설명으로 적절하지 않은 것을 고르는 문제입니다.

1번, P-value가 클수록 귀무가설을 기각할 가능성이 높아진다.

1번부터 바로 적절하지 않은 설명이 나옵니다.



p-value가 크다는 건 무슨 뜻이냐면, 오히려 통계적으로 유의하지 않다는 의미입니다. p-value는 작을수록 통계적으로 유의미한 거죠. 보통 p-value가 0.05보다 작을수록, 통계적으로 유의미하다고 판단하고, 그만큼 귀무가설을 기각할 가능성도 높아집니다.



그래서 1번은 완전히 반대로 설명한 보기입니다. 해설을 보면, p-value는 귀무가설이 참일 때, 현재 관측된 통계량보다 더 극단적인 값이 나타날 확률을 의미합니다. 그래서 p-value가 작을수록 귀무가설을 기각할 근거가 더 강해지고, 통계적으로 유의하다고 판단합니다.


즉, 1번 보기는 p-value에 대한 설명을 정반대로 써 놓은 것이고, 따라서 적절하지 않은 것은 1번입니다.

나머지 보기는 p-value와 통계적 유의성에 대한 올바른 설명입니다.



문제 29: 박스 플롯
image3.jpg?type=w966 [문제 29 화면]

29번 문제. 다음은 서로 다른 종류의 수면제를 복용한 두 그룹에 대해 수면 시간 증가량을 상자그림(Box plot)으로 시각화한 것이고, 잘못 설명하고 있는 것을 고르는 문제입니다.


1번, 그룹 2는 왼쪽으로 긴 꼬리를 가지고 있다. 먼저 그룹 2를 볼게요.

그룹 2는 왼쪽이 길까요, 오른쪽이 길까요?


이 상자그림은 좌우가 아니라 위아래로 표현돼 있기 때문에, 이걸 제대로 해석할 수 있는지를 묻는 문제입니다.

지금 그림을 보면, 위쪽 수염이 더 길고 아래쪽은 짧습니다.

이걸 어떻게 판단하면 되냐면, 그래프를 시계 방향으로 한 번 회전해서 생각해 보세요.

시계 방향으로 회전하면, 길게 늘어진 쪽이 오른쪽으로 가게 됩니다. 즉, 이 분포는 오른쪽으로 긴 꼬리를 가진 분포입니다.


그래서 해설에도 나와 있지만, 상단 수염이 더 길고 상자 위쪽이 넓게 퍼져 있으면 이는 오른쪽으로 치우친 분포입니다.


따라서 1번에서 말한 “그룹 2는 왼쪽으로 긴 꼬리를 가진다”라는 설명은 틀렸습니다.



나머지 보기들을 보면, 2번, 3번, 4번은 모두 맞는 설명입니다. 이상치가 없다는 건 어떻게 알 수 있냐면, 상자그림에서 수염 끝 바깥에 점으로 표시된 값들이 이상치인데, 이 그림에서는 그런 점이 하나도 없습니다. 그래서 이상치가 없다는 설명은 맞습니다.


또, 그룹 2가 그룹 1보다 효과적이라고 볼 수 있으나 통계적으로 유의한지는 알 수 없다. 이 설명도 맞습니다. 왜냐하면 그룹 2의 중앙값이 그룹 1보다 더 높기 때문에, 평균적으로 수면 시간 증가 효과가 더 커 보이긴 합니다. 그래서 “효과적으로 보인다”라고 말할 수는 있습니다. 하지만 이 그림만 가지고 통계적으로 유의한지 여부는 판단할 수 없습니다. 그건 p-value 같은 검정 결과가 나와야 알 수 있기 때문입니다.


마지막으로 4번, 그룹 1의 최소 25%는 수면 시간이 감소했다. 그룹 1의 1사분위수(Q1)를 보면, 0보다 아래, 즉 -1 근처까지 내려가 있습니다. y축이 수면 시간 증가량이기 때문에, 이건 최소 25%의 사람들은 수면 시간이 오히려 감소했다는 뜻입니다.


그래서 이 설명도 맞습니다. 정리하면, 2번, 3번, 4번은 모두 맞는 설명이고, 잘못된 설명은 1번입니다.





문제 30: 주성분
image5.jpg?type=w966 [문제 30 화면]


30번. 다음은 주성분 분석(PCA)에 대한 설명으로 잘못된 것을 고르는 문제입니다.


1번, 주성분 분석은 회귀 분석 수행 시 발생할 수 있는 다중공선성 문제를 완화하는 데 활용할 수 있다.

→ 맞는 설명입니다.


회귀 분석을 할 때 다중공선성이 발생하면 변수들 간의 영향을 통제해야 되는데,

이때 어떤 변수가 중요한지, 어떤 변수가 덜 중요한지를 판단하는 데 주성분 분석을 활용할 수 있습니다.


2번, 기존 변수들 간의 선형 결합을 통해 새로운 주성분 변수를 생성하는 차원 축소 기법이다.

→ 이것도 맞는 설명입니다.

기존 변수들을 선형 결합해서 새로운 주성분을 만들어 냅니다.


3번, 고차원의 데이터를 저차원 공간으로 투영하여 정보의 손실을 최소화하면서 분석의 효율성을 높인다.

→ 이것도 맞는 설명입니다.


주성분 분석은 정보 손실을 최소화하면서 분석 효율을 높이기 위한 기법입니다.


4번, 제1 주성분과 제2 주성분은 서로 직교하지 않으며 높은 상관성을 가진다.

이게 잘못된 설명입니다.


주성분들은 서로 직교하도록 정의되어 있습니다. 즉, 제1 주성분과 제2 주성분은 서로 직교하고, 그 결과 상관성이 존재하지 않도록 만들어집니다. 그래서 “서로 직교하지 않으며 높은 상관성을 가진다”라는 설명은 틀린 말이 됩니다. 해설에도 나와 있듯이, 주성분들은 서로 직교하기 때문에 상관성이 존재하지 않습니다.


따라서 잘못된 것은 4번입니다.






keyword
작가의 이전글ADsP 47회 2과목 기출문제 정리