[ADsP 3과목] 47회 기출문제정리(41번~50번)

by 위키북스

남은 기간 동안 막판 정리는 결국 기출문제 중심 복습이 가장 효율적인 것 같아서,


이번에는 ADsP 47회 3과목 3장(분류·군집·연관분석) 기출문제 풀이 영상을 기반으로 시험에 자주 나오는 핵심 내용 위주로 정리해봤습니다.


이 글은 녹화된 해설 강의를 그대로 다시 보면서

✔ 각 알고리즘의 개념을 어떻게 묻는지

✔ 보기에서 자주 등장하는 함정 표현은 무엇인지

✔ 계산 문제는 어떤 방식으로 접근해야 빠른지

를 중심으로 복원·정리한 내용입니다.


특히 3과목 후반부는 모델·알고리즘 종류가 많아서 헷갈리기 쉬운데, 이론서 전체를 다시 보기보다는 기출에서 실제로 어떤 포인트를 중심으로 출제됐는지를 빠르게 훑는 데 목적을 두고 정리했습니다.


앞서 정리한 회귀분석/시계열 파트와 이어서 보시면 3과목 전체 흐름을 잡는 데 도움이 될 거예요. 시험 직전 가볍게 복습한다는 느낌으로 봐주시면 좋겠습니다.





문제 41: 소프트맥스 함수
image6.jpg?type=w966 [문제 41 화면]


41번. 다중 소프트맥스 함수의 수식으로 올바른 것은 무엇인가? 이런 문제 제일 싫죠? 비전공분들, 초심자분들 이런 문제 제일 싫어합니다. 어쩔 수 없어요. 이거는 그냥 이게 소프트맥스구나라고 알고 계셔야 돼요.


1번은 시그모이드고, 3번은 가우시안이고 이걸 다 공식을 외운다기보다는 형태적으로 그냥 외워두시면 됩니다. 형태적으로 이런 형태를 쓰는구나 정도. 이건 뭐 제가 문제 풀이하면서 세세하게 설명드릴 부분은 아니고요. 이런 공식이다라는 건 그냥 나오면 비전공자분들은 그냥 틀리셔도 됩니다. 괜찮아요.


이런 거 틀려도 합격하는 데 무 지장 없어요. 그냥 스트레스 받지 마시고 차라리 다른 쉬운 거 암기해서 하나 더 맞히는 게 더 좋습니다. 이런 거 아시는 분들은 어차피 다 푸실 거고요. 잘 모르시는 분들은 과감히 틀리셔도 됩니다. 지금 시간 많이 없기 때문에.


어쨌든 정답은 2번입니다. 소프트맥스 함수는 2번입니다.



문제 42: 앙상블 분석
image8.jpg?type=w966 [문제 42 화면]


42번. 다중 앙상블 분석에 대한 설명으로 적절하지 않은 것은 무엇인가? 앙상블 분석은 여러 개의 모델을 결합해서 성능을 높이는 방법이죠. 그래서 배깅도 있고 부스팅도 있고 랜덤포레스트도 있습니다.


1번. 배깅은 모집단으로부터 복원추출을 통해 부트스트랩 표본을 구성한 뒤 모델을 병렬로 학습시키고 최종 예측값을 다수결 방식으로 결정한다 → 이거 맞습니다. 배깅의 대표적인 특징이 병렬 학습 + 다수결입니다.


2번. 부스팅은 개별 모델이 모든 데이터에 동일한 가중치를 주도록 하여 모델을 구성한다 → 이게 좀 이상하죠. 가중치를 주는 건 맞는데 모든 데이터에 동일하게 주지 않습니다. 부스팅은 잘못 예측한 데이터에 더 높은 가중치를 부여해서 다음 모델이 그 오차를 보완하도록 만드는 방식이에요. 즉 틀린 것에 집중하는 구조지 동일 가중치가 아닙니다. 그래서 2번이 틀렸고요.


3번. 랜덤포레스트는 배깅 기법에 변수의 무작위 선택 과정을 추가한 방법이다 → 맞는 설명입니다.


4번. 앙상블은 대표적인 지도학습 기법 중 하나다 → 이것도 맞는 얘기고요.


그래서 정답은 2번입니다. 부스팅 설명이 잘못됐습니다.



문제 43: 함수
image7.jpg?type=w966 [문제 43 화면]


43번. 다음 문장에서 설명하는 함수는 무엇인가? 머신러닝과 딥러닝에서 매우 중요한 함수고 0과1사이의 확률을 표현한다 → 이거 시험에 굉장히 자주 나오면 시그모이드 함수입니다. S형태로 나오는 함수예요.


그래서 이거를 시그모이드 함수라고 부르는데 0과1사이의 값을 확률 형태로 표현해 주는 S자 형태의 곡선을 가지고 있습니다. 그래서 “0과1사이 확률” 이 단어가 나오면 무조건 시그모이드 찍으세요. 한 90% 이상 확률로 맞습니다.


그래서 이거 나오면서 또 한 가지 같이 나오는 게 로지스틱 회귀분석, 분류예측 이런 거 나올 때 시그모이드 연결됩니다. 다 연관성 있는 개념이에요. 그래서 이진 분류 문제랑 연결되고요. 로지스틱 회귀분석 맞는 말입니다.


정답은 2번입니다.



문제 44: 오분류표
image10.jpg?type=w966 [문제 44 화면]


44번. 분류모형 평가하기의 혼동행렬(오분류표) 가지고 계산하는 문제 → 굉장히 자주 나옵니다. 간단하게 짚고 넘어갈게요.


일단 민감도라는 거는 실제 1인 것 중에서 모델도 1로 맞게 예측한 비율을 의미합니다. 그래서 TP가 200인 거고 FN은 뭐예요? 실제값이 1인데 0으로 예측한 거 → 400인 거죠.


그래서 민감도 계산은 TP / (TP + FN) 입니다. 여기서는 200 / (200 + 400) → 200 / 600 → 0.33 정도 나오죠.


그래서 정답은 2번입니다.



문제 45: 혼합 분포 군집
image9.jpg?type=w966 [문제 45 화면]


45번. 다중 혼합분포 군집을 수행하기 위한 알고리즘으로 가장 적절한 것은 무엇인가?


혼합분포 군집이라고 하면 바로 떠올려야 되는 게 EM 알고리즘입니다. 왜냐면 혼합분포 군집 자체가 데이터가 하나의 분포가 아니라 여러 개 확률분포가 섞여 있다고 가정하고, 각 데이터가 어떤 분포에 속할 확률이 높은지를 추정하는 확률기반 군집 방법이기 때문이에요.


그래서 이때 사용하는 대표적인 추정 알고리즘이 바로 Expectation-Maximization(EM) 알고리즘입니다.


E단계에서 각 데이터가 특정 분포(군집)에 속할 확률을 계산하고, M단계에서 그 확률을 바탕으로 분포 모수를 다시 추정하는 과정을 반복하면서 최적의 군집을 찾아가는 방식이죠.


혼합분포 군집 = EM 알고리즘 → 이렇게 거의 세트처럼 외워두시면 됩니다.

나머지 1,2,4번 보기는 다른 군집/분석 알고리즘 설명이라서 해당되지 않고요.


그래서 정답은 EM 알고리즘입니다.



문제 46: K-평균 군집
image2.jpg?type=w966 [문제 46 화면]


46번. K군집을 수행하기 위한 적절한 K값을 찾기 위해 엘보 메소드를 사용해 그린 그래프를 보고 군집수를 고르는 문제입니다.


엘보 메소드는 말 그대로 급격히 감소하다가 완만해지는 ‘꺾이는 지점(Elbow)’을 찾는 거예요. 군집 수가 늘어날수록 SSE(오차제곱합)는 계속 줄어드는데, 어느 순간부터는 군집을 더 늘려도 감소폭이 크게 줄지 않죠. 그 지점 이전까지가 의미 있는 군집 증가라고 봅니다.


그래서 그래프를 보면 1 → 2 → 3 → 4까지는 감소폭이 꽤 큽니다. 그런데 K=4 이후부터는 감소폭이 완만해지죠. 5, 6 구간은 거의 평탄해지는 형태고요.


그래서 보통 판단 기준이 두 가지로 설명되는데

감소폭이 급격 → 완만으로 바뀌는 지점

수평에 가까워지기 직전 지점


둘 다 같은 의미고, 이 그래프에서는 그 지점이 K=4입니다.

따라서 최적 군집수는 4.




문제 47: 군집 분석
image1.jpg?type=w966 [문제 47 화면]


47번. 다중 군집분석에 대한 설명으로 잘못된 것은?


1번. DBSCAN은 군집 개수를 사전에 지정할 필요가 없고 밀도 기반의 비모수적 군집 방법이다

맞는 설명입니다. DBSCAN은 데이터 밀도가 높은 영역을 기준으로 군집을 형성하기 때문에 K값을 미리 정하지 않습니다.


2번. 혼합분포 모형은 데이터가 여러 개의 확률분포 가중합으로 이루어졌다고 가정하고, 각 데이터가 어떤 분포에 속할 확률을 기반으로 군집을 수행한다

맞는 설명입니다. 혼합분포 군집의 핵심 개념이 확률분포 가중합입니다.


3번. SOM은 고차원 데이터를 저차원으로 축소하면서 군집을 수행하고 시각화에도 활용할 수 있다

맞는 설명입니다. SOM의 대표 장점이 차원축소 + 시각화 동시 가능입니다.


4번. 입력 노드들이 군집에 일정하게 속할 수 있도록 파라미터를 조정한다

틀린 설명입니다. SOM은 군집을 균등하게 나누는 방식이 아니라 경쟁학습 기반으로 가장 유사한 노드가 승자가 되고, 그 이웃 노드들의 가중치를 함께 갱신하는 구조입니다. 따라서 '일정하게·균등하게 군집에 속하도록 조정한다'는 표현은 SOM의 특징과 맞지 않습니다.



따라서 정답은 4번입니다.



문제 48: 군집 분석
image4.jpg?type=w966 [문제 48 화면]


48번 문제. 다중 군집 분석에 관한 설명으로 잘못된 것은 무엇인가?


1번. 계층적 군집 분석은 데이터의 수만큼 군집으로 시작해서 점차 군집의 개수를 줄여 나가는 방법이다 → 계층적 군집 분석 설명 맞습니다. 처음에는 각 데이터가 하나의 군집으로 시작해서 병합해 나가는 방식이죠. 맞는 설명입니다.


2번. 개체들 간 유사성을 계산하기 위해 유클리드 거리, 맨해튼 거리, 민코프스키 거리 등을 활용한다 → 이것도 맞는 설명입니다. 군집 분석에서 거리 기반 유사도 계산에 대표적으로 쓰이는 척도들이죠.


3번. k-평균 군집에서 초기 k값은 결과에 영향을 미치지 않는다 → 이게 틀린 설명입니다. k-평균에서 초기 중심값(초기 k 설정 및 초기 중심 위치)은 군집 결과에 큰 영향을 미칩니다. 초기값에 따라 군집 결과가 달라질 수 있습니다. 그래서 여러 번 반복 실행하거나 k-means++ 같은 초기화 방법을 쓰기도 합니다.


4번. k-평균 군집은 비지도 학습 중 하나다 → 맞는 설명입니다. 정답(라벨) 데이터 없이 군집을 나누는 방법이니까 비지도 학습이죠.


따라서 정답은 3번입니다.



문제 49: 군집 분석
image3.jpg?type=w966 [문제 49 화면]


49번. 다음 설명이 의미하는 군집 분석 방법을 고르시오.


군집을 합병해 나갈 때 전체 군집 내 제곱오차합(SSE, SSC)의 증가량을 최소화하는 방향으로 군집을 병합한다 — 이 설명 나오면 바로 와드(Ward) 떠올리셔야 됩니다.


와드 방법은 계층적 군집분석의 병합식 방법 중 하나고요, 군집을 합쳤을 때 군집 내 분산이 얼마나 늘어나느냐를 기준으로 판단합니다. 그래서 제곱오차합 증가 최소, 분산 증가 최소, 정보 손실 최소 이런 키워드 나오면 전부 와드라고 보시면 돼요.


최장거리, 최단거리, 평균연결 이런 애들이랑 같이 비교해서 자주 나오니까 교재 그림이랑 같이 한 번 더 보고 가시면 좋고요.


정답은 와드 방법입니다.



문제 50: 지지도
image5.jpg?type=w966 [문제 50 화면]


50번 문제. 우유에서 커피로 가는 지지도를 바르게 계산하는 것. 우유를 산 사람이 커피를 살 확률, 얼마나 커피를 살 수 있냐를 보는 문제죠.


지지도라는 거는 즉 우유에서 커피 지지도라는 거는 전체 거래 중에서 우유와 커피가 함께 발생한 비율, 우유를 산 사람이 커피를 살 확률인 거잖아요.


그래서 표에서는 뭐를 보면 되냐면 우유랑 커피가 함께 등장한 거 보시면 돼요. 두 개 함께 등장한 게 뭐예요? 30. 요게 함께 등장한 거죠. 전체 거래 수는 몇 개요? 100개죠.


그럼 100개 중에 30인 거예요. 0.3.


그래서 정답은 3번.


의외로 이렇게 나오면 좀 쉬워지죠. 복잡하게 지지도, 신뢰도 이런 계산 안 하고 간단하게 묻는 문제였습니다.





이렇게 해서 47회 ADSP 기출 문제 살펴봤고요. 여러분들께서도 세세하게 설명하면 이 50문제 설명하는 데 몇 시간, 혹은 그 이상 시간이 필요할 수도 있어요. 왜냐면 전체 범위를 다루는 거기 때문이죠. 그래서 오늘은 간략하게 살펴봤고, 이런 문제들이 기출 유형으로 나오는구나 정도 파악하시고 다시 본문으로 돌아가서 내가 잘 이해 못했던 부분을 점검하는 식으로 기출 문제 보시면 됩니다.


기출 문제를 풀이하는 의미를 거기에 두셔야지, 여기서 내가 몇 점 맞았다고 해서 합격 가능성 예측하고 그런 척도로 쓰시지 마시고요. 기출 문제는 시험에 이런 유형으로 나오는구나를 파악하기 위한 자료입니다.


가장 최근에 나왔던 기출 문제니까 참고 잘하시고, 이번 2026년도 시험 여러분들 모두 잘 보시기 바랍니다. 감사합니다.


https://cafe.naver.com/easyadsp/41071


keyword
작가의 이전글[ADsP 3과목] 47회 기출문제정리(31번~40번)