교육 예측 모델의 실효성

by 최재원

머신러닝(AI 포함) 모델의 성능은 논문을 출간할 때 SOTA(Sate of the Art) 값이 중요하긴 하지만 현업에서 적용하고 운영할 때는 다양한 이유로 무조건 높은 값을 추구할 수 만은 없습니다. �

특히 도메인에 따라 예측 모델이 학습하는 데이터의 양과 질에서 차이가 많이 나는데, 제가 있는 교육 분야는 상대적으로 데이터의 양도 적고, 노이즈가 많은 편입니다. 그래서 현실적으로 기대할 수 있는 모델의 성능 지표가 상대적으로 낮습니다. �

또한 예측 관심 범주의 발생 빈도가 대부분 희소한데, 대표적으로 중도탈락(자퇴, 제적 등)은 전체 학생 대비, 발생 빈도가 10%보다 작기 때문에 이렇게 희소한 케이스 예측을 잘하는지 체크하기 위해서는 모델의 재현도(Recall)와 정밀도(Precision) 값이 중요합니다. �

처음 이 개념(재현도와 정밀도)을 접하는 사람들에게 제가 자주 비유하는 사례는 어부의 그물입니다. 어부가 잡고 싶은 생선이 돔이라면(즉 예측하고 싶은 것이 돔이라면) 그물을 크고 넓게 펼치면 돔도 많이 잡히지만 다른 잡어들도 섞여들기 마련입니다.

적당한 크기의 그물로 순도 높게 딱 돔만 잡고 싶지만 그러면 잡을 수 있는 돔의 숫자도 줄어들겠죠. 즉 상충관계(trade off)가 있습니다.

1️⃣ 재현도 : 그물(모델)을 던져 현재 바다 속에 있는 전체 돔 중에 몇 %를 잡을 수 있을까?
2️⃣ 정밀도 : 한번 그물을 던져 잡은 물고기 중에 돔의 비율은 얼마인가?

재현도는 당연히 100%에 가까우면 좋은 것이고, ☑️정밀도가 이 모델을 현실에서 사용할지를 가늠하는 중요한 기준입니다. 일종의 ROI 인셈이죠.

20250111_112040.png


예를 들어 전체 학생 중에서 중도탈락 비율이 대략 10%라면 한 명의 학생에 대해 임의로 판단하면 그 판단이 맞을 확률이 10%라는 말입니다. 그런데 만약 모델을 이용했을 때 그 판단이 맞을 확률이 80%라면 모델없이 임의로 판단할 때에 비해 8배나 효용 가치가 높으니 충분히 현실에서 써 볼만한 가치가 있는 것이죠.��

글 속에 힌트가 있는데 학교에서는 대략 정밀도 80% 이상을 목표 기준치로 보고 있는데, 서두에도 밝혔듯이 교육/학습 데이터로 이 수치를 달성하는 것이 그렇게 쉽지는 않습니다. �


keyword
매거진의 이전글AI 맞춤형 학습시스템을 이용한 기업교육과 평생교육