7장. AI 시대에서도 평가와 시험은 가능한가

정답을 재는 시험에서, 사유를 드러내는 평가로

by 쑥갓선생

AI 시대의 교육 이야기가 현실과 부딪히는 순간은 언제나 같다. 아무리 좋은 수업을 이야기해도, 결국 이런 질문으로 돌아온다.

"그래서 평가와 시험은 어떻게 하나요?" "점수는 어떻게 매기죠?" "선발은 어떻게 합니까?"

이 질문은 냉정하지만 정당하다. 교육은 언제나 평가와 함께 작동해 왔고, 평가 없는 교육은 제도로 유지되기 어렵다.

그렇다면 정말로, AI 시대에도 평가와 시험은 가능한가?


시험은 무엇을 측정해 왔는가

먼저, 우리가 말하는 '시험'이 그동안 무엇을 해왔는지 돌아볼 필요가 있다. 전통적인 시험은 주로 이것을 측정했다. 기억하고 있는가, 정해진 방법으로 풀 수 있는가, 정답에 얼마나 빠르게 도달하는가.

이 기준은 오랫동안 합리적이었다. 왜냐하면 지식과 사고 능력이 개인의 머릿속에만 존재했기 때문이다.

그러나 AI가 등장한 지금, 이 기준들은 급격히 의미를 잃는다. 기억은 검색으로 대체되고, 계산은 자동화되며, 정답 도출은 인간보다 빠르다.

2024년 Education Week의 조사에 따르면, 교사 6명 중 1명이 AI를 사용해 수업용 시험을 개발했다. 이제 이런 시험은 능력을 측정하기보다 AI를 얼마나 잘 숨겼는가를 측정하게 된다.


AI를 금지한 시험은 답이 될 수 있을까

많은 교육 현장은 이 문제에 가장 단순한 방식으로 대응한다. AI 사용 금지, 감독 강화, 오프라인 시험.

이 방식은 일시적인 해결책일 수는 있다. 하지만 근본적인 답은 아니다. 왜냐하면 이것은 AI 시대의 평가 문제를 해결하는 것이 아니라, AI 이전 시대로 시험을 되돌리는 방식이기 때문이다.

2024년 AACSB(경영대학 인증기관)의 웨비나에서 Temple 대학의 제프 리엔츠(Jeff Rients)는 이렇게 말했다. "어떤 날은 이미 돌이킬 수 없는 지점을 넘어선 것 같습니다. 미래를 예측하려는 시도 자체가 무의미하게 느껴질 때가 있습니다."

AI를 금지한 시험은 공정해 보일 수는 있어도, 점점 현실과 분리된다.


그렇다면 무엇을 평가할 수 있는가

여기서 질문을 바꿔야 한다. AI 시대에 평가할 수 없는 것은 무엇인가가 아니라, 여전히 평가할 수 있는 것은 무엇인가?

AI가 대신하기 어려운 것들은 여전히 남아 있다. 왜 이 질문을 선택했는가, 어떤 판단을 했는가, 무엇을 포기했고 왜 그랬는가, 이 답의 한계를 어디까지 인식하고 있는가.

이것들은 정답이 아니라 사유의 흔적이다. AI는 결과를 만들어줄 수 있지만, 그 결과를 선택한 이유까지 인간의 경험으로 대체해 주지는 않는다.


평가의 중심은 결과가 아니라 '과정의 가시화'다

AI 시대의 평가는 결과물을 보는 것에서 끝나서는 안 된다. 대신, 다음과 같은 질문을 함께 묻는다. 이 결과는 어떤 선택의 연쇄에서 나왔는가, 다른 선택지는 무엇이었는가, AI의 제안 중 무엇을 받아들이고 무엇을 거부했는가.

2024년 일리노이 대학 Gies 경영대학의 타우냐 민스(Tawnya Means)는 이렇게 설명한다. "AI 도구의 가장 흥미로운 점은 결과물만이 아니라 학생이 그것을 만들어가는 과정까지 평가할 수 있다는 겁니다. 교수는 과정 중간에 지속적으로 피드백을 주면서도, 마지막에 전체를 종합적으로 평가할 수 있습니다."

예를 들어, GPT-4와 같은 도구는 학생과 애플리케이션 간의 채팅 기록을 기록한다. 학생이 언제 어떻게 텍스트를 가져오거나 다시 작성했는지를 포함해서 말이다.

이때 평가의 대상은 정답이 아니라 판단의 구조다. 그래서 AI 시대의 평가는 단일 시험보다 포트폴리오, 구술, 성찰적 글쓰기, 과정 기록에 더 가까워진다.


'AI 저항적 평가'라는 새로운 개념

2024년 Frontiers in Education에 발표된 연구는 'AI 저항적 평가(AI-resistant assessments)'라는 개념을 소개한다. 이것은 AI가 쉽게 대체할 수 없는 평가 방식을 의미한다.

연구자들은 교수진 워크숍을 통해 다음과 같은 방법을 제안했다:

1. 제품-과정 평가(Product-Process Assessment): 최종 결과물뿐만 아니라 학생이 AI 도구를 안내하기 위해 프롬프트를 개발하는 방법과 학습 여정 전반에 걸쳐 AI와 협업하는 방법을 평가한다. 이 모델은 학생이 과정 중에 내리는 결정을 평가하도록 장려한다.

2. 진정성 있는 평가(Authentic Assessment): 실제 세계의 과제와 응용에 초점을 맞춘다. 전통적인 시험과 달리, 학생들이 전문적 환경에서 마주칠 복잡성을 반영하는 실용적이고 맥락이 풍부한 시나리오에 지식을 적용하도록 요구한다.

예를 들어, 전통적인 에세이 대신 학생들에게 팟캐스트 제작, 멀티미디어 프레젠테이션 개발, 또는 AI 도구를 사용한 실제 문제 해결을 요청할 수 있다.

3. 성찰적 글쓰기 과제: 학생들이 AI의 출력을 비판적으로 검토하게 한다. AI가 생성한 초안과 학생 자신이 만든 것을 비교하고, 차이점을 논의하게 한다.


공정성은 어떻게 확보할 수 있을까

여기서 가장 큰 반론이 등장한다. "그런 평가는 너무 주관적이지 않나요?" "공정성을 어떻게 보장하죠?"

이 질문 역시 피할 수 없다. 그러나 솔직하게 말하자면, AI 시대의 평가는 완벽한 공정성을 포기하는 대신, 설명 가능한 공정성을 선택해야 한다.

2024년 Catholic University의 Center for Teaching Excellence는 이렇게 제안한다. 평가자는 점수의 중립성을 가장하는 대신, 자신의 판단을 설명해야 한다. 왜 이렇게 평가했는가, 어떤 기준을 적용했는가, 이 판단은 어떤 근거에서 나왔는가.

이는 평가자의 책임을 더 무겁게 만드는 선택이다. 하지만 AI 시대에는 그 책임을 회피하는 평가가 오히려 더 위험해진다.

최근 여러 연구들이 이를 보여준다. AI를 활용한 채점 실험들에서 AI와 인간 평가자 간의 일치도가 높아지고 있지만, 여전히 편차가 존재한다. 특히 복잡한 추론이나 해석이 필요한 문항에서는 차이가 더 크게 나타난다.

연구자들은 결론짓는다. "생성형 AI는 정형화된 과제를 채점하고 피드백을 주는 데는 유용하지만, 복잡한 사고를 요구하거나 중요한 결정이 걸린 평가에는 여전히 사람의 판단이 필요합니다."


시험은 사라질까, 변할까

결론적으로 말하면, AI 시대에도 시험은 완전히 사라지지 않는다. 다만 시험의 성격은 바뀐다.

시험은 더 이상 누가 더 많이 아는지를 가르는 도구가 아니라, 누가 더 깊이 생각했는지를 설명하게 만드는 계기가 된다.

2024년 MIT Solve의 AI 평가 챌린지는 이렇게 선언한다. "AI 도구는 학생의 학습을 더 진정성 있고 섬세하게 평가할 수 있습니다. 교사는 평가에 쓰는 시간을 줄이고, 학생은 바로 실행할 수 있는 피드백을 실시간으로 받을 수 있습니다."

이 시험은 더 어렵고, 더 느리고, 더 불편하다. 그리고 바로 그렇기 때문에 여전히 교육적이다.


다시, 교육의 책임으로

AI 시대의 평가는 교육이 무엇을 중요하게 여기는지를 가장 적나라하게 드러낸다. 평가를 바꾸지 않고 교육만 바꾸는 것은 불가능하다.

그래서 AI 시대의 교육은 평가를 통해 스스로의 철학을 증명해야 한다. 빠른 결과를 원한다면 빠른 시험이 남을 것이고, 사유를 지키고 싶다면 불편한 평가를 감수해야 한다.

2024년 EdWeek의 조사에서 한 전문가는 이렇게 말했다. "정부들은 AI의 가능성에 주목하며 더 풍부한 평가 방식을 원합니다. 이를 통해 그들이 진짜 알고 싶어 하는 정보를 얻을 수 있을 겁니다."

정답을 가르는 시험에서 사유를 드러내게 하는 장치로. 이 전환이 AI 시대 평가의 본질이다.


수, 금, 일 연재
이전 07화6장. AI 시대의 교육은 어떻게 달라질 수 있는가