AI가 써 주는 수행평가, 이제는 바꿔야 하지 않을까요?
얼마 전 한 지인과 식사할 때 일이다. 그가 고등학교 2학년 생인 아들의 수행평가에 관한 얘기를 꺼냈다. 학생들이 AI의 도움을 받아 수행평가를 하는 풍조가 만연해 있다고 했다. 지인 아들의 문학 과목 수행평가에 '시 창작하기' 항목이 있었던 모양이다. 다섯 가지 평가 기준을 제시하고 거기에 맞게 시를 창작하는 평가였는데 집에서 시를 창작해서 암기한 다음 정해진 날짜와 시간에 일시에 써내는 형식이었다. 이런 유형의 평가에서 시인이 아닌 보통의 사람이 AI보다 낫기를 바라기는 너무 난망한 일이다. 지인의 아들은 고지식하게, AI의 도움 없이 혼자 시를 창작했지만 학급의 많은 아이들이 AI를 활용해 시를 썼고, 누가 보아도 AI와의 협업을 통해서 창작한 시가 훨씬 완성도가 높았다고 했다. 당연한 일이다. 평소에 시를 공부하지도, 써 보지 않다가 수행평가를 위해 시를 쓴 지인 아들의 시가 수백 수천 편의 좋은 시를 학습한 AI의 도움을 받아 쓴 학급의 다른 친구들이 쓴 시보다 훌륭하기를 바랄 수는 없는 일이다.
이 이야기를 듣고 든 생각은 '이런 수행평가를 해야 하나?'라는 것이었다. 30년 넘은 교직 생활을 접은 지 일 년이 다 되어 가는데, 수행평가에 관한 한 내가 교직에 있을 때와 나아진 부분이 없구나 하는 생각이 들었다. 아니, 내가 교직에 있을 때는 AI의 도움을 받아 수행평가를 수행하는 학생은 없었으므로 수행평가가 이루어지는 환경이 오히려 뒷걸음질 쳤다고 해야 마땅하다. 내가 교직에 있을 때에도 수행평가는 어떤 면에서는 애물단지 취급을 받았다. 주로 일반계 고등학교에 근무했던 터라, 초등학교나 중학교의 수행평가 양상을 알 수는 없으므로 고등학교 수행평가에 대한 이야기라고 이해해 주면 좋겠다.
내가 근무했던 당시 나를 포함한 대다수의 교사들은 수행평가를 그렇게 중요하게 생각지 않았다. 위에서 하라고 하니까 한다는 식이었다. 그러다 보니 '어떻게 하면 수행평가를 제대로 할 수 있을까?'를 고민하는 교사는 거의 찾아볼 수 없었다. '어떻게 하면 학생들에게 항의를 덜 받을까?'에 초점을 맞춰 수행평가를 설계하는 경우가 태반이었다. 교사의 주관적 판단 가능성을 최대한 배제하고 평가 등급 사이의 점수 차를 최소화하고 기본 점수를 최대한 높게 설정하는 등의 방법을 동원하여 수행평가를 설계했다. 이런 방식의 수행평가는, 수행평가의 본질과는 한참 동떨어진 것이었지만 수행평가의 본질에 대해 고민하는 교사는 없다고 해도 과언은 아니었다. 발생할 수 있는 말썽의 소지를 최소화할 수 있는 수행평가가 좋은 수행평가라는 인식이 교사들 사이에 퍼져 있었다.
그렇다고 학생들 입장에서 수행평가를 만만히 볼 수는 없었다. 수행평가의 평가 점수 간격이 비록 1~2점에 불과하지만 그 점수도 학생들에게는 작다고 할 수 없다. 그 1, 2점 때문에 그 과목의 최종 등급이 달라질 수도 있기 때문이다. 또 수행평가의 과정이나 결과물을 바탕으로 생활기록부의 과목별 세부능력 및 특기사항을 기록하는 경우도 상당히 많다. 두루 알다시피, 세부능력 및 특기사항은 학생부 종합 전형의 중요한 전형 요소 중 하나이다. 학생들은 수행평가를 결코 소홀히 할 수 없는 상황이라 아니할 수 없다.
일반계 고등학교 학생들은 한 학기에 평균 여덟 과목을 배운다. 한 과목당 수행평가 항목이 보통 두 개가 있다. 그러면 학생들은 한 학기에 총 열여섯 번의 수행평가를 보아야 한다. 수행평가 항목이 두 개가 넘는 과목도 있고 한 항목당 여러 번의 평가를 실시하는 경우도 있으니 학생들이 참여해야 하는 수행평가의 횟수는 대개 열여섯 번을 넘을 터이다. 최소로 잡아도 열여섯 번이라는 말이다. 학생들은 수행평가의 늪에서 허우적거릴 수밖에 없는 상황이다.
현직에 있을 때 수행평가를 없애야 한다고 생각했다. 오지선다형 지필평가로는 알 수 없는 학생들의 종합적인 사고력을 측정하려고 도입한 수행평가가 그 본질을 잃고 형식적으로 이루어졌기 때문이다. 그런데 학교 관리자(교장, 교감)나 교육청은 수행평가를 하라고 할 뿐, 수행평가가 제대로 이루어지는지 점검하지는 않았다. 수행평가는 오롯이 담당 교사 재량으로 실시되었다. 그런 형편이니 수행평가는 나날이 그 본질에서 멀어져만 갔다.
그래도 그때는 AI가 수행평가를 도와주는 경우는 없었다. 지인 아들의 경우를 통해 추론하건대, 수행평가에서 AI의 도움을 받는 행태가 만연해 있다고 해야 할 듯하다. 교사들이 AI의 도움을 받은 수행평가 결과물과 그렇지 않은 수행평가 결과물을 구별할 수 있을까? 구별할 수 없으리라 생각한다. 또 설령 AI의 도움을 받은 수행평가 결과물을 골라냈다고 해도, 그것이 AI의 도움을 받았다는 사실을 어떻게 증명할 수 있겠는가.
AI의 도움을 받아 수행평가를 하는 행태는 점점 심해질 것이라 생각한다. 딱히 막을 방법도 없을 듯하다. 수행평가로는 학생들의 실력을 제대로 측정할 수 없다는 이야기는 명약관화한 명제라 하겠다. 그러므로 이제 일반계 고등학교에서 수행평가를 없애야 한다. 오지선다형 지필평가를 보완할 수 있는, 학생들의 종합적인 사고력을 측정할 수 있는 새로운 평가 체제를 구안해야 한다.