수행평가에 챗지피티를 사용하게 두어도 될까?

챗GPT 만든 보고서, 수행평가에 AI활용에 대한 우려

Oct 17. 2025

친구는 이번 연휴동안 수행평가 채점을 한다고 했다.

문화 탐구와 관련한 보고서를 읽는 것 같았다. 친구는 '챗지피티 돌렸겠지만 생각보다 수준이상이라 좀 감격스럽네'라고 말했다. 나는 의아했다. 수행평가에 지피티를 쓰게 허용한다고? 이미 과제를 내줄 때부터 사용하지 말라고 안내가 되었어야 하는 거 아닌가. 친구는 나의 물음에 '당연히 사용해도 되지만 도구를 사용하면서 어떻게 너희가 원하는 것을 얻어낼지 생각하라고 유의를 시켰으며, 작문 과제가 아닌 문화탐구가 중점이라 괜찮다'고 대답했다. 그럼에도 여전히 찝찝한 마음이 가시질 않았다.

지피티, 그대로 수행평가에 사용하게 두어도 되는걸까?

나는 세 가지 지점에서 '그럴 수 없다'는 생각이 들었다.

첫째, 수행평가는 학생이 온전히 가지고 있는 수행능력을 평가하는 것이라는 점에서 불가능하다. 그 수행능력은 평가자인 교사가 지식, 기능, 태도의 측면에서 정해두었을 것이고, 기본적으로는 '그 학생이 가지고 있는 것'임은 틀림 없다. 단순한 웹 서치(정보를 찾아내는 능력)라면 허용가능할지 모르겠다. 적어도 아떤 정보를 어떻게 접근하고, 또 선별하여 글에 담을지 사고하기 때문이다. 그러나 인공지능을 사용해 만들어낸 결과물이 '그 학생이 가지고 있는 능력'으로 만든 것이라고 볼 수 있을까? 인공지능을 활용하는 능력 자체를 '수행능력'에 포함시킬 수 있을까? 이 점을 생각하면 학습자가 가진 수행능력을 평가해야 한다는 '타당성' 측면에서 큰 오점이 생긴다. 보고서라는 양식의 특성상 소재를 생각하고, 자료를 모으고, 정갈한 글로 만들어내는 등 작문 능력이 큰 차지를 하고 있다. 그런데 GPT를 사용하면 소재를 생각하는 것 외에 대부분은 '외주 맡기듯이' 작성될텐데, 문화 '탐구' 능력을 제대로 평가할 수 있을까?

둘째, 학생들이 인공지능을 사용하는 것을 가르쳐준 적 없고, 그들이 사용하는 모델이 다르면 공정성과 신뢰성의 문제가 생기기 때문이다. 만약 학생에게 '도구'를 사용하도록 했다면, 그 도구를 사용하는 방법을 수업안에서 가르친 적이 있어야 한다. 그렇지 않으면 그 도구를 사용할 줄 아는 학생과 그렇지 않은 학생 간 격차가 많이 날 것이기 때문이다. 평가란 교육과정 속에서 가르친 것을 평가한다는 것이 기본 전제이다. 만약 가르치지 않았다면, 그것은 평가에 영향을 주어선 안 된다. 그러나 위에서 언급한대로 이미 인공지능을 이용해 만든 결과물은 결과를 도출하는 과정과 결과물 자체에도 큰 영향을 주기 때문에 공정성에 문제가 될 수 있다. 또, 학생들이 어떤 모델을 사용하냐에 따라 결과물이 달라질 수 있다. 기본 플랜을 사용할 경우 모델의 성능과 일정 시간에 이용할 수 있는 한도가 제한이 있다. 유료 플랜의 경우 제한도 적고, 최신의 성능을 가진 모델을 사용할 수 있기 때문에 이를 사용하고 하지 않는 학생 간 차이가 날 수 있다. 평가자가 만일 인공지능을 사용했는가 여부 자체를 평가기준에 넣고, 이를 감안하여 평가하지 않으면 제 힘으로 수행평가를 한 학생, 인공지능을 사용했지만 무료플랜이라 한계가 있는 학생, 유료플랜과 고급 프롬프트를 구사한 학생 간 차이가 나며, 이를 정확하게 분간하며 평가하기가 어려울 것이다. 이 문제는 평가의 신뢰도를 위협하는 요인이 된다.

셋째, '문화탐구 능력'을 가진 학생을 기르는 것인가, '인공지능 활용 능력'을 가진 학생을 기르는 것이냐가 혼동되기 때문이다. 이론상 모든 과목 모든 영역에 인공지능이 활용될 수는 있을 것이다. 그렇다고 해서 그것을 활용해야만 고득점을 받을 수 있도록 해서는 안 된다. 사용해본 사람들은 알겠지만, 아무리 낙서처럼 휘갈겨 쓴 소재와 조각난 글도 한 편의 정제된 글로 만들어낼 수 있는 게 LLM이다. 간혼 맞지않는 어법, 이상한 내용이 섞일 순 있지만 이것을 골라내어 수정하는 것도 재량이라며, 그 능력을 수행평가에 허용할 수 있을까? 그 허용은 본 주제였던 '문화탐구 능력'을 측정하는 데 얼마나 도움이 되는가? 사실, 지금 하고 있는 이 수행평가라는 평가 자체도 다시 환원되면 커다란 전체의 교육과정의 일부가 된다. 잠재적 교육과정으로 '수행평가(주로 보고서 등의 '글'이 활용되는)라는 것에 지피티를 사용해야 꿀을 빨 수 있다' 라는 걸 심어주는 셈이 되지 않을까. 결과적으로는 진짜 중요하고 학습자들이 익혀야할 어떤 능력과 태도를 이끌어내기보다, 다른 공부할 시간도 없는데 성적에 금가지 않도록 빨리 제출해야할 무언가로 치부되는 상황이 생기진 않을까. 그러지 않아도 과목마다 있는 수행평가가 학습자를 고통받게 한다며 이를 다시 축소해야한다는 이야기가 나오는 상황에, 과연 이게 맞는가 하는 생각이 들게 한다.

새롭게 만들어지고 발달하는 기술에 맞춰, 그것을 어느정도는 훌륭히 사용할 수 있도록 적응하는 것은 중요하다. 활용방식에 따라 적은 시간 내에 높은 효율을 낼 수 있다는 것은 자명할지 모르겠다. 그러나 교육이라는 카테고리 안에서는, 가르쳐야할 지식-기능-태도의 본질을 훼손하지 않고, 스며들듯 배울 수 있도록 사려깊은 사용의 주의가 필요하다고 생각한다. (한 편 이래서 평가가 정말 어렵구나 느낀다) 만일 평가의 본질과 목적을 왜곡하거나 평가를 위해 제출해야하는 의례적인 과제물로 떨어뜨리게 한다면, 인공지능 사용을 제한해야 한다고 생각한다.

keyword

작가의 이전글동기가 중요한 이유죽고 싶지만 떡볶이는 먹고 싶던, 당신을 추모하며.작가의 다음글