brunch

AI 시대, 평가 기준은 어떻게 바뀌어야 하는가

과정에 개입하는지를 보세요

며칠 전, 한 대학 캠퍼스가 AI 부정행위 논란으로 소란스러웠습니다. 600명 이상이 듣는 '자연어 처리(NLP)와 챗GPT' 수업의 비대면 중간고사에서, 약 190명에 달하는 학생이 AI를 활용해서 집단 부정행위를 저질렀다는 정황이 나왔거든요. 담당 교수는 "걷는 법을 배워야 할 때 오토바이를 탄 꼴"이라며, AI에 의존한 학생들을 강하게 질타했습니다.

hq720.jpg
hq720 (1).jpg
언젠가는 만날 일이었다


저는 이 사건을 단순히 일부 학생의 도덕적 해이나 일탈로만 보지 않습니다. 무엇보다 다른 수업도 아닌 '자연어 처리와 챗GPT' 수업에서 벌어진 일입니다. AI의 원리와 활용법을 가르치는 수업에서, 정작 평가는 AI의 사용을 원천적으로 금지했다는 점은 쉽게 이해하기 어렵습니다. 과연 이것이 옳은 접근일까요.


어쩌면 이번 AI 부정행위 논란은 우리가 언젠가 마주했어야 할 필연적인 충격이 아닐까 합니다. 기술의 발전을 낡은 평가 방식이 따라잡지 못해 생긴 일이기 때문입니다. AI 시대에 걸맞은 평가 방식에 대한 진지한 고민이 필요한 시점입니다.




막을 수가 없어요 : AI 배제와 탐지 시스템의 한계

생성형 AI의 등장은 우리 삶을 되돌릴 수 없을 정도로 바꾸어 놓았습니다. 학생들의 학습 환경에도 깊숙이 스며든 보편적 도구가 되었죠. 2024년 기준 한국 대학생의 91.7%, 영국 학생들의 88%가 이미 과제나 학습에 AI를 활용한 경험이 있다고 답했습니다. 이러한 상황에서 평가에서 AI의 활용을 원천적으로 배제해야 한다는 주장은 현실적으로 불가능할 뿐만 아니라, 장기적으로도 바람직하지 않습니다.

PYH2019033109010034000_P4.jpg
thumbnail_1669736640917.png
다운로드 (2).jpg
막고 싶다고 막아지는게 아니다


막는다고 막아질 문제인지도 생각해봐야 합니다. 금지 조치는 필연적으로 더 음성적이고 교묘한 방식을 양산할 뿐입니다. 이번 사례에서도, 학교 측은 비디오 감독이라는 강력한 조치를 취했지만, 학생들은 촬영 각도를 조정해 사각지대를 만들거나 여러 프로그램을 겹쳐 띄우는 방식으로 이를 무력화시켰습니다. 성적 지상주의가 강한 우리의 환경을 감안하면, 이는 결국 더 날카로운 창과 더 두터운 방패의 싸움으로 귀결될 뿐입니다.


비슷한 맥락에서, 기술로 AI를 걸러내는 방식 또한 명백한 한계를 가집니다. AI가 생성한 초안을 사용자가 일부만 수정(의미는 그대로 두고 표현만 고치는 식)해버리면, 현재의 탐지 도구로는 이를 완벽하게 식별해 내기 어렵습니다. 영국에서도 대학 내 AI 부정행위 적발 건수가 급증하는 동안 역설적으로 전통적인 표절 적발 건수는 급감(Guardian. 2025)했다고 하더군요. 이는 학생들이 AI를 사용하지 않아서가 아니라, 탐지도구를 우회할 만큼 영리하게 사용하고 있다고 보는 것이 타당합니다.

제목 없음.png 적어도 AI에선 이이제이가 안 통한다


결국, AI를 어떻게 바라보느냐의 문제가 남습니다. 배제와 탐지의 대상으로만 보는 것이 타당할까요. 그렇지 않다면 평가의 기준 역시 바뀌어야 합니다. 'AI를 썼는가, 안 썼는가'같은 질문에서 벗어나, 'AI를 어떻게, 얼마나 생산적으로 활용했는가'라는 관점이 더 현실적입니다.


어차피 못 막으니까요.


무엇을 가르치고 배울 것인가 : 결과 중심에서 과정 중심으로

그간 우리의 교육 시스템은 학습자들에게 결과에 집착하도록 요구해 왔습니다. 정해진 답을 빠르고 정확하게 찾아내면 좋은 평가를 받았죠. 하지만 AI가 그럴듯한 답을 단 몇 초 만에 생성해 내는 시대에, 결과물 자체를 평가하는 방식은 점차 그 의미를 상실하고 있습니다. 되려 AI의 답변을 아무런 비판 없이 'Ctrl+C - Ctrl+V' 하면, 학습자의 머릿속에는 아무것도 남지 않게 되는 최악의 상황에 직면하게 됩니다.


이러한 우려는 단순한 기우가 아닙니다. 카네기멜론대학교와 MS는 2024년에 발표한 연구에서 생성형 AI를 사용한 지식 노동자의 72%가 인지적 노력 감소를 경험했다고 보고했습니다. AI의 능력에 대한 신뢰도가 높아질수록 비판적 사고는 눈에 띄게 약해졌다는 거죠. 이는 AI를 맹신하고 의존할수록, 인간 고유의 고차원적 사고 능력은 퇴화할 수 있음을 뜻합니다. AI가 결과물을 책임지는 시대에, 우리는 무엇을 가르치고 무엇을 남겨야 하며 어떻게 평가해야 할까요.


increased-ai-use-linke.jpg
ms-.jpg
AI를 믿을수록 날카로운 맛은 사라진다


답은 과정에 개입하는 인간 고유의 역량에 있습니다.


첫째, 좋은 질문을 던지는 능력입니다. AI로부터 최적의 답을 이끌어내는 프롬프트 엔지니어링 역량이 되겠죠. 둘째, AI의 답변을 검증하는 능력입니다. AI는 항상 그럴듯한 거짓말을 할 수 있다는 사실을 인지하는 비판적 사고가 필요합니다. 셋째, 답변을 비판적으로 수정하고 풍성하게 만드는 능력입니다. 이는 해당 분야의 전문성, 즉 도메인 지식에 달려있습니다. AI의 답변을 얼마나 찰지게 조져 더 풍성하게 만드느냐가 중요하죠. 넷째, 이 모든 과정을 되돌아보는 능력입니다. '나는 무엇을 어떻게 고쳤는가'라는 질문에 답할 수 있어야 비로소 지식을 생산하는 모든 과정에 주도적으로 참여했다고 말할 수 있습니다.


'질문-검증-수정-성찰'은 AI 시대의 학습 전반을 의미합니다. 이 순환이 제대로 이뤄졌는가만 보면 되는 거죠.


어떻게 평가할 것인가 : 과정에 개입했나를 보세요

AI의 활용을 전제로 하되, 날로 복붙 하는 최악의 시나리오를 방지하고 학습자를 제대로 평가할 방법론이 필요합니다. 이에 대해 제가 떠올린 가장 현실적인 대안은 '[프롬프트] - [AI가 생성한 답] - [학습자가 수정한 답과 그 이유]'를 하나의 패키지로 받아서 평가하는 방식입니다.


이 방식은 AI가 생성한 1차 결과물을 답안이 아닌 초안 또는 재료로 봅니다. 그리고 평가의 초점은 AI가 생성한 결과물이 아닌, '어떻게 답변을 유도했는가' - 'AI의 핵심 논지와 전개에서 틀리거나 빠진 것은 없는가' - '틀리거나 빠졌다면 무슨 자료나 근거에 기반하는가' - '그래서 너는 무엇을 어떻게 고쳤는가'라는 학습자의 비판적 개입과 그 이유에 맞춰집니다.

e918e564a560de01ed3f1fd3eb4826c8.jpg
19231a00ffd311565.jpg
AI가 만들어 준 답은 날로 먹으면 안 된다


'내용을 잘 몰라도 프롬프트만 잘 쓰면 되는 거 아니냐'라는 우려가 제기될 수도 있습니다. 결과물만 평가한다면 그렇겠죠. 하지만 우린 학습자가 학습자의 개입이 얼마나 논리적이고, 비판적이며, 도메인 지식에 기반했는지를 평가할 겁니다. AI의 오류를 바로잡고 품질을 향상시키는 전문가 혹은 검토자의 역할을 제대로 수행했는가가 중요하기 때문에 마법의 프롬프트가 만들어지고 공유되더라도 문제가 되진 않습니다.


물론 학생 수가 많다면 일일이 다 채점하는 것 자체가 부담이긴 합니다. 이런 현실적 부담은 전체 수정 과정이 아닌, 가장 중요하게 수정한 부분 2~3가지와 그 이유만을 제출받는 식으로 범위를 한정하거나, 동료 평가를 도입하여 학습자들이 서로의 수정 이유를 상호 평가하게 하거나, 채점 에이전트를 활용하여 1차 검토를 맡기는 등의 방식으로 줄여갈 수 있습니다.


물론 하나의 강의에 600명, 1400명씩 밀어 넣는 비상식적인 환경에 대한 적절한 지원도 뒤따라야겠고요.

FOREIGN201608120754000356996648146.jpg
985a9a04-2b2b-4a7a-a4ed-13c368146452.jpg
이래 가지고 무슨 공부를 하나


오토바이가 도로를 점령한 시대, 잘 타고 잘 걷자

담당 교수의 "걷는 법 안 배우고 오토바이 탄 꼴"이라는 탄식은 학문의 기초를 강조한다는 관점에서 여전히 타당합니다. 하지만 AI라는 '오토바이'가 이미 도로를 점령한 시대에, 학습자들에게서 오토바이를 빼앗거나 금지할 수는 없으며 그래서도 안 됩니다. 오토바이가 넘쳐나는 세상에서 오토바이를 잘 타는 게 잘못은 아니니까요. 잘 타는 법과 잘 걷는 법을 함께 고민해야 합니다.


교육의 본질은 '무엇을, 어떻게 가르치고 평가할 것인가'라는 질문으로 귀결됩니다. AI가 결과물을 생성할 수는 있어도, 수정의 이유와 사고과정은 학습자 스스로 만들어내야 합니다. 평가는 바로 그 부분을 보는거죠. AI가 얻어낸 답을 맹신하지 않는 비판적 사고와 생성한 결과물을 찰지게 조질 수 있는 도메인 지식이라는 걷는 법을 뚜벅뚜벅 익히도록 유도해야 합니다. 그래야 '제대로 배워서 잘 타고 잘 걷는구나'라고 말할 수 있지 않을까요.


오토바이만 잘 타는 학습자를 만들지 않기 위해서 말입니다.




(참고자료)

생성형 AI가 비판적 사고에 미치는 영향: 지식 근로자를 대상으로

AI 이용 부정행위, 영국에서만 연간 7천 건

keyword
작가의 이전글대표님, 그냥 구독료 지원을 해주시죠