AI가 던진 질문 : "우리는 무엇을 평가해 왔는가?"
대학 학부 시절, 얼리어답터였던 저는 당시 최신 워드프로세서 '한컴 97'로 리포트를 작성해 제출했습니다.
무슨 교과목이었는지 잘 기억은 나지 않는데, 담당 교수님은 리포트 마감 다음 주에 선언하셨습니다.
"우리 과목은 손으로 쓴 리포트만 허용합니다."
2025년 10월, 연세대학교 등의 여러 대학에서 AI를 이용한 시험 부정행위가 발각되었습니다. 비대면 시험에서 ChatGPT를 사용하거나, 대면 시험 중에도 휴대전화로 AI에 접속해 문제를 풀었다고 합니다.
이 사건에 대한 ‘정당하지 않다’는 인식에서 우리가 당연하게 받아들이는 평가의 규칙을 의심하게 됩니다.
"우리는 정확히 무엇을 평가해 왔는가?"
"우리가 ‘지성’이라 부르는 능력의 실체는 무엇인가?"
지성을 평가하는 기준은 고정된 적이 없었습니다. 새로운 기술이 등장할 때마다, 기준은 흔들렸고, 불안을 거쳐 결국 재구성되었습니다.
소크라테스와 플라톤은 문자를 경계했습니다. 플라톤은 『파이드로스』에서 이렇게 말했습니다.
"문자는 기억을 약화시킬 것이다. 사람들은 외부의 기호에 의존하게 되어, 내면에서 스스로 기억해내는 능력을 잃게 될 것이다."
이 시대 지성의 증거는 암기와 재현이었습니다. 호메로스의 서사시 수천 줄을 외우는 능력, 스승의 가르침을 정확히 복창하는 능력 같은 거죠. 문자는 이 기준을 위협했습니다. 하지만 문자는 정착했고, 평가 기준도 바뀌었습니다.
플라톤과 아리스토텔레스 이후, 지성의 핵심은 단순히 외우는 것이 아니라 논리적으로 추론하고 증명하는 논증 능력이었습니다. 중세 스콜라 철학은 권위 있는 텍스트를 해석하는 능력을 중시했습니다. 암기에서 이해로, 재현에서 해석으로 기준이 이동했습니다.
15세기 인쇄술이 등장했을 때도 비슷한 불안이 있었습니다. 책이 대량으로 보급되면서 "너무 쉽게 지식에 접근하면 사고력이 약해진다"는 우려가 제기되었습니다. 하지만 인쇄술은 새로운 형태의 지성을 가능하게 했습니다.
18세기 계몽주의 시대, 칸트는 '자기 머리로 생각하는 용기'를 강조했습니다. 권위에 의존하지 않고 스스로 판단하는 능력이 지성의 기준이 되었습니다. 근대 시험 제도도 탄생했습니다. 푸코가 분석했듯, 시험은 개인을 분류하고 서열화하는 장치였습니다. 지성은 측정 가능한 것, 수치화 가능한 것이 되었습니다.
산업화 시대가 되면서 시험 성적은 능력의 객관적 증명으로 자리 잡았습니다. 능력주의는 이를 정당성의 근거로 삼았습니다. '노력한 만큼 얻는다'는 믿음, '공정한 경쟁'이라는 이념이 시험 제도와 결합했습니다.
이처럼 문자, 인쇄술, 시험 제도. 각 기술적 전환마다 동일한 구조가 반복된 겁니다.
새로운 기술이 등장한다
기존 지성 기준이 위협받는다
불안과 저항이 일어난다
시간이 지나면 기준이 재구성된다
새로운 기준이 '자연스러운 것'으로 정착한다
우리가 지금 당연하다고 여기는 기준들 - 이해, 저자성, 노력, 시험 - 도 모두 이 과정을 거쳐 만들어진 것입니다. 영원한 진리가 아니라 역사적 산물입니다.
현재 우리가 받아들이는 평가 기준에는 몇 가지 전제가 깔려 있습니다.
이해해야만 지식이다
안다는 것은 그것을 이해한다는 뜻입니다. 공식을 외우는 것만으로는 부족합니다. 왜 그런지, 어떻게 작동하는지 설명할 수 있어야 진짜 아는 것입니다. 하지만 중세 수도사들에게 경전을 암송하는 것 자체가 지식이었듯, '이해'의 정의도 시대에 따라 달랐습니다. 현재의 기준은 근대 이성 중심주의의 산물입니다.
내 생각이 중요하다
저작권과 저자성을 중시합니다. 누가 쓴 글인지, 누구의 생각인지가 중요합니다. 표절은 학문적 윤리 위반입니다. 하지만 중세 필사본 시대에는 베꼈다는 건 중요하지 않았습니다. 오히려 권위 있는 원본을 정확히 복제하는 것이 가치 있는 일이었습니다. '저자'라는 개념 자체가 인쇄술 이후 강화된 근대적 구성물입니다.
노력은 정당성이다
시간과 노력을 들인 결과를 높게 평가합니다. 과정의 가치가 결과의 가치를 결정한다고 믿습니다. 하지만 이것도 산업자본주의의 가치관입니다. 노동 시간을 가치의 척도로 보는 관점은 특정 역사적 조건에서 형성되었습니다.
시험은 개인 능력을 측정한다
시험이 개인의 능력을 객관적으로 측정한다고 가정합니다. 외부 도움 없이, 동일한 조건에서 평가받는 공정한 장치라고 믿습니다. 하지만 실제 삶에서 우리는 늘 도구와 타인의 도움을 받으며 문제를 해결합니다. 순수한 개인 능력이라는 개념 자체가 근대 시험 제도가 만든 추상입니다.
이 네 가지 통념은 따로따로 떨어진 게 아니라, 하나의 등식으로 묶여 있었습니다.
"과정 = 능력 = 노력 = 저자"
이해하는 과정을 거쳤다면 능력이 있는 것이고, 능력이 있다면 노력을 했을 것이며, 노력을 했다면 명확한 저자가 있다는 가정입니다. 이 등식 위에서 근대적 평가 기준이 작동했습니다.
시험은 이 등식을 전제로 설계되었습니다. 외부 도움 없이 문제를 푼다면(과정), 그것은 개인의 능력을 보여주는 것이고(능력), 그 능력은 공부한 시간으로 축적된 것이며(노력), 답안지에는 명확한 작성자가 있습니다(저자).
이 등식을 자연스러운 진리로 받아들인 역사는 그리 길지 않습니다. 기껏해야 근대 이후, 200년 남짓입니다.
디지털 세상에서 균열은 이미 진행 중이었습니다. 세 가지 변화가 동시에 작용하며 "과정=능력=노력=저자"라는 등식의 토대를 흔들었습니다.
저자성의 약화
인터넷은 집단적 지식 생산을 가능하게 했습니다. 위키백과는 누가 쓴 것인지 특정할 수 없는 집단 지성의 산물입니다. 오픈소스 소프트웨어도 마찬가지입니다. 수많은 사람이 협력하지만 '저자'는 명확하지 않습니다. 구글 문서에서 여러 사람이 동시에 편집하면, '이 문장은 누가 썼는가'라는 질문 자체가 무의미해집니다.
이 변화는 '내 생각'을 중시하는 근대적 기준을 약화시켰습니다. 저작권과 표절 개념이 모호해지기 시작했습니다.
이해와 검색의 경계 붕괴
검색 가능한 환경에서 암기의 필요성은 사라졌습니다. 모르는 것은 검색하면 됩니다. 블로그 요약본을 찾고, 복사해서 붙여넣으면 됩니다. '이해했는지'와 '검색했는지'를 구분하기 어려워졌습니다.
학생들은 이미 오래전부터 과제를 할 때 인터넷을 활용했습니다. 어디까지가 자기 생각이고 어디부터가 참고인지 경계가 흐릿해졌습니다. '이해'라는 기준 자체가 실효성을 잃기 시작했습니다.
평가 조건의 불균등
디지털 접근성의 차이는 평가의 공정성을 훼손합니다. 어떤 학생은 최신 장비와 빠른 인터넷을 사용하고, 어떤 학생은 느린 컴퓨터로 간신히 접속합니다. 디지털 리터러시의 격차도 큽니다.
'동일 조건 평가'라는 전제가 성립하지 않게 되었습니다. 비대면 강의와 온라인 시험이 확산되면서 이 문제는 더 명확해졌습니다.
누적의 메커니즘
이 세 가지는 독립적 현상이 아닙니다. 저자성이 약화되면서 등식의 '저자' 부분이 흐려졌고, 검색과 이해의 구분이 사라지면서 '과정' 부분이 모호해졌으며, 평가 조건이 불균등해지면서 '능력'을 측정한다는 믿음이 흔들렸습니다.
등식의 각 부분이 상호작용하며 균열은 누적되었습니다.
AI가 기준을 붕괴시킨 출발점은 아니지만, 이미 흔들리고 있던 기준을 수면 위로 드러냈고 붕괴를 가속화했습니다.
ChatGPT는 논리적인 답변을 생성합니다. 학생은 '사고 과정'을 거치지 않고도 '사고의 결과물'을 얻을 수 있습니다. AI가 생성한 에세이는 문법이 정확하고, 구조가 논리적이며, 표현이 세련됩니다. 교수는 누가 썼는지 알 수 없습니다.
두 가지가 붕괴되었습니다. 첫째, 그동안 평가해왔던 것이 사고 능력이었는지, 결과물의 형식이었는지가 불분명해졌습니다. 둘째, '학생의 능력'과 '글의 완성도'를 동일시해온 전제가 무너졌습니다.
며칠을 공들인 리포트와 몇 분 만에 생성한 리포트의 결과물이 유사합니다. 과정이 산출물로 드러나지 않습니다. 노력이 정당성을 만든다는 등식이 작동하지 않게 되었습니다.
저자의 해체는 더욱 명확해 졌습니다. AI가 생성한 문장의 저자는 누구일까요? 훈련 데이터에 포함된 저자들? 모델을 개발한 회사? 프롬프트를 입력한 사용자? 저자를 특정하기 어렵습니다.
결국 AI가 드러낸 것은 구조적 문제입니다. 우리가 받아들였던 평가 기준은 '과정=능력=노력=저자'라는 등식 위에서 작동했습니다. AI는 이 등식의 모든 연결고리를 끊었습니다. 과정 없이 결과물이 나오고, 노력 없이 완성도가 나오며, 저자 없이 텍스트가 생성됩니다. 우리가 의심 없이 받아 들였던 기준과 기술 사이의 불일치를 더 이상 무시할 수 없게 되었습니다.
이제 다음 질문은 아마도 "지성을 어떻게 다시 이해할 것인가?"일 것입니다.
근대적 기준의 핵심 전제는 '지식은 개인의 머릿속에 있다'는 것이었습니다. 외부 도움 없이, 오로지 머릿속에 있는 것만으로 문제를 해결하는 능력. 그것이 지성의 증거였습니다.
하지만 인지과학자들은 다른 관점을 제시해왔습니다. 연결주의(connectionism)는 지식이 개별 노드가 아니라 네트워크 전체에 분산되어 있다고 봅니다. 중요한 것은 모든 것을 암기하는 것이 아니라, 필요할 때 적절한 지식에 접근하고 연결하는 능력입니다.
철학자 앤디 클라크(Andy Clark)의 '확장된 마음(extended mind)' 이론은 이를 더 밀고 나갑니다. 사고는 뇌 안에서만 일어나는 것이 아니라, 도구와 환경을 포함한 전체 시스템에서 일어납니다. 메모장에 적힌 전화번호는 내 기억의 일부입니다. 계산기로 계산하는 것도 내 사고의 일부입니다.
이 관점에서 보면, AI를 사용하는 것이 반드시 부정행위는 아닐 수 있습니다. 문제는 도구 없이 할 수 있느냐가 아니라, 도구를 포함한 시스템 전체로서 문제를 해결하는 능력일 겁니다.
확장된 마음 이론을 받아들인다면, 다음 질문도 가능합니다. "인간과 기계를 왜 구분해야 하는가?"
포스트휴머니즘은 '순수하게 인간적인 것'이라는 개념 자체를 의심합니다. 인간은 이미 오래전부터 도구와 함께 진화해왔습니다. 언어, 문자, 책, 컴퓨터. 각각의 도구는 인간 사고의 일부가 되었습니다. AI도 이 연장선에 있을 수 있습니다.
그렇다면 평가해야 할 것은 '순수한 인간 능력'이 아니라 '인간-기계 협력 능력'일 수 있습니다. 중요한 것은 AI를 사용하지 않는 것이 아니라, AI와 효과적으로 협력하는 능력, AI의 한계와 편향을 이해하는 능력입니다.
이제 핵심적인 질문이 남습니다. "그렇다면 정확히 무엇을 평가해야 하는가?"
AI가 결과물을 생성해준다면, 평가 대상은 결과물이 아니라 과정이 되어야 합니다. 단일 시험이 아니라 장기간에 걸친 프로젝트. 최종 결과물만이 아니라 생각의 변화 과정, 문제 해결 과정, 협력 과정을 종합적으로 보는 방식입니다.
또한 도구 사용 능력보다 비판적 판단 능력이 중요해질 수 있습니다. AI가 내놓은 답변이 타당한지, 어떤 편향이 있는지, 윤리적으로 문제는 없는지 검토하는 능력. 생성 기술이 아니라 비판 기술이 핵심이 되는 것입니다.
이런 능력을 평가하려면 평가 방식 자체가 바뀌어야 합니다. 객관식 시험으로는 측정할 수 없습니다. 구술 평가, 포트폴리오 평가, 프로젝트 기반 평가 같은 방식이 필요합니다.
여기 제시한 것들은 해답이 아닙니다. 가능한 방향일 뿐입니다.
한 가지 더 짚고 넘어가야 할 점이 있습니다. 위에서 언급한 평가 방식은 사실 새로운 것이 아닙니다. 다만 '효율'의 관점에서 보류 —과정 평가는 산출물 평가와 비교해 너무나도 비효율적입니다. 객관적으로 측정 가능한 평가 항목을 고민하는 것도 평가의 효율을 고려한 결과입니다— 된 방식이라고 보는 게 맞을 것 같습니다.
이제 환경이 바뀌었습니다. 기술은 평가를 받는 사람이나, 평가를 하는 사람 모두에게 주어졌고, 비효율로 치부되던 평가 방식은 기술의 등장과 함께 새로운 가능성을 만났습니다. 어떻게 적용할지는 평가를 설계하는 사람들에게 주어진 숙제입니다.
이때 해답의 실마리는 기술이 아닙니다. '지성이란 무엇인가', '배운다는 것은 무엇인가'에 대한 질문이 해답의 실마리입니다.
기술이 바뀔 때마다 우리는 이 질문으로 돌아왔습니다. 문자 앞에서, 인쇄술 앞에서, 그리고 지금 AI 앞에서. 질문은 새로운 것이 아닙니다. 질문을 잃지 않는 것, 그것이 우리의 몫입니다.
AI는 답을 바꾸러 온 것이 아니라, 우리가 오래 잊고 있었던 질문을 다시 꺼내게 만들었습니다.
손으로 리포트를 써서 내라고 말씀하신 교수님의 깊은 뜻을 헤아릴 틈은 없었습니다.
초안으로 정리해 놓은 내용을 한 글자, 한 글자 정성들여서 쓰는 데에 신경을 쓰느라 말입니다.