AI와 함께하는 5가지 평가 방식: AIAS 가이드
고려대와 연세대 등 주요 대학에서 발생한 이른바 “AI 대규모 집단 커닝” 혹은 “집단 부정행위” 논란은 학생들을 탓하며 해당 학생들의 성적을 0점 처리하는 방식으로 일단락되었다. 평가 장면에서 암암리에 AI를 활용하는 이러한 모습은 비단 학교만의 풍경이 아니다. 사내 주간회의에서도 한 동료는 자격 인증 시험에서의 AI 부정행위를 우려하며, 이를 방지하는 기술을 가진 업체와 논의 중이라는 대응 방안을 공유하기도 했다. 사실 사내에서 인정하는 자격 인증과 관련된 부분이니 그 담당자 입장에서는 그럴 수도 있겠지만 그 얘기를 듣는 순간 수능 문제를 다 맞히니 마니 할 정도로 하루가 다르게 발전하는 AI 기술의 변화를 감안했을 때, 그냥 못쓰게만 하면 되는 건가 하는 생각이 더 먼저 떠올랐던 것이 솔직한 마음이었다.
이러한 교육 평가 장면에서 현장의 혼란과 관련해 “The AI Assessment Scale Revisited: A Framework for Educational Assessment” 연구에서는 AI 탐지기의 한계를 인정하고, 평가의 타당성을 확보하기 위한 인공지능 평가 척도(AIAS)를 제시한다. 연구진은 인공지능 탐지 기술이 신뢰하기 어렵고 오탐지의 위험이 크며, 인간과 AI의 협업이 일상이 된 시대에 이를 구분하는 것은 불가능하다고 지적하며, 부정행위 적발보다는 학생의 실제 능력을 어떻게 정확히 측정할 것인가라는 '타당성'에 집중해야 함을 강조한다. 그들이 말하는 AI 활용의 5단계 활용 체계는 다음과 같다.
1단계(No AI): 물리적으로 통제된 환경에서 AI 없이 역량 증명
2단계(AI Planning): 브레인스토밍 및 초기 연구에 AI 활용
3단계(AI Collaboration): 초안 작성, 피드백 및 수정 단계에서의 협업
4단계(Full AI): AI를 광범위하게 활용하여 과업 목표 달성
5단계(AI Exploration): 교수자와 학생이 공동 설계하여 창의적 해결책 탐구
교육학을 전공하고 HRD를 업으로 삼고 있는 입장에서 보면, AI 과제 수행 문제의 책임이 단지 학습자들에게만 있다고 보기는 어렵다고 생각한다. 학부시절부터 교육학과 내 각 전공 교수님들로부터 교육은 단순히 정리된 내용을 잘 가르치는 것에서 끝나는 것이 아니라, 애초에 그에 대한 평가까지를 염두에 두어야 하는 설계 과정이라고 배워왔다. 그렇다면 애초에 AI를 염두에 두고 교육과 평가 또한 그 관점에서 이뤄졌어야 했을 텐데 일반적으로 평가까지는 진행하지 않는 기업 교육 장면에 비추어 어림짐작해 보자면 아마도 강의는 강의였고, 평가는 AI가 있기 이전의 방식대로 진행했기에 발생한 결과가 아닐까 싶다.
조직의 AX 전환을 위해 워크플로우를 백지에 다시 써 내려가듯, 교육 또한 마찬가지이다. 워크플로우를 학습자 관점에서 바라본다면 그것은 곧 러닝저니(Learning Journey)이다. HRD는 전하고자 하는 모든 내용과 방법론 안에 AI가 있음을 전제로 학습 여정 전체를 완전히 새롭게 써야 한다. 이 새롭게 쓰인 여정 안에서 평가는 AI 활용을 전제로 할 것인지 말 것인지. 활용을 한다면 어떠한 목적을 가지고 어느 수준으로 활용하는 평가를 진행할 것인지에 대한 고민은 철저히 교육을 맡은 사람의 몫이라는 생각이다. 마쉬맬로우 실험도 아니고 AI가 너무나도 쉽게 문제를 해결할 수 있게 만들어 둔 상황에서, “왜 AI로 풀었냐”라고 학생을 탓하는 것은 너무나도 무책임해 보였다고 이제는 말할 수 있을 것 같다.
Perkins, M., Roe, J., & Furze, L. (2024). The AI Assessment Scale Revisited: A framework for educational assessment. arXiv preprint arXiv:2412.09029.
생성형 인공지능(GenAI)의 급격한 발전에 대응하여 교육 현장에서 인공지능을 투명하게 통합하고 평가 체계를 재설계할 수 있도록 돕는 '인공지능 평가 척도(AI Assessment Scale, AIAS)'의 개정판을 제시한다.
기존의 신호등 체계에서 벗어나 계층적 편견을 없앤 중립적인 시각적 가이드와 5단계의 통합 수준을 정의한다.
인공지능 탐지의 한계를 인정하고, 사회 구성주의(Social Constructivism) 이론을 바탕으로 교수자와 학생 간의 열린 대화를 촉진하는 프레임워크를 제공한다.
생성형 인공지능 기술이 텍스트를 넘어 멀티모달(Multimodal) 형태로 빠르게 진화하면서 기존의 금지나 탐지 위주 대응 방식이 한계에 부딪혔기 때문이다. 전 세계적인 활용 사례와 피드백을 바탕으로 더욱 유연하고 실용적인 평가 지침이 필요해졌다.
주요 개념으로는 인공지능 평가 척도(AI Assessment Scale), 사회 구성주의(Social Constructivism), 근접 발달 영역(Zone of Proximal Development, ZPD), 평가 타당성(Assessment Validity), 비판적 인공지능 문해력(Critical AI Literacy, CAIL) 등이 있다.
최근의 인공지능 발전 동향과 교육계의 대응에 대한 문헌 연구를 수행하였다. 또한 기존 AIAS 모델의 글로벌 적용 사례에서 수집된 비판과 피드백을 분석하고, 이를 사회 구성주의적 학습 이론과 결합하여 프레임워크를 고도화하는 방식을 취하였다.
중립적 색채와 원형 디자인을 적용한 개정된 5단계 AIAS 프레임워크를 도출하였다. 각 단계별로 구체적인 정의와 활용 가이드, 그리고 실제 교육 현장에서 적용 가능한 실질적인 사례(Vignettes)를 함께 제시하여 교수자들이 평가 설계 시 즉각적으로 활용할 수 있게 하였다.
급격한 생성형 인공지능(GenAI)의 등장에 따른 교육적 불확실성을 어떻게 해결하고, 평가 체계 내에 이를 투명하게 통합할 것인가가 서론의 핵심 논점이다. ChatGPT와 같은 대규모 언어 모델(LLMs) 기반의 챗봇이 등장하면서 교육 분야는 전례 없는 혼란을 겪게 되었다. 이전 세대의 자동화된 문장 수정 도구나 디지털 작문 보조 도구의 성능을 뛰어넘는 이 기술에 대해, 교육계는 초기에 사용 금지나 탐지 도구 도입으로 대응하였다.
기술의 보편화에 따라 담론은 금지에서 신중한 통합으로 전환되었다. 학생과 교수자가 인공지능 도구와 대치하는 것이 아니라 협력하는 법을 배워야 한다는 인식이 확산되었으며, 이를 위한 윤리적 사용 지침의 필요성이 대두되었다. 이러한 논의는 교육적 정직성의 가치를 지키고 인공지능 활용의 투명성을 확보하기 위한 구체적인 프레임워크 개발로 이어진다.
교육 현장의 혼란을 잠재우고 교수자와 학생 간의 열린 대화를 지원하기 위해 인공지능 평가 척도(AIAS)가 개발되었다. 이 프레임워크는 전 세계 수십 개국에서 사용되고 12개 이상의 언어로 번역되는 등 교육 현장에서 유연하고 실용적인 도구로서의 가치를 인정받았다.
초기 프레임워크에 대한 현장의 실질적인 경험과 학계의 비판적 피드백은 새로운 버전 개발의 동력이 되었다. 지난 2년간 발생한 기술의 폭발적인 변화와 다양한 교육적 맥락에서의 요구를 반영하여, 기존의 한계를 보완하고 미래 지향적인 평가 전략을 제시하고자 한다.
2022년 ChatGPT(GPT-3.5)의 등장 이후 인공지능 기술은 텍스트 생성을 넘어 수학적 추론, 과학적 과업 수행 능력까지 비약적으로 발전하였다. 특히 멀티모달 기능과 영상 생성 시스템의 도입은 거의 모든 학문 분야에 영향을 미치고 있다. 최신 인공지능 모델은 의학 및 법학 전문 시험에서 상위권 성적을 거두거나 복잡한 코딩 경진 대회에서 뛰어난 성과를 보여주며 교육 현장을 압박하고 있다.
2.1. 인공지능 텍스트 탐지기의 과제 (The challenges of AI text detectors)
인공지능 도구에 의한 평가 체계의 불안정성에 대응하기 위해 민간 기업들을 중심으로 탐지 도구가 시장에 출시되었으나, 여러 기술적·윤리적 문제에 직면해 있다.
탐지 도구의 신뢰성 부족: 인공지능 탐지기는 결과가 일정하지 않고 오탐지 가능성이 높다. 이는 학생들에게 정당하지 못한 부정행위 혐의를 씌우는 등 학업 및 개인적 삶에 치명적이고 고통스러운 결과를 초래할 수 있다.
신뢰 관계의 훼손: 인공지능 사용을 단순히 부정행위로 규정하는 감시 위주의 접근은 교수자와 학생 사이의 신뢰를 무너뜨린다. 교수자가 학생의 과제물을 의심의 눈초리로 바라보게 됨에 따라 적대적인 교육 환경이 조성된다.
탐지의 실효성 상실: 인간과 인공지능의 협업 작문이 새로운 표준이 되어가는 상황에서 인공지능의 개입 여부를 명확히 구분하는 것은 불가능하며 효율적이지도 않다.
2.2. 성장하는 합의 (A growing consensus)
교육계 내에서는 인공지능을 위협으로만 간주하기보다 현실적인 공존 방안을 모색해야 한다는 공감대가 형성되고 있다. 인공지능에 대한 무조건적인 저항은 지속 가능한 해결책이 아니며, 오히려 인공지능 시스템의 잠재력을 학습에 활용하고 비판적으로 평가하는 능력을 길러주는 것이 필수적이다.
이에 따라 평가 방식 또한 결과물 중심에서 벗어나 다음과 같은 방향으로 변화하고 있다.
단일 시험이나 에세이 중심의 평가가 학습을 측정하는 유일한 수단이 될 수 없음을 인정한다.
학생 중심의 접근과 실제적인 과업을 수행하는 인증적 평가에 집중한다.
학습 결과물보다는 학습 과정, 고차원적 사고 능력, 그리고 실행적 판단력을 평가하는 방식으로 재설계한다.
이러한 인식 변화는 인공지능을 교육에 통합하기 위한 다양한 프레임워크의 등장을 이끌었으며, 이는 단순히 기술을 허용하거나 금지하는 이분법적 사고를 넘어선 논의로 발전하고 있다.
인공지능을 전면적으로 금지하는 것이 교육적으로 생산적이지 않으며 실현 불가능하다는 인식이 기존 AIAS의 핵심적인 출발점이다. 학생들은 졸업 후 인공지능이 보편화된 사회에 참여해야 하므로, 교실 내에서의 사용 여부와 관계없이 이 기술을 마주하게 된다는 점을 전제로 한다.
프레임워크 설계의 주요 도전 과제
기존 프레임워크를 개발할 당시 저자들은 다음의 세 가지 과제를 해결하고자 하였다.
학업적 정직성 보호: 학생이 제출한 작업물이 본인의 실제 능력을 반영하고 있는지 확인하고 학업적 정직성을 지원할 수 있는 방법을 모색하였다. 이에 대한 해답으로 교수자와 학생 간의 열린 대화와 투명성을 강조하였다.
유연성과 실용성: 평가 방식은 전공 분야, 교육 수준, 기관의 규범에 따라 매우 다양하기 때문에, 사회과학뿐만 아니라 다양한 학문적 맥락에 적응할 수 있는 유연한 도구를 설계하고자 하였다.
전 교육 단계로의 확장성: 고등교육(대학교)에만 국한되지 않고 초·중·고교(K-12) 교육 현장에서도 적용할 수 있는 보편적인 도구를 지향하였다.
기존 AIAS의 5단계 구조
기존 프레임워크는 단순히 허용과 금지라는 이분법적 접근을 피하고, 기술의 잠재적 장점과 한계를 이해할 수 있도록 다섯 가지 수준으로 세분화되었다.
1단계 (No AI): 인공지능의 도움 없이 학습자의 지식과 기술에만 전적으로 의존하여 과제를 완료한다.
2단계 (AI-Assisted Idea Generation and Structuring): 브레인스토밍, 구조 설계, 아이디어 생성 단계에서 인공지능을 활용할 수 있으나 최종 결과물에는 인공지능이 생성한 콘텐츠가 포함되어서는 안 된다.
3단계 (AI-Assisted Editing): 학생이 작성한 내용의 명확성이나 품질을 개선하기 위해 인공지능을 편집 도구로 사용하며, 새로운 콘텐츠 생성은 허용되지 않는다.
4단계 (AI Task Completion, Human Evaluation): 과제의 특정 요소를 인공지능이 완성하며, 학생은 인공지능이 생성한 결과물을 비판적으로 검토하고 이에 대한 해설이나 의견을 제공한다.
5단계 (Full AI): 인공지능을 협업 파트너(Co-pilot)로 활용하여 과제 전반에 걸쳐 광범위하게 사용한다.
3.1. AIAS의 이론적 토대 (Theoretical underpinning of the AIAS)
AIAS의 근간은 학습을 사회적 상호작용을 통해 매개되는 과정으로 보는 사회 구성주의(Social Constructivism) 원칙에 있다. 인공지능 도구는 학생의 지식 구축을 지원하는 매개 기술로 간주된다.
근접 발달 영역(ZPD)과 스캐폴딩(Scaffolding)
비고츠키(Vygotsky)의 근접 발달 영역(Zone of Proximal Development) 개념은 AIAS의 핵심 이론적 틀을 제공한다. 인공지능 도구는 학습자가 독자적으로 수행할 수 있는 수준과 지원을 받아 도달할 수 있는 잠재적 수준 사이의 간극을 메워주는 비계(Scaffolding) 역할을 수행한다.
이론적 관점의 차별성
전통적인 비계 설정은 학습이 진행됨에 따라 점진적으로 제거되지만, 인공지능 도구는 학습자의 도구 상자(Toolkit)에 지속적으로 남게 된다는 차이가 있다. 따라서 AIAS는 기술을 제한하고 통제하기보다는 투명하고 적절하게 사용하는 법을 가르치는 데 중점을 둔다. 또한, 학생이 타인과 단절된 채 인공지능 튜터와 개인 맞춤형 학습을 하는 고립된 형태보다는 교수자 및 동료와의 사회적 경험을 중시하는 방향을 견지한다.
AIAS의 첫 번째 버전은 여러 교육 현장에서 유의미한 성과를 거두었으나, 전 세계적인 실천 과정에서 다양한 비판과 개선 요구가 제기되었다. 이러한 피드백은 기술의 변화와 교육적 필요를 반영하여 프레임워크를 고도화하는 핵심적인 근거가 되었다.
교육 수준 및 맥락에 따른 차별화 필요성
K-12(유·초·중·고)와 고등교육(대학교) 간의 차이를 더 명확히 구분해야 한다는 지적이 있었다. 저자들은 AIAS가 특정 수준에 국한되지 않는 유연한 도구임을 강조하면서도, 각 교육 단계의 특성에 맞는 적응적 사용이 교수자의 판단에 달려 있음을 확인하였다. 이 프레임워크는 처방적인 도구가 아니라 교육자가 자신의 상황에 맞춰 개혁을 시작할 수 있는 출발점이다.
시각적 표현의 문제점
기존의 신호등 색상 체계(빨강-주황-초록)가 의도치 않은 계층적 가치 판단을 내포하고 있다는 비판이 제기되었다.
빨간색은 사용 금지나 부정적인 정지 신호로 인식될 위험이 있다.
초록색은 긍정적인 성공이나 무조건적인 권장으로 오인될 수 있다.
특정 평가 유형이 다른 유형보다 본질적으로 더 우월하거나 열등하지 않음에도 불구하고, 색상이 주는 고정관념이 이러한 오해를 불러일으킬 수 있다.
따라서 개정판에서는 중립적인 색상 팔레트를 사용하여 이러한 가치 함축을 배제하고 접근성을 높이는 방향을 선택하였다.
평가 설계의 근본적인 변화 부족
일부 현장에서는 AIAS가 기존 평가 방식에 인공지능 활용 여부만 덧붙이는 식의 표면적인 변화에 그치고 있다는 비판이 있었다. 인공지능 기술의 변화에 대응하기 위해서는 단순한 보충이 아니라 평가의 근본적인 전환(Transformation)을 위한 구조적 토대가 필요함이 강조되었다.
중간 지점의 실효성에 대한 논의
엄격한 통제(Lane 1)와 전면적 협업(Lane 2)으로 구분하는 '투 레인(Two-lane)' 접근법과 비교하여, 그 사이의 중간 지점이 실제로 통제 가능한지에 대한 논의가 있었다. 저자들은 감독되지 않는 환경에서 인공지능 사용을 완벽히 통제하는 것이 불가능하다는 현실을 인정한다. 그러나 교육자와 학생 간의 투명한 대화를 지원하고 평가를 재설계하기 위해서는 세분화된 단계가 제공하는 명확성이 여전히 가치가 있다고 주장한다.
5. AIAS의 진화 (Evolution of the AIAS)
비판적 피드백과 기술적 변화를 수용하여 개정된 AIAS는 인공지능을 제한하는 것보다 교육적 맥락에 맞는 적절한 사용과 평가의 타당성을 확보하는 데 중점을 둔다.
5.1. 주요 개정 사항 및 근거 (Key revisions and rationale)
개정판에서 가장 눈에 띄는 변화는 시각적 디자인과 평가 철학의 성숙이다.
시각적 설계의 변화: 기존의 신호등 색상 체계를 폐지하고 중립적인 색상 팔레트와 원형 디자인을 도입하였다. 이는 특정 수준이 다른 수준보다 우월하다는 계층적 인식을 제거하고, 모든 단계가 학습 목표에 따라 동등한 가치를 지님을 강조하기 위함이다.
멀티모달 기술의 반영: 텍스트 생성을 넘어 이미지, 오디오, 비디오 등 급속도로 발전하는 멀티모달 생성 기술의 현실을 반영하여 프레임워크를 업데이트하였다.
평가 타당성 중심의 접근: 부정행위 적발보다는 학생의 실제 지식과 기술 수준을 정확히 측정하는 '평가 타당성'을 우선순위에 둔다. 이에 따라 실질적인 검증이 불가능하고 학생 간 불평등을 초래할 수 있었던 '초안 부록 제출' 요구사항(기존 3단계)을 삭제하였다.
공동 설계의 강화: 가장 높은 단계인 5단계에서는 교수자와 학생이 함께 평가 방식을 설계하는 공동 설계(Co-design) 개념을 강화하여 기술적 혁신에 유연하게 대응하도록 하였다.
1단계: 인공지능 미사용 (Level 1: No AI)
이 단계는 인공지능의 도움 없이 학습자의 순수한 역량을 측정하는 통제된 환경을 의미한다.
개정판에서는 단순한 사용 금지 선언을 넘어 '통제된 환경'에서의 시행을 명시적으로 강조한다. 인공지능 탐지 도구의 불완전함과 명예 제도의 한계를 인정하고, 인공지능이 없는 상태를 보장하기 위해 물리적으로 디지털 접근이 제한된 감독 환경에서 평가를 진행할 것을 권고한다. 이는 학습자의 기초적인 수사적 기술, 문장 구조 제어 능력, 핵심 지식 등을 왜곡 없이 평가하기 위해 필수적이다. 다만, 장애 학생을 위한 보조 공학 기기 사용은 인공지능 활용과는 별개로 보장되어야 함을 분명히 한다.
2단계: 인공지능 보조 계획 수립 (Level 2: AI-Assisted Planning)
단순한 아이디어 생성을 넘어 과제 수행의 초기 단계에서 인공지능의 분석적 역할을 인정하는 단계이다.
학습자는 브레인스토밍, 개요 작성, 초기 자료 조사 등에 인공지능을 활용할 수 있다. 평가의 초점은 인공지능이 생성한 아이디어를 학습자가 어떻게 독립적으로 발전시키고 구체화했는가에 맞춰진다. 따라서 결과물 자체보다는 과정을 중시하는 과업 설계가 필요하다. 예를 들어 미디어 전공 과업에서 스토리보드와 촬영 계획을 세울 때 인공지능을 활용하되, 이를 바탕으로 실제 영상을 제작하는 능력은 학습자 스스로 증명하도록 설계한다.
3단계: 인공지능 보조 과업 수행 (Level 3: AI-Assisted Task Completion)
인공지능을 편집 도구가 아닌 초안 작성 및 구성의 협력자로 인식하는 단계이다.
기존 버전이 인공지능의 역할을 표면적인 수정으로 한정했던 것과 달리, 개정판에서는 인공지능을 활용한 초안 작성과 데이터 분석 기능을 포괄한다. 이 단계에서 가장 중요한 교육적 목표는 비판적 인공지능 문해력(Critical AI Literacy)의 함양이다. 학생은 인공지능이 생성한 콘텐츠의 오류나 편향을 식별하고, 자신의 주관과 전문 지식을 결합하여 독자적인 목소리를 유지하는 능력을 보여주어야 한다. 인공지능이 준 결과물을 완성된 것으로 받아들이는 '종결의 환상'을 극복하는 것이 핵심이다.
4단계: 전체 인공지능 활용 (Level 4: Full AI)
학습 목표 달성을 위해 인공지능 도구를 전략적으로 배치하고 활용하는 단계이다.
교수자는 특정 학습 성과를 내기 위해 인공지능을 광범위하게 사용하도록 허용하거나 권장한다. 평가의 중심은 인공지능 사용 여부가 아니라, 인공지능을 얼마나 효과적으로 지시(Prompting)하고 활용하여 복잡한 문제를 해결했는가로 이동한다. 컴퓨터 프로그래밍 수업에서 현직 개발자들이 사용하는 인공지능 코딩 도구를 활용하여 최적의 솔루션을 설계하는 것이 대표적인 사례이다. 기관은 유료 모델에 접근하기 어려운 학생들을 위해 공용 계정을 제공하는 등 교육적 형평성을 고려해야 한다.
5단계: 인공지능 탐구 (Level 5: AI Exploration)
기존의 학문적 경계를 넘어 인공지능을 창의적으로 활용하고 새로운 평가 방식을 탐색하는 미래 지향적 단계이다.
단순히 도구를 사용하는 수준을 넘어, 인공지능을 활용해 복잡한 사회 현상을 시뮬레이션하거나 존재하지 않는 데이터셋을 생성하는 등 새로운 탐구 방식을 창조한다. 교수자는 권위적인 평가자에서 학생의 혁신을 지원하는 공동 참여자로 역할이 변화한다. 예술 분야에서 무용수의 움직임에 실시간으로 반응하는 인공지능 조명 시스템을 구축하는 것처럼, 인간의 인지 역량과 인공지능이 긴밀하게 얽히는 새로운 형태의 학습과 평가를 실험한다.
개정된 인공지능 평가 척도(AIAS)는 생성형 인공지능이 교육 현장의 필수적인 요소가 된 현실을 반영하여, 교수자와 학생 사이의 투명한 소통을 지원하고 평가를 효과적으로 재설계하는 데 목적을 둔다. 이번 개정은 신호등 색상 체계의 계층적 암시를 제거하고 멀티모달 기술의 발전을 수용함으로써 프레임워크의 유연성을 높였다. 다만, 기술 사용에 따른 환경적 비용과 윤리적 쟁점은 여전히 중요한 과제로 남아 있으며, 단순히 도구를 도입하는 것을 넘어 학습자가 인공지능 활용을 솔직하게 밝힐 수 있는 교육 문화의 변화가 필요하다. AIAS는 각 기관의 맥락에 맞게 변용 가능한 유연한 가이드라인이며, 궁극적으로는 인간과 인공지능의 능력이 긴밀하게 얽히는 미래 사회에서 학생들의 타당한 학습 성과를 보장하고 이들이 불확실한 환경을 헤쳐 나갈 수 있도록 돕는 것을 지향한다.