AI가 정답을 만드는 시대에 교육은 어디로 가야 하는가
밤새 풀던 수학 문제를 단 5초 만에 풀어주는 친구가 생겼다고 상상해 보십시오. 그런데 그 친구와 함께 시험을 본다면, 과연 시험은 어떤 의미를 가질 수 있을까요? 최근 구글의 인공지능 Gemini가 국제수학올림피아드(IMO)에서 최우수상을 받았습니다. 한때 인간 두뇌의 한계를 시험하는 무대였던 곳에서 AI가 최고 자리에 오른 것입니다. 여기에 더해, 여러 글로벌 기업들이 코딩 테스트에서 AI 사용을 허용하기 시작했습니다. 실무에서는 AI를 쓰는 것이 당연해지는 시대, 교육과 시험은 어디로 향해야 할까요?
시험은 오랫동안 ‘누가 더 빨리, 더 정확하게 문제를 푸는가’를 측정하는 장치였습니다. 난이도를 높이면 상위권 학생을 변별할 수 있었고, 그 결과가 입시와 채용의 기준이 됐습니다. 그러나 AI 시대에는 이 공식이 무너집니다. 난이도를 아무리 올려도 AI는 금세 적응하여 문제를 풀어버립니다. “AI 없는 시험”을 고수하는 방법도 있겠지만, 현실 세계가 AI 중심으로 변하고 있는 상황에서 시험만 과거에 머무르는 것은 비현실적인 선택이 될 수 있습니다. 그렇다고 무조건 AI를 허용하는 것도 위험이 있습니다. 학생들이 AI에 지나치게 의존하여 스스로 사고하는 능력이 약화될 수 있고, 평가 환경을 공정하게 통제하기 어려운 문제가 생길 수 있습니다. AI가 시험의 전통적 의미를 위협하는 동시에, 시험의 재탄생을 요구하고 있는 것입니다.
우리는 이미 한 차례 교육과 평가의 대전환을 경험한 적이 있습니다. 1990년대 초반까지 우리나라 대학 입시는 ‘학력고사’라는 전국 단일 시험이 절대적 기준이었습니다. 이 시험은 교과서에 실린 지식과 개념을 얼마나 많이, 얼마나 정확히 외웠는지를 평가하는 데 초점이 맞춰져 있었습니다. 대부분의 문제는 암기한 내용을 그대로 재현하면 풀 수 있었고, 변별력은 주로 세세한 내용 기억력과 계산 정확도에서 갈렸습니다.
그러나 1994학년도부터 ‘대학수학능력시험(수능)’이 도입되면서 평가 철학이 크게 바뀌었습니다. 단순 암기력보다 사고력·추론력·응용력을 중시해야 한다고 보았습니다. 그래서 수능은 교과 내용을 토대로 하되, 단순 지식 재현보다는 이를 변형·활용하는 능력을 측정하는 방향으로 설계되었습니다. 예를 들어, 단순히 역사 연도를 묻는 대신 사건의 원인과 결과를 연결짓는 문제, 수학 공식 자체를 묻는 대신 이를 새로운 상황에 적용하는 문제가 늘어났습니다. 이 변화는 수업 현장에도 영향을 미쳐, ‘문제 풀이’ 중심 수업에서 ‘사고 훈련’ 중심 수업으로의 이동을 촉진했습니다.
하지만 이 변화는 여전히 ‘출제 방식의 혁신’에 머물렀습니다. 문제의 형식과 평가 포인트는 바뀌었지만, 시험의 근본 구조 '출제자와 응시자가 있고, 출제자가 만든 문제의 정답을 응시자가 찾아내는 방식'은 그대로 유지되었습니다. 즉, 시험의 존재 이유가 ‘얼마나 잘 푸는가’를 측정하는 데 있었다는 점은 변하지 않았습니다.
이 지점에서 해외 사례를 보면 공통된 흐름과 차이점이 드러납니다. 미국 SAT 개편입니다. SAT는 한때 단어 암기와 속독 기술로 점수를 높일 수 있다는 비판을 받았습니다. 이에 2016년 개편에서는 어휘 문제를 ‘실제 맥락 속 의미 파악’으로 바꾸고, 수학 영역도 실생활 적용 문제 비중을 늘렸습니다. 단순한 기계적 풀이 능력보다 분석력과 자료 해석력을 강조한 것입니다.
영국 A-레벨 개편 사례도 있습니다.(2015~2017년) 영국은 특정 과목 심화 학습을 평가하는 A-레벨 시험에서 ‘모듈별 시험+누적 합산’ 방식을 폐지하고, 학기 말 ‘종합 시험’ 중심으로 바꿨습니다. 그 과정에서 단편 지식 암기보다 종합적 에세이 작성, 비판적 분석 과제의 비중을 강화했습니다.
이러한 변화들은 공통적으로 단순 암기에서 사고·응용 평가로의 전환이라는 흐름을 보여줍니다. 하지만 이 변화 역시 한국 수능 개편과 마찬가지로, 시험의 ‘형태’를 바꾸는 수준에 머물렀습니다.
AI 시대에 우리가 맞닥뜨린 변화는 이와는 차원이 다릅니다. AI는 단순 지식 문제뿐 아니라 고난도 추론 문제까지 빠른 속도로 풀어냅니다. 난이도를 높이거나 문제를 변형해도 AI는 패턴 인식과 방대한 데이터 학습을 통해 금세 적응합니다. 이 상황에서 기존처럼 출제자가 문제를 내고, 응시자가 제한 시간 안에 정답을 찾아내는 구조는 더 이상 유효한 변별 도구가 되기 어렵습니다.
과거의 변화가 ‘시험의 형식과 난이도 조정’에 머물렀다면, 이제 필요한 것은 ‘시험의 존재 이유와 목적’ 자체를 재설계하는 것입니다. 앞으로는 정답을 찾는 능력이 아니라, AI를 포함한 다양한 자원을 활용해 복잡한 문제를 해결하고, 그 과정에서 비판적으로 사고하는 능력이 핵심 역량이 되어야 합니다. 이는 한국, 미국, 영국 모두가 아직 본격적으로 경험하지 못한 전환이며, 세계 교육사에서 유례없는 평가 혁명이 될 가능성이 큽니다.
앞으로의 시험은 ‘AI를 못 쓰게 하는 것’이 아니라 ‘AI를 얼마나 잘 쓰는가’를 측정하는 방향으로 나아갈 가능성이 큽니다. 단순한 정답 생산이 아니라, AI가 제시한 답을 검증하고 응용하며 더 나은 해법을 만들어내는 과정이 평가의 중심이 됩니다. 이 과정에서 필요한 능력은 단순 지식이 아니라, AI와 협력하는 능력, 결과를 해석하는 능력, 그리고 기술이 틀릴 수 있다는 전제를 바탕으로 판단을 내리는 능력입니다. AI를 도구로 삼아 문제를 해결하는 능력은 곧 새로운 시대의 ‘기본기’가 될 것입니다.
미래의 시험은 결과만으로 평가하지 않을 것입니다. 완성도와 창의성, 정확성을 평가하는 ‘결과 평가’와 함께, 문제를 풀어나가는 과정에서 AI와 나눈 대화, 질문의 질, 수정과 검증의 흐름을 평가하는 ‘과정 평가’를 병행합니다. 시험 시간 동안 학생은 AI와 질의응답을 하고, 그 기록이 평가자에게 전달됩니다. 단순히 정답을 적는 대신, 어떻게 답에 도달했는지가 점수의 절반 이상을 차지하는 방식입니다. 이렇게 하면 AI가 제공하는 답을 그대로 옮겨 적는 부정행위를 원천적으로 줄이고, 학생이 실제로 어떤 사고 과정을 거쳤는지 확인할 수 있습니다.
예를 들어 역사 논술 시험이라면, AI가 찾아준 자료를 그대로 인용하는 것이 아니라 그 신뢰성을 검토하고 다른 사료와 비교하여 비판적으로 재구성해야 합니다. 수학 문제에서는 AI의 복잡한 풀이를 단순화하거나, 더 직관적인 방법을 제시하는 능력이 점수가 됩니다. 사회 문제 해결 과제라면 AI가 내놓은 제안안을 분석하고, 그중 실행 가능한 방안을 선택하여 구체적인 정책 계획으로 발전시키는 과정이 평가 대상이 됩니다. 이 모든 과정이 기록되기 때문에, 결과와 과정이 균형 있게 반영됩니다.
물론 이런 변화에는 반발이 따릅니다. “그럼 결국 다 AI가 해주는 것 아니냐”는 회의론이 대표적입니다. 하지만 결과보다 과정을 중시하면 AI를 맹목적으로 쓰는 학생은 높은 점수를 받기 어렵습니다. 또, 시험 환경에서 AI 사용 로그를 자동 저장하면 부정행위 가능성을 크게 줄일 수 있습니다. 평가자의 부담은 AI 기반 로그 분석 툴이 줄여줄 수 있습니다. 그러나 여전히 AI 의존도가 높아질 경우 인간 고유의 사고력이 퇴화할 수 있다는 점은 경계해야 합니다. 교육계와 정책 결정자들은 이 균형을 어떻게 잡을지 치열하게 논의해야 합니다.
이 변화는 단순히 시험 제도 개편의 문제가 아닙니다. 교육의 목적 자체를 다시 고민하는 계기입니다. 더 어려운 문제를 풀게 하는 것이 교육의 미래입니까, 아니면 AI와 함께 더 멀리 가는 방법을 가르치는 것이 미래입니까. 창의성, 맥락 이해, 윤리적 판단 같은 인간 고유의 역량은 여전히 필요합니다. 그러나 이제는 여기에 AI 리터러시가 결합해야만 합니다. AI를 활용해 자신의 생각을 확장하고, 기술이 제공하는 답을 넘어서는 새로운 가능성을 발견하는 능력이 교육의 핵심이 됩니다.
AI가 시험을 무너뜨리는 시대, 우리는 학력고사에서 수능으로 바뀌던 때보다 훨씬 큰 변화의 물결 앞에 서 있습니다. 앞으로의 시험은 금지가 아니라 활용, 정답보다 과정, 개인이 아닌 협력의 능력을 평가하는 장치로 변할 것입니다. 지금이 바로 새로운 평가 패러다임을 설계해야 할 순간입니다. 이 변화를 놓친다면, 교육은 현실과 더 멀어지고, 학생들은 AI 시대의 주인공이 될 기회를 잃게 될지도 모릅니다.