brunch

You can make anything
by writing

C.S.Lewis

by 글적글적샘 Jan 27. 2024

Chat GPT로 자동 피드백 수업 설계하기

부산 1급 정교사 자격 연수 원고!

열심히도 썼다;;



김형성 부산남일고 교사  


Ⅰ. 기술에 압도당하지 않는 Chat GPT 사용법 


각종 에듀테크 연수에서 엄청난 압박감을 느낄 때가 있습니다. 능수능란하게 프로그램을 다루는 강사님이 부러우면서도, 내가 할 수 없을 듯한 불안감을 느끼기 때문인데요. 화려한 에듀테크 도구로 무장한 세련된 수업을 보여주고 싶은 욕망을 버리지 못해 그런 걸까요. 가끔은 수업의 본질과 목적을 새하얗게 까먹기도 합니다. 


단순하게 ‘Chat GPT 사용법’이라고 하면 될 것을 왜 ‘기술에 압도당하지 않는’이라는 수식어구를 붙였는지 의아하셨을 텐데요. 위에서 말씀드린 압박감과 불안감이 저만의 것은 아니라는 생각이 들었기 때문입니다. 선생님들은 이런 적 없으신가요? 아니면 혹시 지금 이런 부담을 느끼고 계신가요? 1급 정교사 연수는 정말 많은 선생님의 수업을 엿볼 기회인데요. 이 기회가 혹여나 부담되지 않을지 걱정됩니다. 사실은 10년 전의 제가 그랬거든요.


Chat GPT를 활용한 수업만큼은 그런 부담으로 다가가지 않았으면 좋겠습니다. 1차시에는 기존의 많은 교육청과 선생님들이 Chat GPT를 어떤 관점에서 사용해 왔는지를 비판적으로 살펴보려고 합니다. 그리고 수업의 본질과 목적을 살리기 위한 Chat GPT 사용법을 알아보겠습니다. 2차시에는 제가 고민하며 설계한 수업을 선생님들과 함께해보려고 합니다. 3차시에는 SAAI를 활용해 학생의 개선과 성장을 지원하는 서술형 평가가 어떻게 가능한지를 보여드리려고 합니다. 


1. 생성형 AI란?  


다양한 생성형 AI가 있지만, Chat GPT가 가장 대표적이죠? 쉽게 말씀드려 대화(Chat)가 가능한 GPT라는 뜻인데요. 일반적으로 이 같은 생성형 AI를 통틀어 ‘미리 학습한 정보로 확률적 추론을 통해 대화를 생성하는 변형 기술’이라고 말하긴 하죠. 화면에 나온 그림을 한번 보실까요?


 생성형 AI의 성능, 즉 확률적 추론 능력을 결정짓는 것이 바로 ‘매개변수’입니다. 쉽게 말씀드리면 ‘다양한 경우의 수’가 될 텐데요. Oepn AI사는 GPT 3.5라는 언어 모델을 개발하는 데 4조가량을 쏟아부었고, 1750억개의 매개변수를 투입했다고 하죠. 이 과정에서 MS가 엄청난 투자를 해서 Open AI의 지분 49%를 가지고 있답니다. GPT 4의 경우 매개변수를 1조개 정도 투입했다고 알려졌는데, 이는 인간 뇌 시냅스의 1%에 해당합니다. 개발 비용이 비싼 만큼 GPT 4를 사용하려면 월 사용료를 내야 하는데, 혹시 얼마인지 알고 계시나요? 강의에서 여쭤보겠습니다.


MS의 경쟁사인 구글이 가만히 있을 리가 없겠죠? 매개변수 5400억개를 투입한 PaLM2라는 언어 모델을 개발했습니다. 국내 굴지의 IT 대기업인 네이버 또한 가만히 있을 수 없죠. 하이퍼클로바X라는 자체 언어 모델을 만들어 AI 생태계를 만들어가는 중입니다. 그런데 가끔 에듀테크 연수에 가면 정말 다양한 생성형 AI 도구를 만나볼 수 있지 않나요? 저것들은 다 뭔가 싶으시죠?


모든 프로그램은 위에서 언급한 GPT와 PaLM2의 응용 버전이라고 생각하시면 됩니다. 각 회사가 만든 언어 모델의 API, 즉 어플리케이션(A)을 프로그래밍(P)할 수 있는 인터페이스(I)에 대한 사용료를 내고 다양한 응용 프로그램을 만든 거죠. 그래서 실제 존재하는 대규모 언어 모델은 GPT와 PaLM2, 하이퍼클로바 X만 있다고 생각하시는 게 속 편하겠습니다.


GPT 4를 무료로 사용할 수 있는 방법이 있습니다. 뤼튼(WRTN)이라고 들어 보셨나요? 뤼튼은 위에서 언급한 GPT 3.5와 4, PaLM2 그리고 최근에 공개된 GPT 4 Turbo를 무료로 사용할 수 있는 아주 좋은 사이트인데요. 그래서 오늘 실습에서는 뤼튼을 사용하려고 합니다. 다들 이 글을 미리 읽으실 것 같은데요. 지금 뤼튼에 들어가셔서 꼭 회원가입 하시면 좋겠습니다.


2. 기술과 인간의 관계 : 대체(Replacement)의 관점 




할리우드 배우와 작가가 63년 만에 동반 파업을 했었다는 소식 알고 계셨나요? 바로 생성형 AI 때문인데요. 넷플릭스, 디즈니와 같은 업체가 GPT의 API를 사서 시나리오를 만드는 생성형 AI를 개발했다고 하죠. 생성형 AI는 사람들이 좋아할 만한 시나리오의 초안을 만들 수 있습니다. 물론 투박하고 거칠죠. 이 시나리오의 수정 업무를 작가들에게 맡기려고 했던 겁니다. 임금은 딱 ‘수정, 보완’의 역할만큼만 주기로 하구요. 화날 만하겠죠?


할리우드 배우, 특히나 조연 배우들도 파업에 동참했는데요. 해당 배우의 얼굴을 촬영한 뒤 영상 생성 AI로 다양한 표정, 목소리를 입히는 거죠. 이렇게 수천만 명의 가상 배우를 만들어 영화에 투입하는 겁니다. 촬영료는 스튜디오에서 촬영한 1회분만 지급하고요. 그래서 두 직종이 동반 파업을 하게 된 것이죠. 결과는 어떻게 됐을까요? 강의에서 알려드리겠습니다.


러다이트 운동 억나시나요? 산업화 시대에 기계에 일자리를 빼앗겨 분노한 노동자들이 기계를 부순 사건이죠. 역사적으로 기술과 인간은 끝없이 대립합니다. 이 모든 대립은 결국 기술이 인간을 대체할 수 있다는, 언젠가는 대체하게 되리라는 전망에서 비롯된 것인데요. 이 같은 관점은 타당하고 유용할까요? 3번에서 조금 더 상세하게 살펴보겠습니다. 



3. Chat GPT를 활용한 기존 수업 비판적으로 바라보기 


교육 분야에 신기술이 등장하면 교육부와 교육청은 선도적으로 뛰어듭니다. 평소 수업을 잘 하시는 선생님들에게 연락을 하죠. 이 기술을 사용해 수업을 구성해 달라구요. 작년에 모 교육청에서 나온 자료입니다. 선생님들께서는 아래에 나와 있는 Chat GPT 활용 방안에 동의하시나요? 그 이유는 무엇인가요?




4. 기술과 인간의 관계 : 보완(Complement)의 관점 


최근 MS는 코파일럿(Copilot)이라는 인공지능 서비스를 공개했습니다. GPT를 적극 활용했죠. MS는 Open AI의 지분 49%를 가지고 있으니까요. MS의 Bing이라는 검색 엔진 또한 GPT를 응용해서 서비스를 제공하고 있죠. 코파일럿은 무슨 뜻일까요? 바로 파일럿의 동료, 부조종사라는 뜻이죠. 비행기의 조종사는 부조종사의 도움뿐만 아니라 자동 항법 장치의 도움을 받습니다. 아무리 뛰어난 사람이라도, 피로감을 느끼고 어느 순간에는 실수를 할 수 있기 때문입니다. 그래서 누군가의 도움이 필요합니다. ‘코파일럿’이라는 이름에서 기술의 역할을 짐작해 봅니다. 우리를 대체하는 것이 아니라 보완해야 한다는 것을 말이죠.


이 같은 견해가 저만의 생각은 아닙니다. 교육 분야뿐만 아니라 다양한 분야에서 Chat GPT와 같은 생성형 인공지능을 대체재가 아닌 보완재로 바라보고 있습니다. 물론 이 같은 경향이 언제까지 지속될지 알 수 없습니다. 오늘의 인공지능과 내일의 인공지능은 분명히 다르니까요. 중요한 건 지금의 인공지능을 바라보는, 지금을 살아가는 우리의 태도입니다. 맹목적인 추종과 대체의 관점만으로는 ‘기술에 압도당하는 수업’을 할 수밖에 없습니다. 하지 못하면 불안감과 좌절감을 느끼죠. 여기서 벗어나려면 어떻게 해야 할까요? 


전 Chat GPT와 같은 많은 에듀테크 도구가 변질된 과정 중심(중시) 평가의 본질을 회복하는 차원에서 활용되면 좋겠습니다. 혹시 관심 있으신 선생님은 아래 글을 검색해서 한번 읽고 오시면 좋겠습니다. 



Ⅱ. Chat GPT로 자동 피드백 수업 설계하기 


1차시에서 설명한 것처럼 Chat GPT의 피드백은 완벽하지 않습니다. 저는 그래서 더 좋습니다. 기술과 인간 모두 완벽하지 않아서 서로를 보완해 줄 수 있으니까요. 기술의 실수와 오류를 보여줄 수 있고, 기술을 바라보는 올바른 관점을 설명할 수 있으며, 궁극적으로 기술을 활용하는 방법을 가르칠 수 있으니까요. 


제가 이 같은 수업을 설계한 이유는 크게 2가지입니다. 첫째는 1차시에서 설명한 것처럼 학생들이 ‘좋은 피드백’을 받을 수 있는 경험이 드물기 때문입니다. 특히나 국어 교사 대다수가 학생의 글에 부정적 피드백을 한다거나, 제시한 피드백 대다수가 표현 층위(맞춤법, 띄어쓰기, 문장 등)에 국한돼 있다는 국내외 연구 결과는 저희를 조금 반성하게 만들죠. 


두 번째는 채점의 주관성을 보완할 수 있다는 점입니다. 글쓰기를 비롯한 각종 수행평가, 논·서술형 평가 도입과 관련해 많은 교사가 걱정하는 부분이 무엇일까요? 바로 채점 민원일 겁니다. 해외처럼 동료 교사와의 교차 채점 시스템이 확립되어 있고, 이 같은 결과를 교육 공동체 구성원이 신뢰한다면 너무 좋겠죠. 하지만 한국은 아직까지 이런 시스템을 갖추지 못했습니다.


논·서술형 평가가 확립된 해외는 어떨까요? 유럽권은 구술 평가, 논서술형 평가에 대한 사회적 신뢰가 쌓여 이의 제기가 전혀 없다고 알려져 있죠. IB의 경우 단위 학교의 평가를 점검하는 외부 기관의 강력한 검증 시스템이 마련되어 있죠. 미국의 경우 주 단위 졸업 시험, 대학 입학시험의 전형 자료로 자주 쓰였던 SAT, 대학원 입학 시험인 GRE 등에서 교차 채점을 의무화하고 있습니다. 가령 이런 방식인데요. 


두 명의 평가자의 점수가 일치하면 해당 점수를, 두 명의 평가자의 결과가 1점 차이가 나면 평균을, 2점 이상 차이가 나면 제3의 평가자가 채점합니다. 그리고 제3의 평가자의 점수를 포함해 평균을 내거나 중앙값을 점수로 부여하죠. GRE의 경우 심지어 동료 평가자의 역할을 자동 채점, 즉 기계가 대신하고 있답니다.


한국교육과정평가원, 국립국어원에서 자동 채점 연구가 활발히 이루어지고 있죠. 아마도 향후 5년 안에 교실 평가에서 사용할 수 있는 자동 채점 시스템이 보급될지도 모르겠습니다. 그때는 또 다른 세상이 열릴까요? 단언하건대 그렇지는 않을 겁니다.


내일의 기술은 내일의 우리에게 맡겨 두면 될 듯합니다. 지금의 기술을 대하는 지금의 우리가 할 수 있는 일을 해보자고요. Chat GPT를 나와 의견이 좀 다른 동료 교사라고 생각해 보는 겁니다. 그리고 이 동료 교사에게 학생들이 피드백을 받는다고 가정하는 거죠. 그럼 어떻게 Chat GPT에게 이 역할을 맡길 수 있을까요?  





1. 자신의 글을 수정, 보완하기 위한 프롬프트 만들기  


강의에서 설명해 드린 프롬프트를 작성하는 7가지 원칙 기억나시나요? 아래 원칙을 다시 한번 보시고 자신의 글을 수정, 보완하기 위해 어떤 프롬프트를 만들 수 있을지 고민해 보세요. 제가 했던 것처럼 Chat GPT에게 교사의 역할을 부여하거나, 다른 역할을 맡길 수도 있겠죠. 교사의 특성을 조금 더 구체화할 수도 있겠고요. 창의적이면서도 상세한 프롬프트를 구상해 주세요.


2. Chat GPT와 대화하며 자신의 글을 수정, 보완하기 


지금부터 선생님들은 학생이 되시는 겁니다. 특정 주제에 대해 부족한 초고를 쓴 학생들이신 거죠. 자신의 글에 대한 피드백을 받아본 경험이 거의 없고, 기껏 해봐야 동료 피드백을 받아본 경험이 다죠. 선생님에게 피드백을 받으려니 너무 바쁘신 것 같아서 선뜻 부탁하기가 힘든 상황입니다. 그런데 지금 Chat GPT를 활용해 자신의 글을 수정, 보완하는 수업에 참석한 거죠.


다음 순서로 활동을 진행하시면 됩니다. 


첫째, 제가 보여드리는 채점 기준표를 확인한 뒤, Chat GPT를 활용해 본인의 글에서 어떤 측면이 부족한지를 파악해 주세요. 관대한 Chat GPT가 보다 엄격한 평가를 할 수 있도록 프롬프트를 다듬고 다듬으셔야겠죠? 혹은 동일 질문을 최소 3번 이상 수행하는 전략을 추천드립니다. 


둘째, Chat GPT에게 끊임없이 질문을 던져 주세요. 그리고 Chat GPT의 답변을 활용해 선생님의 초고를 보완해 주세요. Chat GPT의 답변을 있는 그대로 가져가 복붙하지는 않으시겠죠? 학생에게 꼭 가르쳐야 할 것 중 하나가 바로 ‘쓰기 윤리’이니까요. 


셋째, Chat GPT에게 받은 답변을 꼭 비판적으로 평가해 주세요. 말씀드린 대로 Chat GPT의 피드백은 완벽하지 않습니다. 문제가 없는데 있다고 하거나, 있는데 없다고 하죠. 그리고 Chat GPT의 답변 자체 또한 완벽하지는 않습니다. 무조건 수용할 필요가 없다는 뜻입니다. 


3. Chat GPT로 설계한 수업의 의미 생각해 보기 


첫째, Chat GPT에게 던진 질문 중 가장 좋았던 질문과 답변을 딱 한 가지씩만 정해서 패들렛에 올려 주세요. 좋은 대답을 끌어내는 좋은 질문들의 목록이 68개가 모이면, 수업에 활용할 수 있는 아이디어를 얻을 수 있지 않을까요?


둘째, Chat GPT의 답변 중 수용하지 않은 답변을 1개만 골라서 이유와 함께 패들렛에 올려 주세요. Chat GPT가 어떤 측면에서 오류를 보이는지, 혹은 나와 어떤 관점에서 의견 차이가 있는지를 확인한다면 아이들에게도 설명할 수 있지 않을까요?


셋째, 이 과정을 거쳐 선생님이 완성한 한 편의 글을 패들렛에 올려 주세요. 강의 시작 전 선생님께서 작성한 글과 이후의 글이 어떤 측면에서 달라졌는지 확인해 보세요. 그리고 제가 보여드린 채점 기준표에 딱 부합하는, 즉 모범 답안으로 제시해 줄 수 있을 만한 글인지도 다시 한번 판단해 주세요. 


Ⅲ. SSAI로 연습하는 개선과 성장을 위한 서술형 평가  


선생님, 아래 글을 한 문장으로 요약한다면 모범 답안은 어떻게 될까요? 




만약 다음과 같은 학생의 답안에는 몇 점을 부여하시겠습니까? 각각의 점수를 적어 주세요. 3점 만점입니다.



서술형 평가는 주로 핵심 키워드를 중심으로 채점을 하죠. 논술형 평가와 비교하면 채점이 쉬운 편입니다.  


그런데 선생님들은 아이들에게 서술형 평가를 작성하는 연습을 시키시나요? 부산시교육청은 의무적으로 지필평가에 논·서술형 평가를 반영하게끔 강제했는데요. 저희는 주로 서술형 평가를 출제하죠. 혹시 아이들이 글을 못 쓴다고 푸념만 하신 적은 없으신가요? 한 차시의 수업을 끝내고 형성평가 문제로 서술형 문항을 주신 적은 있으신가요? 학생 답안에 대한 피드백을 준 적은요? 하고는 싶은데 시간이 없죠. 학교는 정말 숨이 막힐 정도로 빠르게 돌아가니까요. 


효과적으로 서술형 평가 연습을 시킬 수 있는 프로그램이 있어서 소개해 드립니다. 그런데 주의하셔야 합니다. 정확하지 않습니다. 키워드 채점이라서요! 모든 에듀테크 도구는 우리를 보완해 줄 수 있을 뿐이다. 이 점을 꼭 기억해 주세요. 


1. SAAI란? (최진영·하민수, 2023에서 인용)



SAAI는 평가해야 하는 학생의 응답을 활용하여 즉흥적으로 채점 모델을 생성하고 그것을 활용하여 채점하는 기술입니다. 이 기술은 상호보강원리를 활용하여 학생 응답 내에 정답과 관련된 ‘중요어’를 탐색하고, 중요어를 활용하여 각 응답을 채점하는 기술에 근거하는데요. 이 기술의 핵심 원리는 정답과 관련된 단어는 잘 작성된 응답에서 반복적으로 나타난다는 것입니다. 핵심 단어들이 많이 포함된 문장은 의미 있는 문장이며, 의미 있는 문장에 포함된 단어들은 핵심 단어로 추론될 수 있다는 것이죠. 이 과정을 통해 각 단어는 중요도를 가지게 되며, 단어의 중요도를 근거로 각 문장의 점수를 유추하게 되는 것입니다.  



2. SSAI로 하는 서술형 평가 연습하기  


SAAI를 활용할 경우 장점은 다음과 같습니다. 첫째, 핵심어가 포함된 우수 답안을 미리 확인할 수 있어 교사의 인지적 부담(시간, 노력 등)이 줄어듭니다. 둘째, 교사 스스로 자신이 설계한 평가 문항의 문제점을 확인할 수 있으며, 채점 기준을 수월하게 수정할 수 있습니다. 셋째, 학생의 답안 수준을 고려해 차별적인 피드백을 부여할 수 있습니다. 넷째, 무엇보다 학생들이 서술형 평가를 연습할 수 있습니다.





브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari