윤승원, 김동호, 김나리, 천종필, 2017. 한국데이터사이언스학회.
빅데이터의 시대라고 한다. 그런데, 나는 아는 것이 없다. 모르는 것은 부끄러운 것이 아니고, 내가 담당하고 있는 업무의 전문적인 영역도 아니기에 부담을 느끼지 않을 수도 있다. 그럼에도 불구하고 교육 분야 빅데이터 활용은 외면할 수 없는 우리에게 주어진 숙제같은 주제인 것 같다. 그래서 관련 문헌들을 조금씩 살펴보게 된다. 검색해보니 교육 분야의 빅데이터 활용과 관련된 논문 연구는 제법 있어도 정식으로 출판된 책은 많지 않아 보였다. 이 책은 이러한 맥락에서 검색하여 알게 된 책이다. 일반적인 사이즈의 큰 책인 줄 알았는데, 책을 받아보니 소책자 형태의 논문집 형식으로, 한국데이터사이언스학회에서 발행한 '데이터사이언스총서'의 하나로 출간된 책이었다. 이 책은 코로나로 급격하게 원격수업이 전면적으로 확산되기 전인 2017년 당시의 미국의 대학교육 사례를 중심으로 이야기를 풀어내고 있다. 이 당시에 이야기한 것들의 상당수를 지금 시점에서 빅데이터 비전문가인 내가 조금이나마 이해하고 있는 것을 보면 많은 것들이 실현된 현재가 된 것이 분명하다는 느낌이다. 내용도 어렵고 전문적인 용어들이 난무하여 이해하기 어려웠지만, 피가되고 살이되리라는 마음으로 인내하며 내용을 정리해 본다.
교육 분야 빅데이터 연구
빅데이터를 규정하는 일반적인 특징은 크기(Volume), 속도(Velocity), 다양성(Variety), 정확성(veracity)이다. 교육분야의 빅데이터 생성은 테크놀로지와 밀접한 관련이 있는데, 그 이유는 학습관리시스템(LMS)과 교육용 소프트웨어를 사용할 때 자연스럽게 생성되고 축적되는 디지털 자료들의 총합이 바로 교육분야 빅데이터이기 때문이다. 이런 데이터를 통해 얻을 수 있는 학습자와 학습과정에 대한 정보들은 학습과 교육행정, 정책 등에 효과적으로 활용될 수 있다. 교육분야에서 빅데이터를 활용하면 맞춤형 교육의 시스템화, 교육의 투명성, 학습과 평가의 융합을 향상하는데 효과적일 것으로 기대되고 있다.
교육분야에서 빅데이터를 접근하는 두 개의 방향은, 교육 데이터 마이닝(Education Data Mining)과 학습분석(Learning Analytics)이다. 교육 데이터 마이닝은 교육환경에서 여러 종류의 데이터를 수집하여 다양한 분석 방법을 적용해 현상과 원인의 관계를 규명하는 것, 즉 '일정한 패턴이나 알고리즘 같은 특정한 지식을 추출하는 것'을 목표로 한다. 학습분석은 학습에 연관된 데이터를 반복적으로 모으고 분석하여 학습자들의 학업향상에 적절한 처방을 제공하는 것을 목표로 한다. 이러한 모든 데이터는 디지털 공간에서의 기록, 즉 로그 데이터를 바탕으로 축적된다. 기존의 자기보고식 설문이나 시험결과 분석 등과는 다르게 학습자의 행동이나 실제 의사결정 패턴을 직접 살펴볼 수 있다는 측면에서 새로운 접근 방법이라고 할 수 있다. 나아가 기존에는 처리하기 힘들었던 대량의 데이터를 분석할 수 있는 컴퓨팅 기술 진보 덕에 국가 수준의 대규모 데이터 분석까지 확장되고 있다.
교육분야의 데이터 분석은 크게 다섯 가지의 방식으로 이루어진다. 첫째, 예측 분석(Prediction)이다. 교육분야에서 예측의 핵심은 모델링에 있으며, 학습 패턴의 시계열적 변화나 학습자 행동의 역동성을 적절하게 이용한 적응적 처방을 통해 학습 성과의 극대화를 기대한다. 둘째, 구조 분석(Structure Discovery)은 연구자가 탐색적으로 데이터 안에 내재된 구조를 발견하는 접근법이다. 군집 분석, 요인 분석, 네트워크 분석 등의 전통적인 통계기법을 복합적으로 사용한다. 셋째, 관계 분석(Realationship Mining)은 데이터를 통하여 변수들 간의 관계를 파악하는 것이다. 많은 수의 변수들이 존재할 때 사용되며, 학습분석 보다는 교육 데이터 마이닝 분야에서 두드러지는 연구 방법이다. 넷째, 시각화(Visualization)는 데이터의 정보 전달 효과를 증진시키고 정확한 의사 결정이 더 넓은 분야에서 이루어질 수 있도록 돕는 방법이다. 다섯째, 텍스트 마이닝(Text Mining)은 비정형의 텍스트에서 유용한 정보를 찾아내는 기법을 말한다. 단순한 데이터 처리를 넘어 사회문화적 맥락, 언어 자체에 내재된 규칙성 등을 복합적으로 고려해야 하는 간학문적 접근이 필요한 방법이다.
웹과 소셜 미디어 분석
웹과 소셜 미디어는 무형식 학습 교육에 활용할 수 있는 잠재적 가능성이 가장 큰 분야이다. 온라인 공간에서 사람이나 사이트, 페이지 간의 연결 관계를 찾아내거나 연결의 주체가 어떤 역할을 하는가를 발견하는 것은 학습자와 교수자에게 유용한 정보가 될 수 있다. 무형식 학습에 적용할 수 있는 툴로는 노드엑셀(NodeXL), 웨보메트릭스(Webometrics), 구글 애널리틱스(Google Analytics) 등이 있다.
학습관리시스템 분석
학습관리시스템(LMS: Learning Management System)은 교육과정 관리뿐 아니라 학습자의 학습계획, 실행, 성찰을 포함하는 학습 프로세스 전반을 지원하는 포괄적 시스템으로 발전하고 있다. 학습관리시스템 상의 로그 데이터를 이용하면, 학습자가 언제 학습을 시작하고 끝냈는지, 특정 학습활동에 어느 정도 시간을 투자하였는지, 어떤 순서로 학습하였는지, 학습의 내용과 과정(토론, 상호작용퀴즈, 과제제출, 체크리스트 등의 다양한 학습활동 등)은 무엇이었는지를 살펴볼 수 있는 좋은 자료가 될 수 있다.
각각의 교육기관은 이러한 여러가지 이유로 학습관리시스템을 사용하고자 한다. 기존에는 학습관리시스템이 교육기관의 전체적 커리큘럼이나 대규모 강좌의 관리를 위하여 사용되었다면, 근래에는 개별 강좌 수준 혹은 개인 교수자들의 소규모 공개 강좌를 위해서도 폭넓게 사용되고 있다. 이러한 현상은 개별 수업이나 개인 수준에서 더욱 유연한 학습 분석이 가능해졌음을 시사한다.
학습관리시스템은 이미 우리의 삶에도 깊숙하게 들어와 자리잡고 있다. 우리나라 학교교육에서 활용하고 있는 교육행정정보시스템 '나이스(NEIS: National Education Information System)'이 국가 수준의 사례라고 할 수 있다. 우리나라 교육 제도(특히, 상급학교 입학전형 등)의 특수성으로 인하여, 지금까지는 나이스가 학생과 관련된 기록을 관리하는데 초점이 맞추어져 있었던 것이 사실이다. 때문에, 원격수업 국면에서는 기존의 상용화된 교수학습 플랫폼(e학습터, ebs온라인클래스, 구글 클래스룸, 마이크로소프트 팀즈 등)을 별도로 사용할 수밖에 없었다. 여러가지 LMS를 동시에 사용해야 하는 불편함은 교사들에게 자료 변환 과정의 에너지 소모라는 스트레스를 줄 수밖에 없었다. 하지만 이러한 시스템의 편의성이나 완성도 등에 대한 현실적인 아쉬움이 존재한다고 하더라도, 국가적으로 통일된 하나의 LMS를 가지고 있다는 것은 우리나라 학교교육 제도가 가지고 있는 큰 자산이 아닌가 생각한다. 현재 개발 중이라는 차세대 나이스 시스템은 보다 통합적이고 유연하게 연계가 되는 시스템으로 개발되었으면 하는 기대감이 있다.
교수자의 역할
성공적 학습을 위한 학습 분석에는 크게 세 가지 접근 방법이 있다. 첫째, 기술적 분석(Descriptive Analytics)은 가장 간단한 분석으로 기존의 데이터를 요약 설명하는 것이다. 둘째, 예측 분석(Predictive Analytics)은 통계 모델과 데이터 마이닝을 통해서 기존 데이터를 분석해서 앞으로 일어날 학습 결과를 예측한다. 셋째, 처방적 분석은 예측된 결과에 따라 적절한 지원 방법을 제공하는 것이다. 이러한 방식의 연구결과 중 하나는 학습성공을 위한 학습자들의 정보와 학습패턴을 조사한 결과, 학습자의 '자기조절과 점검(Self-regulation & Self-monitoring)'이 가장 중요한 요인이었다는 것이다. 규칙적으로 학습 자료에 접근하고 학습 상태를 점검하는 학습자들의 학업 성취도가 상대적으로 더 높게 나타났다.
교육과 학습 데이터의 양적 증가와 다양화는 학습자 평가를 위한 새로운 기회를 제공하고 있다. 직접적으로 시험을 실시하거나 학습자를 관찰하지 않더라고, 학습자가 시스템 상에 남긴 로그 데이터를 분석하여 학습자의 학습 참여 정도, 이해도, 결손 부분 등을 파악할 수 있는 것이다. 학습자의 로그 데이터는 학습자의 학습 행동과 과정을 왜곡 없이 나타낸다. 이렇게 다양한 방법으로 수집된 데이터는 교육 평가 영역에 크게 세 가지 측면의 의미를 부여한다. 첫째, 학습자를 다양한 측면에서 평가할 수 있다. 학습 과정과 성과에 관한 다면적 평가가 가능해진 것이다. 둘째, 학습과정에 대한 추적이 용이하므로, 형성적 평가 실행이 가능하다. 포괄적 형성 평가를 통하여 학습자의 학습 성공 가능성, 전반적 역량 평가, 학습 위험 요소 등을 파악할 수 있다. 셋째, 자동화된 정확한 평가가 가능하다. 학습자의 학습 관련 기록들을 미리 짜여진 알고리즘에 의한 자동화된 평가를 할 수 있는 것이다.
학습 분석의 핵심은 개별 학습자의 온라인 학습 활동 데이터를 수집하고 분석하여 학습자 개별 데이터를 생성하고 교육의 효과와 효율을 높이는 것이다. 적응 학습(Adaptive Learning)은 상세한 개별 학습자 데이터를 바탕으로 학습 수행과 진행에 따라 학습자의 필요 사항을 고려하여 적절한 수준의 교수 자료와 학습지원을 제공하는 정교화된 컴퓨터 기반의 학습 형태를 말한다. 온라인 학습환경에서 상세한 개별 학습 분석을 바탕으로 설계된 적응 학습 자동화 시스템은 즉각적인 실시간 학습 지원을 가능하게 하고, 결과적으로 다양한 학습자들 각자의 인지적 배경, 학습 목표, 학업 수준, 관심사 등을 고려한 맞춤형 학습 전략을 제공하고 문제해결을 도와 개별화된 학습을 추구하려는 것이다. 과거에는 어려웠던 차별화된 개별 학습 실현이 이제는 빅데이터 기반의 자동화 학습 플랫폼에서 구현이 가능해 졌기 때문에, 교수 설계 방식 역시 새롭게 변화해야 한다. 학습자들이 적응 학습 시스템 자동화에 지나치게 의존하지 않고 스스로 자신의 학습을 지속하고 향상시킬 수 있도록 유의해야 할 것이다.
교육 리더의 역할
여러가지 사례 연구를 통해서 확인한 결과, 교수자들이 개인의 열정이나 관심에 근거해 테크놀로지를 도입하여 활용했을 때 그 효과성에도 불구하고 지속성은 담보하기 어려웠다. 개인의 역량에 근거한 성공적인 사례들이 시스템 차원의 변화로 이어지지 못한 것이다. 교육 데이터 마이닝이나 학습 분석이 교육 시스템 내에서 체계화되려면 정책과 행정을 담당하는 교육 리더들의 협력이 중요한 이유다.
저자의 주장처럼, 그동안 우리나라의 학교 현실 속에서도 미래교육과 에듀테크, 교수학습방법 개선을 위한 현장 연구 등의 좋은 사례가 많았음에도 불구하고 그 확산속도는 더디기만 했다. 하지만, 급격하게 진행된 코로나 확산과 원격수업의 실천은 짧은 시간에 테크놀로지를 활용한 온라인 기반 교육의 인프라를 구축하게 하였고, 시행착오를 통한 디지털 기반 학습 시스템 운영 역량 함양이라는 뜻밖의 결과로 이어졌다. 시대적 흐름에 따라 축적된 데이터와 역량들을 어떻게 좋은 방향으로 활용할 것인가의 문제가 교육 당국에게 던져진 것이다. 교육청에 몸담고 있는 사람의 한 명으로서 그 무게감이 크게 느껴진다. 우리의 교육적 역량을 좋은 방향으로 풀어낼 수 있도록 관련 분야를 더욱더 깊이있게 공부해야 할 시점이 아닌가 생각한다.
내용을 정리하면서 읽었지만, 내 지적 역량 수준으로 이해하기는 어려웠다. 그럼에도 불구하고 저자의 이야기처럼 교육 당국에서의 중심잡기와 방향제시가 필요한 시점인 것처럼 느껴진다. 관련분야 전문가는 아니지만 공부하면서 준비해야겠다는 마음이 든다. 마음이 무거워진다.