brunch

You can make anything
by writing

C.S.Lewis

by Kay Dec 03. 2023

교육에 열심히 참여하는 게 대체 뭐 그렇게 중요한가요?

클러스터링 기법을 활용한 교육 참여도와 이해도 간 관계 확인 사례

데이터를 공부하는 동안 내가 진행하는 교육에서 수집된 데이터를 활용한 간단한 분석 내용들도 적어 보려고 한다. 말 그대로, 정말 간단한 구조이고 잘 아는 사람이 보면 너무나도 쉬운 내용이지만 애초에 이 활동을 시작한 이유가 그런 생각에서였다. 잘하는 사람도 많고, 잘 아는 사람은 더 많은데 참고해서 비슷하게 흉내라도 내려고 많은 것들을 찾다 보니 배움과 성장에서 오는 즐거움보다는 현재 나의 부족함을 깨닫는 데에서 오는 좌절감이 더 큰 그런 사람들에게 용기를 주고 싶었다랄까. (남을 위한 것 같지만 사실은 다른 전문가들이 남긴 내용을 찾고 따라 해 보고 있는 내 얘기다.) HR 분야에서 여기저기 들어볼 수 있는 잘 한 케이스들은 국내외에 이미 많은 상황에서 괜히 위축되기보다 이제 막 시작해 보려는 사람들도 자기 이야기를 담아서 쉽게 따라 해 볼만한 내 경험을 적어보고 싶었다. 그리고 기왕이면 중간 과정은 블랙박스의 영역으로 가려두고 그럴싸한 결과만 정리하기보다 과정과 생각을 중심으로 정리해야 진짜 따라 해 보려는 누군가에게 도움이 될 것 같았다. 남들의 잘한 케이스를 찾아볼 때, 내가 그러고 있으니까.


아무튼 이번 케이스는 교육 프로그램 중 수집된 데이터를 활용해 교육 참여도와 이해도 간 관계를 확인해 본 사례이다. 여기에서 확인해 보고 싶었던 것은 ‘교육 중 참여도가 높은 참가자들이 교육 내용을 얼마나 잘 이해하고 있을까’ 하는 것이었다. 교육의 기획자이자 진행자로서 프로그램을 운영하면서 활발한 참여를 강조하게 되는데 이것이 단순히 교육 분위기를 좋게 가져가기 위한 것인지 아니면 실제로 교육의 목표 달성에 도움이 되는 것인지를 알면 아무래도 조금 더 쉬운 참여 유도가 가능할 것이라고 생각했다.

분석 대상 데이터는 10일 간 진행되는 데이터 분석을 위한 파이썬 기초 과정으로부터 수집되었다. 일상의 업무에서 10일은 아주 짧은 시간이지만 Job-off 상태로 진행되는 교육에서의 10일은 꽤나 긴 시간이다. 그리고 데이터 분석을, 파이썬이라는 유명하지만 낯선 툴을 활용해서 시작하는 구성원들을 대상으로, 그것도 오프라인이 아닌 실시간 온라인으로 연속해서 진행하는 교육은 시중에서 찾아보지 못한 것 같다. 그런 교육을 진행하면서, 화면 너머의 교육 참가자들이 각각의 내용에 대해서 하루하루 어떤 생각을 하고 있는지가 궁금했다. 단순한 궁금증이라기보다는 오프라인 보다 나은 교육 경험을 제공하기 위해 그들의 그 생각을 반드시 알아야만 했다. 그래서 교육 기간 중 의도적으로 데이터를 남기도록 과정을 설계했다.



교육 중 질의응답을 포함한 모든 소통은 Slack을 활용


먼저 교육은 회사의 화상회의 플랫폼인 Webex 환경에서 화상강의 방식으로 진행되지만 교육기간 중 강사와 참가자, 담당자 간의 소통은 채팅창이 아닌 Slack을 통해 진행하도록 하였다. 강사의 경우에는 채팅창 대신 Slack 화면을 띄워두고, 강의 내용에 대한 참가자들의 실시간 반응을 확인하고 또한 그곳에 올라오는 질문에 답하는 방식으로 교육을 진행한다.


교육 진행 중 Slack 상에서 이뤄지는 대화 내용


당일 학습내용에 대한 이해도와 생각을 구글 스프레드시트 상에 수집


Slack 사용과 별개로 매일 교육 종료 시점에는 Daily Reflection이라는 이름으로 구글 스프레드시트를 활용해서 그날그날의 수업 이해도를 5점 척도의 리커트로 수집하고, 당일 학습을 진행하며 떠오른 생각이나 현업 적용 계획과 같은 정성 의견을 캐주얼한 문장 형태로 작성하도록 하였다. 이 정보를 통해 교육 참가자들의 분위기를 감지하고, 이해도와 작성 내용을 검토해 10일 교육 기간 중 완급 조절하기 위한 목적이었다.

사실 이 정도 목적이라면 단순히 설문을 통해 수집하는 방식이 조금 더 일반적이겠지만 굳이  스프레드시트에 개인 이름 옆에 공동 작업 형태를 선택한 이유는 동시 작성 과정을 통해 실재감을 주고 싶었고, 개인별 이해도와 생각을 확인하여 혹시 이해가 떨어지거나 특이 사항이 발견되는 참가자에 대한 밀착 지원을 위해 개인을 식별하기 위한 목적이 컸다. 그리고 한 가지 부가적으로 기대한 부분은 개인을 익명화하지 않음으로써 정성 의견의 블라인드화를 방지하고, 일종의 자정작용을 기대하였다.


교육 종료 시점 작성하는 Daily Reflection 예시


교육 방식 측면에서는 더 많은 활동이 있으나 그 안에서 수집된 데이터에 대한 이야기만 놓고 보자면 위 두 가지 활동을 통해 수집된 데이터를 활용한 분석을 진행해 보았다.



교육의 참가자들은 어떤 특징이 있을까


이 생각에 대한 확인을 위해 할 수 있는 다양한 분석이 있겠으나 당시의 나는 교육 참가자들을 성향에 따라 묶어 보고 싶었고, 그래서 각 클러스터 간 거리 차이의 분산을 최소화하는 방식을 활용해 임의로 군집을 형성하는 k-means 클러스터링을 시도해 보았다. 아무래도 HR 업무를 하다 보면 2x2 매트릭스를 활용해서 사람들을 분류하고 그들의 특징을 잡아서 정리하는 보고서를 쓰는 일이 정말 많기에 학습자들도 비슷한 방식으로 구분을 해보고 싶은 생각이 들었다.



어떻게 변수화 할 것인가


10일간의 교육 진행 중 질문을 포함한 대화 참여는 제법 있었고, 어쨌든 일차 별 과정이 끝나는 시점에 이해도와 생각도 모두가  남기고 있으니 데이터 수집 자체는 수월했다. 이해도의 경우 응답자의 주관적 판단이라는 제약은 있겠으나 어쨌든 일차 별 리커트로 수집하고 있었는 상황에서 다른 변수인 참가자들의 교육 참여도를 어떻게 변수화 할 것인지에 대한 고민이 필요했다. 이상적인 기술 지원이 이뤄진다면 화상 강의 중 아이트래킹 등을 활용해 화면 응시 시간 같은 것을 활용해 볼 수도 있겠으나 그 정도 값비싼 데이터 수집은 이뤄지고 있지 않은 상황에서 활용할 수 있는 것은 Slack 채널 상에 남겨진 텍스트 데이터가 사실상 전부였다.

그렇다면 Slack 채널 상에 남겨진 텍스트 데이터를 어떻게 정량화할 것인가. 교육 중 참가자들이 남긴 텍스트는 크게 내용에 대한 질문, 강사의 이야기에 대한 답변, 그 외 가벼운 반응(이모티콘이나 ㅋㅋㅋ 등) 정도로 분류해 볼 수 있었는데 분류의 기준은 있으나 자동 분류 모델이 있지 않은 상황에서 각 문장들을 분류할 수 없다는 문제가 있었다. 정교한 분석을 원했다면 매일 수집되는 문장에 대한 분류를 하는 것도 가능했겠으나 일단은 누가 시켜서 진행하는 작업이 아닌 상황에서 최소한의 인풋으로 일단 분석해 보는 쪽을 선택했다. 그리고 택한 방식은 내용과 무관하게 개인들이 매 일차 별 남긴 텍스트의 발화량을 측정하는 쪽이었다. 무플 보다 악플이 낫다고, 교육을 진행하는 입장에서 질문이든 반응이든 어떤 식의 참여든 있으면 좋은 거라는 나름의 생각이었다. 여기서 발화량이란 그들이 대화에 참여한 횟수를 측정한 것으로 누군가는 SMS 사용할 때처럼 하나의 긴 문장으로 남기는 경우도 있겠고, 누군가는 카톡 대화처럼 잦은 엔터를 입력하는 경우도 있겠으나 일단 한 번 쉽게 해 보기로 했으니 손쉬운 전처리를 위해 개인이 남긴 텍스트에 대해 엔터 단위로 수치화하기로 하였다. 요약하자면 데이터 상의 제약은 있으나 아무튼 한 번 해보자는 생각으로 변수 선택을 통해 클러스터링에 반영한 두 가지 변수는 개인이 남긴 이해도와 발화량이었다.



클러스터링을 해봅시다.


데이터만 넣으면 알아서 잘 딱 깔끔하게 집단을 나눠주면 좋겠으나 k-means의 경우 몇 개의 군집으로 나눌지에 해당하는 k를 직접 판단을 해야 했다. 그래서 아래와 같이 군집 수에 따른 기울기가 완만해지는 구간을 보면서 정할 필요가 있었다.



기울기가 완만해지는 2~4개의 군집을 2차원 상에 시각화한 결과 3개의 군집으로 분류하기로 하고, 참가자 개개인과 3개 군집을 매칭하는 작업을 진행하였다.



어찌어찌해서 군집 분류까지는 했는데, 이제 뭘 봐야 할까?


분석 스킬을 바탕으로 기계적인 분석을 어느 정도 진행하다 보면 어느 순간 ‘그럼 이제 뭘 해봐야 하는 걸까’ 하는 다소 막연한 질문을 마주하게 된다. 물론 질문이나 가설 없이 데이터가 말하는 내용을 따라 작업을 진행하는 경우도 있겠으나 대개는 분석을 시작하는 단계에 확인해 보고 싶은 사항이나 질문을 구체화해둔다면 분석 도중에 마주하는 막연한 순간을 보다 쉽게 지날 수 있다. 


내 경우에는   

    학습 참여도와 이해도가 어떤 관계인지를 살펴보고 싶었던 것이고,   

    참여도와 이해도를 활용해서 교육에 참가한 개인들을 분류하는 작업까지를 진행한 상태에서    

    3개 군집으로 개인별 소속집단 매칭이 되었으니   

각 군집 별 참여도와 이해도가 교육이 진행됨에 따라 어떻게 변화하는지 살펴보는 작업이 필요했다.



그래서 교육 기간 중 말을 많이 해야만 하나요?


일 별 학습 참여도 변화량 추이


일차 별 학습 참여도(발화빈도)를 기준으로 구분된 각 그룹에 대한 명명을 해보자면, Slack 내 대화 참여도가 많고 적음에 따라 3개 군집이 형성되어 있음을 볼 수 있다. 그중 눈여겨볼 부분은 전체적으로 발화빈도가 많은 교육 6일 차이다.


그룹 별 이해도 추이


다음으로 개인에게 매칭된 그룹을 유지한 상태에서 이해도 변화 추이를 보자면 전체적으로 발화 빈도가 높았던 6일 차에 모든 그룹의 이해도가 가장 낮은 것을 볼 수 있다. 6일 차는 이해도가 낮고, 발화량이 많은 날인데 그날 진행되는 내용은 어디선가 말로만 듣던 머신러닝을 파이썬 코드로 처음으로 접하는 날로 아무래도 참가자 관점에서는 그 내용이 낯설거나 어려울 것이기에 질문이 가장 많은 날에 해당한다.




이상의 두 차트를 모아놓고 봤을 때, 어느 포인트에 집중해 보면 좋을까? 데이터의 소유자로서 나는 발화빈도가 높았던 6일 차를 기준으로 이해도가 낮았던 집단의 이해도 변화에 집중하였다. 교육 시작 시점인 1일 차부터 6일 차까지 이해도가 낮은 1그룹이 그중에서도 가장 어렵게 생각하는 6일 차에 특히 많은 대화 참여를(아마도 질문을) 하는 모습을 보인다. 여기까지는 그냥 어려운 날 질문이 많았구나 정도였다면, 중요한 것은 그다음이다.


그렇게 잘 이해되지 않는 부분을 집요하게 질문하고, 강사의 추가적인 설명을 통해 해결하는 방식으로 교육에 참여한 1그룹 참가자들의 이해도는 다음날 바로 반등하는 모습을 보이며, 심지어 교육 막바지에 해당하는 8일 차에는 전체 집단 중 가장 이해도가 높아지는 양상을 보였다. (추가적인 내용 학습 대신 개인  프로젝트 수행 형태로 진행되는 9~10일 차에는 별도의 이해도 체크를 하지 않기에 사실상 마지막에 해당한다.)


반대로 교육 기간 중 참여도가 꾸준히 가장 낮은 2그룹의 경우 그들의 1일 차 이해도를 보면 상대적으로 가장 높은 지점에 있다는 것에 비춰 봤을 때, 아무래도 알고 있다는 생각으로 대화 참여나 질문을 많이 남기지 않는 것으로 생각된다. 그들의 이해도는 발화량이 두 번째로 많은 3그룹에게 2일 차부터 추월을 허락하게 되며, 심지어 8일 차에는 이해도가 가장 낮았던(대신 꾸준히 교육에 적극적으로 참여한) 1그룹에게 마저 역전당하는 모습을 보인다.



내가 찾은 사실을 어떻게 활용할까?


이상의 과정으로 분석은 끝났고, 궁금했던 내용에 대한 확인은 할 수 있었다. 하지만 별도의 보고는 하지 않았다. 일단 분석의 구조가 너무 간단했고, 그럼에도 데이터적인 허점이 많다는 생각이 들었다. 조작적 정의에 따라 변수화 한 것이지만 정교한 분석을 위해서는 발화량이 참여도인지부터 명확히 했어야 할 것 같았고, 그들이 남긴 문장의 특성에 따라 강사의 질문에 대한 반응과 질문 혹은 이모티콘 등을 서로 다르게 보면 또 다른 결과가 나타나지 않는지 확인이 필요하다고 생각했다. 또한 클러스터링의 태생적 한계로 인해 개개인에게 부여한 군집이 늘 고정된 것 아니라는 점이 보고까지는 하지 않는 결정을 하게 만들었다. 이번 분석 과정에서 k=3으로 분류했다고 해서 또 다른 교육에서 새로운 사람을 대상으로 분석했을 때, 3개 군집이 무조건 효과적이라고 볼 수도 없고, 설령 3개 군집으로 분석한다 해도 그 안에서 이해도와 참여도는 다른 양상을 보일 수 있다. 그래서 클러스터링은 그냥 그 시점에 한 번 보는 수준이 적합한데 괜히 보고를 통해 일반화하고 싶지 않았다.


대신 이 분석 내용을 매 차수 교육 참가자들에게 공유하기로 했다. 시점은 바로 머신러닝과 첫 만남을 갖는 6일 차 교육을 시작할 때이다. 물론 일반화할 수는 없는 내용이지만 이전 차수 진행할 때, 오늘 진행하는 6일 차에 그들의 이해도가 가장 낮았었고, 질문을 많이 해서 이해 또는 해결하고 넘어간 그룹이 결과적으로 마지막에 이해도가 가장 높아지는 모습을 보인다는 것을 확인한 바 있으니 뭔가 어렵거나 막힐 때 ‘나만 모르는 게 아니고 남들도 모른다’는 생각으로 반드시 질문해서 해결하라는 안내를 진행하고 있다. 사실 분석을 하기 전에도 담당자로서 비슷한 말은 많이 해왔으나 아무래도 데이터로부터 확인한 내용을 보여주니 말하는 입장에서도 자신 있게 말할 수 있고, 듣는 입장에서도 조금 더 수긍하는 모습을 보이는 것 같다. 이 분석의 과정과 결과의 활용을 통해 반드시 모든 분석이 꼭 대단한 분석일 필요는 없다는 생각을 하게 된다.

작가의 이전글 객관식 평가와 서술형 주관식 평가 간 상관 분석 사례③

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari