(cover image source: 2022년 PISA 수학 성취도 검사 결과 (부모의 사회 경제적 지위에 따른), OECD (2023). PISA Results (Volume I): The State of Learning and Equity in Education)
여러분들은 수집된 데이터 혹은 초기 분석이 끝난 데이터에 대해 이야기를 구성해 본 적이 있는가? 혹은 자신만의 스토리텔링 방법/전략이 있는가? 어쩌면 이 글을 읽고 있는 독자들 중에는 데이터를 분석하면 끝이지 왜 이야기를 만들어야 하는지 모르겠다고 하는 분들도 여전히 계실 수 있다 (만일 그렇다면 5분만 시간을 내서 챕터5를 읽고 오시길 권한다). 사실 여러분들이 본인의 학위 논문을 위한 경험적 연구를 하고 있다면 데이터 스토리텔링은 선택사항일 수 있다.
그러나 첫 번째 챕터에서도 언급했듯이, 우리가 연구를 하는 목적은 나 혼자 내 연구를 읽고 감상하려는 것이 아니다. 출판을 통해 내 연구를 세계에 알리고, 같은 주제를 고민하는 많은 연구자들과 네트워킹을 하고, 또한 추가적인 연구를 하기 위해 펀드를 줄 기관들에게 내 연구의 필요성을 알려야 한다. 그러기 위해서 우리는 보다 설득력 있게 데이터에 기반한 커뮤니케이션을 해야 하는 것이고, 그러한 측면에서 데이터 스토리텔링을 하고, 이를 시각화하는 역량이 중요한 것이다.
[그림 1]은 구글링을 해서 찾은 누군가의 발표자료이다 (전체 발표자료는 하단 링크 참조). 저자는 세계화 혹은 캐나다의 다문화 정책과 관련된 연구를 한 거 같고, 그 결과를 발표한 것으로 추정된다. 여러분들은 [그림 1]의 발료자료를 보면서 이 연구자의 연구 결과를 얼마나 이해했나? 이 발표자료의 타이틀대로 연구자는 연구를 매우 심하게 (?) 요약한 것으로 보이는데, 아마도 발표 현장에서는 연구자가 자신의 연구 배경과 데이터 분석 과정에서의 뒷 이야기며, 이 결과와 관련해서 풍부한 이야기를 했을지 모르나, 현재 이 자료만 봐서는 이 연구의 결과가 명확하게 들어오지 않는다. 채도를 낮춘 캐나다의 국기 이미지를 발표 자료의 배경 이미지로 사용했다면 굳이 캐나다라는 텍스트를 쓰지 않더라도 청자는 캐나다 맥락에서의 초국가주의와 이하 결과들과의 관계를 쉽게 유추할 수 있을뿐더러 아마 머릿속에 기억되기에도 훨씬 쉬웠을 것이다. 또한 초국가주의와 시민 참여 간의 관련이 없는 것으로 나왔다면 이렇게 줄글로 쓰기보다는 이미지를 활용했다면 더욱 직관적으로 이해할 수 있었을 것이다.
해외 콘퍼런스에 참석해 본 분들은 아시겠지만, 대다수의 연구자들은 [그림 1]과 같이 자신만 아는 연구 결과를 스토리텔링 설계 없이 원고나 다름없는 발표자료를 가지고 발표하는 경우가 대부분이다. 심지어 줄글로 나열된 발표자료를 그것도 미리 작성한 스크립트를 보면서 청중과 아이 컨택 한번 없이 10-15분간 읽다가 들어가시는 발표자들도 허다하다. 이렇게 데이터 스토리텔링도 내러티브 시각화도 안 된 발표자료를 보고 있자면 내 귀한 시간과 등록비가 진짜 아깝게 느껴진다.
(Source: Diasporas in the Age of Globalization: Power, Identity)
한국에 돌아오자마자 지인들을 만날 때마다 느끼는 것인데, 한국분들은 정말 '교육'에 관심이 많다는 것이다. 아니 정확히 말하면 '사교육' 혹은 '학원수업'에 정말 진심인 것 같다. 어떤 분은 자녀의 영어유치원에서의 생활을 이야기하느라 정신없고, 어떤 분은 자녀를 의사로 만들기 (?) 위해서 매우 특별한 학원에 보내고 있었다. 부모들의 이야기를 듣고 있자면, 우리 아이들은 하루 24시간이 모자랄 정도로 공부를 하고 있는 것 같다. 그래서인가? 한국은 자랑스럽게도 거의 모든 국제 학업성취도 평가 (ICCS: International Civic and Citizenship Education Study 제외하고)에서 상위권을 차지하고 있다. 이쯤 되면 한국의 국제 학업성취도 평가는 사교육의 힘이 아닌가 싶다. 그래서 오늘은 국제 학업성취도 평가 프로그램에 대한 이야기를 해 보려고 한다.
국제 학업성취도를 평가하는 프로그램에는 크게 TIMSS & PIRLS, ICILS, PISA, ICCS 등이 있다. 이 중에서 가장 오래된 평가 프로그램인 TIMSS & PIRLS를 포함해 ICILS, ICCS의 경우 International Association for the Evaluation of Educational Achievement (IEA)에서 평가를 주관하고 있고, PISA의 경우 경제협력개발기구 (OECD)에서 매 4년마다 평가를 진행하고 있으며, 현재 시점에서 가장 많은 국가 (2022년 기준 79개국)가 PISA에 참여하고 있다. 오늘 데이터 시각화와 관련해서 사례 분석을 할 데이터가 바로 OECD의 학업성취도 평가 프로그램인 PISA이다.
OECD가 주관하는 국제학업성취도평가(PISA) 결과는 참여국의 학습 및 교육 형평성의 상태에 대한 포괄적인 개요를 제공한다. 특히 PISA는 평가에 참여하는 79개국의 15세 학습자들의 수학, 읽기, 과학에 중점을 두어 평가를 해 왔으나 지나치게 인지적 영역 (문해력이나 수리력)의 평가에 치중했다는 비판을 받아왔다. 그래서 최근에 창의적 사고력 평가와 같은 정의적 영역의 역량을 평가하는 지표들이 추가되고 있다. PISA의 궁극적인 목표는 혁신적인 평가를 통해 각 나라의 교육 시스템 및 정책을 비교하고, 학습자들이 실제 생활에서 겪거나 겪을 수 있는 문제 상황을 대처하는데 통찰력을 제공함과 아울러, 국가별로 효과적인 교육 정책을 수립하는데 체계적인 정보를 제공하여 결국 모두가 양질의 교육 혜택을 받을 수 있도록 하는 것이다. 그러나 평가라는 것이 늘 그렇듯 원래의 의도와는 상관없이 각 국가별로 평가 결과를 해석하는 과정에서 또 다른 차별과 차이를 양산하고 있다. 즉, 상위권 (High-performers)에 포진된 국가들은 ([그림2]의 테이블에서 좌측 상단의 국가들) 선망의 대상이 되며, 하위권 (Low-performers )에 속한 국가들은([그림2]의 테이블에서 우측의 국가들) 소위 교육에 있어서 글로벌 스탠다드에 맞추기 위한 제살 깎기(?)를 하는 상황에 처해 있다고 해도 과언이 아닐 것이다. 그도 그럴것이 4년마다 국가별로 학업성취도 결과가 투명하게 발표되다보니 각 국가는 어떻게든 1단계라도 올라가기 위해 치열한 (?) 경쟁을 할 수밖에 없는 것이다. 이 장에서 PISA에 대한 비판적 논평을 하는 것이 목적이 아니므로, 2022년에 발표된 PISA 결과 데이터의 일부를 바탕으로 어떻게 내러티브를 설계 혹은 구성할 수 있을지, 그리고 데이터 시각화에만 초점을 맞춰보겠다.
(Source: OECD (2023). PISA Results (Volume I): The State of Learning and Equity in Education)
[그림 2]는 2018년과 2022년 국제학업성취도평가(PISA)의 '독해'와 '수학' 성취도 결과를 보여준다. 그리고 [그림 3]은 부모의 사회 경제적 지위에 따른 2022년 PISA 수학성취도 검사 결과이다. 독자분들은 이 두 데이터를 보면서 어떤 생각이 들었는가? 데이터 스토리텔러로서, 나는 PISA 2022 결과를 중심으로 수학 점수와 사회경제적 지위의 관계에 대한 내러티브를 만들 수 있을 것 같다. 즉, 이 이야기는 교육 결과에 대한 경제적, 사회적, 문화적 요인의 지속적인 영향을 강조하면서도 높은 성과와 형평성을 동시에 달성한 국가들을 조명할 수 있다. 혹은 부모의 사회경제적 수준이 높은 학생들이 수학에서 더 나은 성과를 내는 경향이 있다는 것을 지적하면서 이는 부모의 사회 경제적 수준에 의해 교육의 지속적인 불평등을 초래할 수 있음을 강조할 수 있다.
예를 들면 [그림 3]에서 보이듯이 대한민국이 최상위에 마킹하고 있으니 대한민국이 수학에 있어서 왜 이렇게 우월한 결과를 보이고 있는지 내러티브를 구성해 볼 수 있겠다. 이러한 결과에 대해 솔직히 말하자면 앞서 말한 '사교육의 힘'을 언급할 수 밖에 없겠고, 대한민국은 교육의 지속적인 불평등성을 초래하고 있다는 반증으로 이야기를 전개할 수 있다. 그렇다면 왜 한국은 우수한 공교육 시스템을 갖췄음에도 불구하고 사교육이 발달했을까? 에 대한 내러티브로 사회학적인 관점으로 이야기를 전개할 수 있을 것이다. 즉 한국과 같이 전쟁, 기아와 가난, 쿠데타, 군부독재 등 정치 사회적 격변기를 겪은 나라들은 대표적인 문화자본 (Cultural Capital)인 교육을 가장 안정적인 자본으로 받아들이는 경향이 있다. 그래서 가능하면 교육을 사유화함으로써 불안정한 삶을 살아온 (조) 부모세대가 자녀들에게만큼은 안정적인 삶을 살 수 있도록 그들의 교육을 위해 전폭적인 지원을 하는 경향이 있다. 게다가 오늘날과 같이 다수의 커플이 맞벌이를 해야 생계를 유지할 수 있는 시대에는 학원은 부모들이 오랫동안 집을 비워야 하는 상황에서 자녀들의 보육을 일정 부분 담당할 수 있다는 점에서 사교육이 발달할 수밖에 없는 사회 경제적 구조를 설명할 수 있다. 이러한 내러티브는 결국 대한민국의 경우 교육에 있어서 격차를 해결하고 모든 학생에게 공평한 학습 기회를 제공하기 위한 맞춤형 개입 및 정책 개선에 대한 요구로 결론을 내릴 수 있을 것이다.
또한 [그림 2]에서 강조할 첫 번째 핵심 요소는 2018년과 2022년 사이 OECD 국가들의 수학 성적이 기록적으로 하락한 (15점) 것이다. 왜일까? 2020년부터 현재까지 우리의 삶에 영향을 미치고 있는 Covid-19 팬데믹이 그 주요한 원인일 것이다. 팬데믹은 우리 사회의 전 영역에 영향을 미쳤지만, 많은 연구에서 지적하듯이 교육분야에서는 치명적인 영향을 미쳤다. 개인적으로 2020년 3월부터 런던이 봉쇄되면서 재직중이었던 학교도 6개월간 봉쇄되었던 기억이 난다. 그리고 신속하게 모든 대학원 수업을 온라인으로 전환했었다. 이게 가능할까 싶었는데, 전 과정을 줌으로 진행하면서 학생들은 석사 과정 1년 동안 단 한번도 런던에 올 필요없이 그들의 집에서 과정을 마쳤었다. 심지어 2021년까지 졸업식도 온라인으로 진행했었다. 물론 학생들은 매 과목을 온라인으로 진행하면서 단 한번도 교수들이나 동료들과 물리적으로 만나지 못한 채 온라인으로 모든 상호작용을 했으니 얼마나 힘들었을까 싶다. 아직도 내 학생들 중 몇명이 '스텔라 이제 줌 세션은 지겨워!' 라고 했던 말이 기억난다. 아마 장기적으로 추적 연구를 한다면 팬데믹 시기를 거친 학습자들에게는 학습의 모든 측면 (인지적 영역, 정의적 영역, 가치/태도 영역)에서 큰 변화가 예상된다. 그리고 바로 2022년 발표된 PISA의 결과는 예상대로 모든 영역에서 큰 폭의 하락을 기록했다.
현재의 데이터로 다시 집중하면 가장 중요한 특이점이 있는데, 바로 일본, 한국, 리투아니아, 중국 타이베이와 같은 국가들이 전 세계가 함께 직면했던 팬데믹의 어려움에도 불구하고 학업성취도 결과를 유지하거나 개선했다는 점이다. 나는 이 데이터에 대한 내러티브를 구성할 때 바로 이 변곡점, 즉 팬데믹 기간 동안 이들 국가가 교육 시스템을 회복하기 위해 어떤 전략과 교육 정책을 사용했는지 분석한 후 이야기를 구성할 것이다. 다음 내러티브는 수학에서 최고 성과를 보인 국가들에 초점을 맞출 것이다. [그림 4]에서 볼 수 있듯이 싱가포르는 수학 성취도평가에서 2000년대 후반부터 지금까지 1위를 마킹하고 있고, 일본, 한국이 그 뒤를 잇고 있다. 이러한 고성과 국가들의 공통 요인을 분석하면 효과적인 교육 관행과 정책에 대한 귀중한 인사이트를 얻을 수 있을 것이다. 나의 마지막 이야기에는, 일부 국가들의 교육 시스템이 학업성취도 격차를 줄이는 데 이룬 진전에 주목할 것이다. PISA의 경제적, 사회적, 문화적 지위 지수를 고려할 때 이 측면은 특히 중요하다. 이는 일부 국가들이 학생 성과에 대한 사회경제적 요인의 영향을 완화하기 위한 교수학습 방법 측면이나 교육 정책 측면에서의 시사점을 찾을 수 있기 때문이다. 무엇보다 PISA의 결과를 분석하는 과정에서 양질의 교육에 대한 공평한 접근을 중시하고 사회경제적 격차를 해결하기 위한 각 나라의 교육 정책들을 비교 분석함으로써 정책 입안자들은 더 탄력적이고 포용적인 교육 시스템을 구축하기 위해 노력할 수 있을 것이다.
이렇게 데이터 내러티브를 설계하고 나면 이제 데이터 시각화를 진행할 수 있다. 과거의 경우 데이터 시각화를 한다고 하면, 차트나 인포그래픽을 활용하는 정도로 생각했다면 (물론 이러한 방법들은 데이터 스토리텔링 측면에서 지금도 유용하다!), 요즈음은 다양한 소프트웨어를 활용해서 데이터 시각화를 할 수 있다. 특히 생성형 AI (gen AI) 기술은 그동안 데이터 비주얼라이징을 위해 많은 시간과 에너지를 들여야 했지만 작업들을 거의 자동화해 주는 단계에까지 이르렀다. 이번 장에서는 TimelineStoryteller, Leximancer, Scrollyteller와 같은 데이터 시각화 도구들에 대해 살펴보겠다.
타임라인 스토리텔러는 Microsoft에서 개발한 데이터 시각화 도구로, 사용자가 상호작용적이고 시각적으로 매력적인 타임라인을 만들 수 있게 해 준다. 특히 연대기 데이터를 서사 형식으로 제시하는 데 유용하다. 주요 기능으로는 여러 가지 표현 스타일(예: 선형, 방사형), 장면 및 스냅숏 생성, 주석 및 이미지를 포함하여 스토리텔링을 강화하는 기능이 있다. 사용자는 특정 이벤트나 기간을 강조하기 위해 데이터를 필터링할 수 있어 정성적 및 정량적 데이터 분석 모두에 유용하다.
(Source: https://youtu.be/fyyO2JmuNsg?si=zzjRY_TjjD59pp0Q)
[그림 6]에서 볼 수 있듯이 TimelineStoryteller를 사용하면 골프 선수의 토너먼트 성적과 같은 시계열 데이터를 타임라인 형식으로 시각화할 수 있다. 사용자는 방사형, 선형 등 다양한 레이아웃을 선택하고, 여러 장면을 만들어 데이터 스토리를 전달할 수 있다. 타임라인스토리텔러는 MS의 Power BI의 커스텀 비주얼로 제공되며, Power BI 구독이 필요하다. Power BI Pro 버전은 사용자당 월 $9.99, Premium 버전은 사용자당 월 $20부터 시작해서 비교적 다른 소프트웨어에 비해 저렴하다. 그러나 일부 사용자는 데스크톱 버전에서 데이터 시각화 문제나 도구 기능의 문제를 보고한 바 있다.
(Source: https://www.microsoft.com/en-us/research/research-area/data-platform-analytics/?)
렉시맨서는 대량의 텍스트 데이터를 분석하는 머신 러닝 기반의 텍스트 분석 도구로, 주제, 개념 및 텍스트 내의 관계를 식별하여 데이터의 시각적 표현을 제공한다. 단어 빈도, 의미론적 관계를 기반으로 개념 지도를 생성하여 텍스트에 내재된 패턴과 인사이트를 발견하는 데 도움을 준다. 그래서 이 소프트웨어는 개방형 설문 조사 결과에 대한 분석, 소셜 미디어 콘텐츠 분석 등 정성적 데이터 분석에 특히 유용하다.
또한 렉시맨서는 머신 러닝 알고리즘을 사용하여 개념 간의 관계를 자동으로 감지하고 시각화하여 정성적 데이터에서 숨겨진 패턴을 발견하는 데 유용하다. 주요 기능으로는 개념 매핑, 주제 추출, 감정 분석이 있다. 렉시맨서는 대규모 텍스트 데이터를 처리하는 데 뛰어나지만, 매우 미묘하거나 맥락에 의존하는 정보를 처리하는 데 어려움을 겪을 수 있으며, 구체적인 가격 정보는 제공되지 않았지만, 일반적으로 데이터 양과 사용자 수에 따라 비용이 달라지는 구독 모델을 따르고 있어, 개인이 라이선스를 구독하기에는 비용이 부담스러울 수 있다. 또한 렉시맨서는 AI 알고리즘에 의존한다는 점에서 텍스트 데이터의 미묘한 차이를 항상 정확하게 포착하지 못할 수도 있다.
(Source:https://youtu.be/8oOAQZ9S208?si=D8wrRYARfw5hyyJ7)
스크롤리텔러는 텍스트와 멀티미디어 요소를 데이터 시각화와 결합하여 스크롤 기반의 몰입형 스토리텔링을 구현할 수 있는 소프트웨어이다. 사용자가 콘텐츠를 스크롤함에 따라 시각화가 단계적으로 표시되어 내러티브를 자연스럽게 전개할 수 있다. 다양한 차트 유형과 애니메이션 효과를 지원하며, 코딩 없이도 시각적으로 풍부한 스토리를 만들 수 있다. [그림8]은 스크롤리텔러를 활용해서 호주의 광물자원의 변화를 시계열 (1970년대, 2018, 2050년 예측치)로 시각화한 결과이다. 이와같이 이 소프트웨어는 복잡한 데이터를 보다 매력적이고 접근 가능한 형식으로 제시하는 데 특히 효과적이다. 주요 기능으로는 부드러운 전환, 상호작용형 차트, 멀티미디어 콘텐츠 삽입 기능이 있다. 스크롤리텔러는 정성적 및 정량적 데이터 모두에 적합하나 콘텐츠를 만드는 데 시간이 많이 걸리고 더 복잡한 시각화를 설정하고 커스터마이징 하려면 웹 개발에 대한 기술이 필요할 수 있다. 또한, 도구의 효과는 기본 데이터의 품질과 내러티브 구조에 따라 달라질 수 있다.
TimelineStoryteller는 시계열 데이터 시각화에 특화되어 있고, Leximancer는 텍스트 분석에 강점이 있으며, Scrollyteller는 데이터 스토리텔링에 최적화되어 있다. 따라서 분석 목적과 데이터 유형에 따라 적합한 도구를 선택하는 것이 중요하다. TimelineStoryteller는 시간 기반 데이터의 다양한 시각화를, Leximancer는 텍스트 데이터의 심층 분석을, Scrollyteller는 인터랙티브 한 스토리텔링을 가능하게 한다. 그러나 각 도구마다 한계점도 있다. 즉, 타임라인스토리텔러는 기술적 문제가 보고되었고, 렉시맨서는 높은 라이선스 비용과 머신 러닝 알고리즘에 의존한다는 점에서 데이터의 미묘한 차이를 항상 정확하게 포착하지 못하는 단점이 있으며, 스크롤리텔러는 모바일 환경에서의 최적화가 필요할 수 있다.