(cover image source: Council of European Professional Informatics Societies)
데이터 스토리텔링에서 윤리적 문제가 왜 중요한지 이야기하려면 앞서서 정의한 데이터 스토리텔링의 개념과 목적을 이야기할 필요가 있겠다. 즉 데이터 스토리텔링(데이터를 기반으로 스토리를 만드는 관행)은 데이터에서 얻은 통찰력을 전달하기 위한 데이터, 시각 자료 및 내러티브로 구성된 구조화된 접근 방식이다 (Dykes, 2016). 여기에서 데이터 스토리텔링의 핵심적인 목적이 도출된다. 즉, 데이터 분석을 통해 얻은 통찰력을 바탕으로 대상 청자(독자)에게 정보를 제공하고, 설명하고, 설득하고, 참여시키기 위해 데이터에 목소리를 부여하는 것이다 (Slaney, 2012). 따라서 왜곡되거나, 잘못된 데이터, 혹은 편향된 데이터를 사용한다면 아무리 훌륭한 데이터 스토리텔링이라 하더라도 스토리텔러는 청자(독자)들을 호도할 수 있다.
또한 데이터 스토리텔링에서 윤리적 문제는 청중의 데이터 이해와 해석에 영향을 미칠 수 있기 때문에 중요하다. Lund (2022)는 데이터 스토리텔링이 데이터를 명확하고 간결하게 제시하는 것뿐만 아니라 이야기가 가지는 잠재적 결과를 고려해야 한다고 주장한다. 즉, 연구자들은 데이터 스토리텔링에서 윤리적 고려 사항의 중요성을 강조하며, 특히 데이터의 정확성, 신뢰성 및 비편향성을 보장하는 것이 중요하다고 강조한다. 또한, 많은 연구들은 데이터 스토리텔러가 자신의 편향성과 가정뿐만 아니라 이야기가 다른 청자(독자)에게 미치는 잠재적 영향을 인식해야 한다고 주장한다 (Lund, 2022; Ojo & Heravi, 2018). 따라서 데이터 스토리텔러는 데이터의 출처, 분석에 사용된 방법, 그리고 그들의 스토리가 가질 수 있는 잠재적 영향을 신중히 고려해야 한다. 또한 신뢰성과 청자 (독자)와의 신뢰를 유지하기 위해 그들의 데이터 분석 및 이야기 구성 과정과 한계에 대해 투명하게 제시해야 한다.
특히, 사회과학 분야의 연구는 결국 사람들이 사회 속에서 맺는 관계, 다양한 행위 주체들 간의 행동 및 관점, 특정 사회 현상을 분석하기 위해서 엄청난 양의 데이터를 수집하고 분석한다. 이와 같이 사회과학 분야에서는 많은 데이터 스토리가 정부 정책, 사회 문제 또는 개인 정보와 같은 민감하거나 영향력 있는 주제를 다루기 때문에 데이터 스토리텔러는 공익과 개인의 프라이버시 권리 사이의 균형을 잘 맞춰야 한다. 윤리적인 데이터 스토리텔링은 개인의 프라이버시를 보호하면서 대중에게 가치 있는 통찰력을 제공하기 위해 법적 기준과 윤리적 지침을 준수해야 한다는 것이다. 여기에는 필요한 경우 데이터를 익명화 (Anonymization) 혹은 가명화 (Pseudonymization)하고 데이터 공개로 인해 발생할 수 있는 잠재적 피해에 대해 주의하는 것이 포함된다. 윤리적 고려를 우선시함으로써 데이터 스토리텔러는 개인의 권리와 존엄성을 보호하면서 정보에 입각한 공공 담론에 기여할 수 있다 (Ojo & Heravi, 2018)
[그림1] 연구참여자 가명처리 예시
(source: Cheong, S. M.-C., Palacios, R, & Beye, K. (2024). Becoming Bridge Citizens: Educating for social justice in conflict-affected settings. Education, Citizenship and Social Justice. 0(0); 1-20. http://DOI: 10.1177/17461979231222904)
데이터 스토리텔링에 있어서 데이터의 윤리적 사용과 관련해서 획기적인 변화는 유럽연합 (EU)에서 GDPR(General Data Protection Regulation, 일반 개인정보 보호법)을 발효한 것이 아닐까 싶다. 유럽연합 (EU)은 연구참여자의 개인정보의 기밀성 및 데이터 보호를 위해 2018년 5월 포괄적인 개인정보 보호법을 발효하였다 (European Union, n.d.). GDPR은 기관이 EU 시민의 개인 데이터를 수집, 사용 및 처리하는 방법에 대해 엄격한 규칙을 말한다. 주요 원칙으로는 데이터 수집에 대한 명확한 동의 요구, 수집된 데이터를 익명화하여 프라이버시 보호, 데이터 유출 통지 제공, 국경을 넘는 데이터 전송의 안전한 처리, 특정 기업에 GDPR 준수를 감독할 데이터 보호 책임자 임명 요구 등이 있다. GDPR은 개인 데이터 프라이버시에 높은 기준을 설정함으로써 데이터 보호와 연구 윤리에 상당한 영향을 미쳤다. 이는 EU 시민의 데이터를 다루는 모든 조직에 영향을 미치며, 데이터 관행에서 더 많은 투명성과 책임성을 요구했다. 또한 유럽 내에서 연구를 수행하는 연구자들은 EU 참가자의 개인 데이터와 관련된 연구를 수행할 때 동의, 익명화 및 데이터 처리와 관련된 GDPR 요구사항을 신중하게 고려해야 한다.
나 역시 박사 연구를 한국과 영국에서 진행해야 했기 때문에 2017년 필드워크를 나가기 전에 연구윤리 승인을 받기 위해 내가 속한 대학과 유럽연합이 곧 시행할 거라고 소문이 돌던 GDPR 승인번호를 받기 위해 준비를 했던 기억이 난다. 사실 GDPR이 아니더라도 유럽은 오랫동안의 연구 관행상 연구참여자들의 개인적인 데이터를 수집하고 관리하는 데 있어 매우 엄격했기 때문에, 연구 윤리 승인에만 수개월이 걸리기 때문에 경험적 연구를 하는 연구자들은 연구 프로젝트를 설계하는 단계부터 데이터의 윤리적인 수집과 관리, 데이터 분석 단계에서 데이터의 무결성과 연구참여자들의 개인정보를 보호하기 위해서 노력한다.
|데이터 스토리텔링에서 윤리적 문제의 실제 사례|
안타깝게도 데이터 스토리텔링 과정에서 스토리텔러(연구자)의 실수이건 의도적이건 많은 연구들에서 윤리적 이슈가 보고되고 있다. 대표적인 사례 중 하나는 공중 보건 연구에서 사회 공간 데이터를 사용하는 과정에서 지도에 참여자 정보를 표시하면서 개인정보를 보호하지 못한 사례이다. 즉, Haley와 동료들(2016)은 성 및 생식 건강에 관한 연구에서 연구자들은 동료 심사를 거친 많은 출판물에서 식별 가능한 참여자들의 개별 데이터 또는 준식별자를 지도에 표시하여 참가자의 개인정보를 보호하지 못하는 위험이 있다는 사실을 발견했다. 특히 지도에 포인트 데이터를 표시하는 출판물의 56%는 데이터를 마스킹하는 데 사용된 접근법을 설명하지 않거나 데이터를 부적절하게 마스킹했으며, 지리적 단위를 사용하여 데이터를 표시하는 출판물의 18%는 최소 2개의 준식별자를 포함했다. 이러한 조사 결과는 사회과학 연구에서 데이터 보호 방법에 관한 기존 문헌에도 불구하고 참여자 정보 유출의 위험이 지속적으로 존재한다는 점을 지적한 것이다.
데이터 스토리텔링에서 실제 윤리적 문제의 또 다른 사례는 데이터 시각화를 사용하여 청중을 오도하거나 속이는 것이다. Brady D. Lund의 "The Art of (Data) Storytelling: Hip Hop Innovation and Bringing a Social Justice Mindset to Data Science and Visualization"에 따르면, 데이터 시각화는 데이터에 대한 청중의 인식을 조작하여 잘못된 결론이나 결정으로 이어질 수 있다고 강조한다 (Lund, 2022). 예를 들어, 데이터 시각화는 데이터의 특정 경향이나 패턴을 강조하면서 다른 중요한 정보를 축소하거나 생략할 수 있다.
데이터 스토리텔링에서 윤리적 문제는 최근에 Tableau와 같은 AI 기반 데이터 스토리텔링 소프트웨어의 사용이 증가하면서 더욱 강조되고 있다. 이러한 도구는 데이터 분석 및 시각화 프로세스를 자동화하여 데이터 스토리텔러가 인터랙티브 하고 매력적인 이야기를 만들 수 있으나, 동시에 데이터 스토리텔링 프로세스에서 편향성과 조작의 가능성을 높일 수 있다. 실제로 Raji와 그의 동료들(2020)의 연구에서 지적했듯이 AI가 인종 편향을 강화시키거나 자율 주행 자동차나 어린이용 콘텐츠 추천 시스템에서 위험한 결정을 내린 사례가 있다.
데이터 스토리텔링에서의 윤리적 고려사항은 데이터의 수집, 분석, 스토리텔링에서 데이터 시각화에 이르는 모든 단계에서 고려되어야 한다. 여기에서 말하는 윤리적 고려사항에는 매우 포괄적인 내용이 될 수 있다. 즉, 어떻게 윤리적으로 데이터를 수집할 것인가에서부터 연구 참여자들의 개인정보가 노출되지 않도록 하는 것, 서사를 생성하는 과정에서 임의성이나 과장되지 않도록 하는 것에 이르기까지 각 단계에서 데이터 스토리텔러들은 이러한 윤리적 사항들을 꼼꼼하게 확인할 필요가 있다. 여기에서는 기존 연구를 바탕으로 각 단계별로 고려해야할 주요한 윤리적 고려사항을 살펴보겠다 (Schloss et al., 2018).
데이터 수집: 연구의 시작인 데이터 수집단계부터 참가자들로부터 사전 동의를 얻어 데이터를 수집하고 참가자가 자신의 데이터가 어떻게 사용될 것이지 명확하게 알려야 한다. 또한 앞서 말한대로 참가자의 신원을 보호하기 위해 데이터를 익명화 혹은 가명화해야 한다.
데이터 분석: 데이터를 정확하게 분석하고 편견이 개입되지 않도록 해야하며, 신뢰를 유지하려면 분석 프로세스의 투명성이 필수적이다. 양적 데이터 분석의 경우에는 분석의 투명성이나 일관성에서 큰 이슈가 없겠으나 질적 데이터 분석 과정은 데이터의 코딩과 해석 단계에서 임의성이나 편향성을 배제하기 위한 노력이 필요하다. 대표적으로 다양한 유형의 질적 데이터를 활용하는 삼각측정이나 NVIVO나 MaxQDA와 같은 질적 데이터 분석 소프트웨어를 활용하는 방법 등이 있다.
내러티브 제작: 내러티브를 구성할 때 선정적인 표현을 피하고 임의성을 제거하기 위한 노력을 해야한다.
데이터 스토리텔링: 정확성을 유지하면서 접근 가능하고 이해하기 쉬운 방식으로 데이터를 제시해야하며, 청자(독자)을 오도하기 위해 비주얼리제이션을 조작해서는 안된다.
데이터 시각화: 데이터 분석 결과의 왜곡을 피하고, 차트를 활용할 경우 시각적 편향성에 유의해 오해를 최소화할 수 있는 시각화 디자인이 필요한다.
사회과학 분야에서 데이터 스토리텔링은 데이터 분석과 데이터의 서사가 사회에 미치는 영향이 크기 때문에 윤리적 고려사항을 염두하고 데이터 분석 및 스토리텔링, 데이터 비주얼라이징 작업을 해야한다는 점을 독자들에게 알리고 싶어서 이번 장을 다소 장황하게 기술했다. 특히 생성형 AI 기술로 인해 방대한 양의 가짜 뉴스와 오정보가 생산되고 있는 지금 스토리텔러들은 더욱 더 윤리적인 데이터 수집, 관리, 분석, 이야기 생성에 신경을 써야하며, 청자 (독자)들 역시 우리가 보고 있는 데이터들이 정말 진실을 말하고 있는지 확인할 수 있는 데이터 리터러시 역량이 어느때보다 요구되는 시점이다.
많은 분들과 데이터 스토리텔링이 무엇이며 혹은 무엇이어야 하는지에 대해 나누고자 시작한 프로젝트가 어느새 마무리 단계에 접어들었다. 다음 장에서는 <당돌한 데이터 스토리텔러>의 마지막 장이 될 예정이다. 최근 연구들과 데이터 스토리텔러로서의 경험을 바탕으로 앞으로의 데이터 스토리텔링의 미래를 이야기해 볼 예정이다.
1. Dykes, Brent. 2016. “Data Storytelling: The Essential Data Science Skills Everyone Needs.” Forbes,March. https://www.forbes.com/sites/brentdykes/2016/03/31/data-storytelling-theessential-data-science-skill-everyone-needs/#6cf5fcf8f0c8.
2. Haley, D. F., Matthews, S. A., Cooper, H. L., Haardörfer, R., Adimora, A. A., Wingood, G. M., & Kramer, M. R. (2016). Confidentiality considerations for use of social-spatial data on the social determinants of health: Sexual and reproductive health case study. Social Science & Medicine, 166, 49-56.
3. Lund, B. D. (2022). The Art of (Data) Storytelling. The International Journal of Information, Diversity, & Inclusion, 6(1/2), 31-41.
4. Ojo, A., & Heravi, B. (2018). Patterns in award winning data storytelling: Story types, enabling tools and competences. Digital journalism, 6(6), 693-718.
5. Pouchard, Line, Amy Barton, and Lisa Zilinski. 2014. “Data Narratives: Increasing ScholarlyValue.” In Proceedings of the ASIST Annual Meeting. Vol. 51. Seattle, WA, USA.doi:10.1002/meet.2014.14505101088.
6. Schloss, K. B., Gramazio, C. C., Silverman, A. T., Parker, M. L., & Wang, A. S. (2018). Mapping color to meaning in colormap data visualizations. IEEE transactions on visualization and computer graphics, 25(1), 810-819.
7. Slaney, Malcolm. 2012. “Tell Me a Story.” IEEE Computer 4–6.