(cover imange source: Google Gemini)
이번 챕터는 주제가 주제인만큼 생성형 AI가 데이터 스토리텔링 분야에서 얼마나 영향을 미치고 있는지 살펴볼 것이다. 요즈음은 TV, 냉장고, 세탁기 할 것 없이 집에서 사용하는 가전제품들, 모바일, PC에 이르는 우리의 삶과 일에서 인공지능기술이 빠지면 아무것도 할 수 없을 정도다. 연구 측면에서도 과거에는 내가 혼자서 수개월에 걸쳐서 자료를 찾고, 선행연구들을 정리하고, 이론적 프레임워크를 만드는 과정에서 모든 작업을 한 땀 한 땀 했다면, 지금은 research rabbit, perplexity.ai 와 같은 AI-powered tools을 사용해서 선행연구를 검색하고 요약하는 일련의 작업을 한두 시간이면 끝낼 수 있다.
개인적으로 생성형 AI 툴이 얼마나 자연스러운 이미지들을 생성할 수 있을지 궁금해서 이번 챕터의 커버 이미지를 Gemini를 사용해서 그려봤다. Gemini는 1분도 안 되는 시간에 많은 이미지들을 뚝딱 그려줬다. 물론 여전히 지금 커버 이미지에서도 볼 수 있듯이 어딘가 나사 하나가 빠진 것 같은 이미지들이 대부분이었지만 결과적으로 초안 작업을 이렇게 빠르게 할 수 있다는 것 자체가 우리가 기존에 하던 업무와 연구들을 획기적으로 개선할 수 있는 것만은 분명하다.
이렇듯 인공지능기술, 특히 생성형 인공지능 (genAI) 기술은 우리의 삶의 모든 영역에서 좋은 쪽이든 나쁜 쪽이든 엄청난 영향을 미치고 있고, 데이터 분석과 시각화, 데이터 스토리텔링 분야도 예외는 아니다.
많은 AI-Powered Software는 데이터 분석과 시각화를 자동화하여 저널리스트와 데이터 분석가들이 데이터 분석, 스토리텔링 및 데이터 시각화 작업을 더 창의적이고 해석적인 측면에 집중할 수 있도록 함으로써 데이터 스토리텔링 분야의 혁신을 가져왔다. AI 기술은 지루한 작업을 자동화하고, 방대한 양의 데이터를 분석하며, 인간이 놓칠 수 있는 패턴을 발견함으로써 데이터 스토리텔링을 크게 개선할 수 있다.
예를 들어, 노르웨이 NRK는 AI를 사용하여 TikTok의 알고리즘과 우크라이나 전쟁 관련 동영상에 미치는 영향을 조사했다 (NRK, n.d.). 기자들은 챗봇을 프로그래밍하여 이미지와 비디오에서 특정 키워드를 검색하도록 하여 TikTok의 알고리즘이 전쟁 관련 콘텐츠의 가시성에 어떻게 영향을 미치는지 분석할 수 있었다. 이 프로젝트는 AI가 대량의 시각적 데이터를 처리하고 분석하는 데 어떻게 활용될 수 있는지 보여주며, 기자들이 수동으로 만들기 어려운 스토리를 전달할 수 있게 한다. 또 다른 예는 뉴욕 타임스에서 진행한 1921년 털사 인종 학살 (Tulsa Race Massacre)에 대한 프로젝트이다 (Ellsworth, 2009). 뉴욕 타임스는 AI를 활용하여 빈티지 지도와 건물 높이 데이터로부터 활력을 찾고 있는 커뮤니티를 재구성하여 강력한 시각적 내러티브를 만들었다. AI의 이러한 적용은 시간을 절약할 뿐만 아니라 스토리텔링 과정을 향상할 수 있는 몰입형 경험을 만들 수 있게 한다. 비슷하게, 멕시코의 El Universal은 자연어 처리를 사용하여 수천 개의 뉴스 기사를 분석하고 마약 카르텔의 살인에 대한 보도의 격차를 보고하였다. 이러한 예들은 AI가 어떻게 데이터 안에 숨겨진 내러티브를 발견하고 데이터 스토리텔러에게 새로운 관점을 제공할 수 있는지 보여준다. 또한 데이터 스토리텔링에 AI를 통합하면 사람이 할 수 없는 복잡한 데이터 세트의 더 정교한 분석도 가능해진다. 예를 들어, 페루의 OjoPúblico는 수천 개의 공공 기록을 분석하여 공공 계약의 잠재적 부패를 식별하는 알고리즘을 개발했다. 이는 AI가 대량의 정형화된 혹은 비정형화된 데이터를 처리하고 해석하여 사람이 데이터를 분석할 때 발견하기 어렵거나 불가능한 인사이트를 밝혀낼 수 있다는 것을 확인시켜 준다.
무엇보다, AI 툴은 비전문가도 데이터로부터 인사이트를 발견할 수 있는 다양한 툴을 제공함으로써 데이터 스토리텔링의 접근성을 향상했다. 예를 들면, Tableau와 Power BI와 같은 플랫폼은 자연어 처리 및 자동화된 기계 학습과 같은 AI 기반 기능을 통합하여 사용자가 고급 기술 없이도 데이터를 쿼리하고 시각화를 생성할 수 있도록 하였다. 이렇게 누구나 데이터에 접근할 수 있는 데이터 접근성의 향상은 더 많은 사람들이 복잡한 데이터 분석에 참여하고 이해할 수 있도록 하여 사회 전체가 데이터에 기반한 의사결정이 가능한 문화를 조성했다.
그러나 데이터 스토리텔링에서 AI 기술을 통합한 것에는 한계도 드러냈다. 즉, AI 시스템은 때때로 오류나 편향을 생성할 수 있으며 (사르다리 자데, 2022), 커버 이미지에서 볼 수 있듯이 그 결과물은 인간에 의해 제공되는 데이터 분석 결과가 보여주는 깊이와 맥락이 결여될 수 있다. 앞서 언급했던 페루의 OjoPúblico의 경우도 알고리즘을 사용하여 수천 개의 공공 기록을 분석하여 위험 요소를 찾아내는데 기여하였으나, 여전히 불완전한 시스템 혹은 잘못된 데이터를 분석하는 과정에서 맥락에 특화된 부패 지표를 찾는데에 실패할 수 있다. 또한 NRK의 'TikTok doesn't show the war in Ukraine to Russian users' 프로젝트는 매주 3,000개 이상의 콘텐츠를 분석하여 우크라이나 전쟁에서 사용되는 선전 내러티브 전략을 찾아내는 데에는 효과적이었으나 불완전한 자연어 처리 (NLP) 모델로 인해 때때로 맥락이나 풍자를 오해하여 부정확한 내러티브 분석 결과를 초래할 수 있다.
이러한 한계에도 불구하고 현재와 같은 속도와 AI 기술의 지속적인 개선은 시간이 지남에 따라 데이터 분석에 대한 정확성과 신뢰성이 향상될 것으로 기대되며, AI가 더욱 정교해짐에 따라 데이터에 숨겨진 이야기를 발견하고 전달하는 데 더욱 중요한 역할을 할 가능성이 높아지며, 우리가 정보와 상호 작용하는 방식을 변화시킬 것이다 (Rogers, 2023).
이와 같이 인공지능 기술은 데이터 저널리즘과 스토리텔링에 혁신을 가져오고 있다. 자연어 처리(NLP)와 머신러닝과 같은 AI 기술은 사용자가 데이터를 보다 직관적으로 상호작용할 수 있게 하여, 평이한 언어로 질문을 하고 시각적 또는 서술적 응답을 받을 수 있게 한다. 이러한 기능은 비숙련자들에게 데이터 분석, 스토리텔링 및 데이터 시각화의 진입 장벽을 낮추어, 분석 전문 지식 없이도 데이터를 통해 통찰을 도출하고 흥미로운 이야기를 전달할 수 있게 한다.
2024년 현재, 데이터 스토리텔링의 효율성을 높이기 위해 여러 AI 기반 데이터 시각화 및 스토리텔링 툴이 개발되고 있고, 주목할 만한 소프트웨어는 다음과 같다:
Tableau는 현재 Salesforce의 일부인 Tableau Software에서 개발한 강력한 데이터 시각화 및 비즈니스 인텔리전스 소프트웨어이다. 이 소프트웨어는 Chris Stolte가 Stanford University에서 박사 연구를 진행하면서 대용량 데이터를 시각화하는 기술을 연구한 것에서 출발한다. 2003년 Christian Chabot, Pat Hanrahan, Chris Stolte는 Tableau의 직관적인 드래그 앤 드롭 인터페이스의 기반이 된 VizQL(Visual Query Language)이라는 기술을 개발했다. 이 기술을 적용하여 사용자는 광범위한 프로그래밍 지식 없이도 원자료를 활용해 빠르고 쉽게 대화형 대시보드, 차트 및 지도를 만들 수 있다. Tableau의 주요 기능 중 하나는 스프레드시트, 데이터베이스, 클라우드 서비스 등 다양한 데이터 소스에 연결할 수 있다.
Tableau의 Ask Data 및 Explain Data와 같은 AI 기반 기능을 사용하면 사용자는 자연어로 데이터에 대해 질문하고 즉각적인 결과를 얻을 수 있어서 비숙련 데이터 분석가도 데이터 분석을 보다 쉽게 할 수 있다. 또한 Tableau의 내장 기계 학습 알고리즘은 사용자가 데이터에서 패턴, 추세 및 이상값을 식별하는 데 도움이 되어 더 많은 정보에 입각한 의사 결정을 용이하게 한다 (Street, 2023).
(Source: Tableau Cloud: https://www.tableau.com/products/cloud-bi)
Tableau의 사용자 친화적인 인터페이스와 강력한 기능은 빠르게 인기를 얻었고, 회사의 급속한 성장으로 이어져 2019년 Salesforce에 157억 달러에 인수되었다. AI 기반 데이터 시각화 소프트웨어인 Tableau는 여러 가지 장점을 제공한다. 우선 사용자는 광범위한 코딩 기술 없이도 대화형 시각화를 통해 대규모 데이터 세트를 신속하게 탐색하고 통찰력을 얻을 수 있다.
Tableau는 강력하고 사용하기 쉬운 데이터 시각화 도구이지만 몇 가지 제한 사항이 있다. 즉, AI 기반 데이터 저장 소프트웨어인 Tableau는 입력되는 데이터의 품질과 정확성에 의존한다. 데이터가 불완전하거나 일관성이 없거나 편향되어 있으면 결과 시각화 및 인사이트가 오해의 소지가 있을 수 있다. 따라서 초기 데이터베이스를 구축하는 과정이 매우 중요한데, 이를 위해서는 Tableau의 AI 알고리즘에 대한 이해가 필요하다. 문제는 이 알고리즘이 다소 복잡할 수 있으며 모든 기능을 완전히 활용하려면 어느 정도의 전문 지식이 요구된다. 또 다른 한계는 분석되는 데이터 세트의 크기와 복잡성에 따라 Tableau의 성능이 영향을 받을 수 있어 응답 시간이 느려질 수 있다. 따라서 Tableau는 데이터 시각화에서는 뛰어나지만 고급 통계 분석이나 사용자 정의 시각화에는 다른 도구만큼 유연하지 않을 수 있다. 또한 소프트웨어의 라이선스 비용은 특히 소규모 조직이나 개인 사용자에게는 상대적으로 높을 수 있다. 이러한 한계에도 불구하고 Tableau는 매력적이고 유익한 데이터 시각화를 통해 데이터 스토리텔링의 힘을 활용하고자 하는 개인, 기업과 조직에서 널리 사용되고 있다.
2. NarrativeScience
NarrativeScience는 2010년 Stuart Frankel, Larry Birnbaum, Kris Hammond이 설립한 Narrative Science 회사에서 개발한 AI 기반 데이터 스토리텔링 플랫폼이다. 이 소프트웨어는 창립자들이 데이터로부터 자연어 내러티브를 자동으로 생성하는 방법을 연구하던 노스웨스턴 대학교의 지능형 정보 연구소의 연구에서 탄생했다. 이를 바탕으로 데이터를 이야기로 변환하는 소프트웨어 Quill을 개발했다. Quill은 자연어 (NLG)를 사용하여 데이터를 분석하고, 데이터에서 도출된 인사이트를 설명하는 서면 내러티브를 생성한다. 이 기술을 통해 사용자는 보고서, 요약 및 기타 형태의 서면 콘텐츠를 자동으로 생성할 수 있어 데이터를 더 널리 이해하고 접근할 수 있게 한다. NarrativeScience의 Quill의 주요 기능에는 다양한 데이터 소스와의 통합, 실시간 데이터 분석 수행, 인간과 같은 내러티브 생성이 포함된다. 또한 Quill은 금융에서 의료에 이르기까지 다양한 산업의 특정 요구에 맞게 언어와 내러티브의 초점을 맞춤 설정할 수 있다. Quill의 NLG 기능은 데이터 트렌드와 이상 현상에 대한 맥락과 설명을 제공하여 의사 결정 과정에 중요한 역할을 한다. 소프트웨어의 일관되고 편향되지 않은 보고서 생성 능력은 조직이 데이터 스토리텔링 노력에서 높은 수준의 정확성과 신뢰성을 유지하는 데 도움이 된다.
NarrativeScience의 주요 기능에는 자동화된 데이터 분석, 자연어 생성, 맞춤형 스토리텔링 템플릿이 포함된다. 이 소프트웨어는 다양한 소스에서 대규모 데이터 세트를 수집하고, 트렌드와 인사이트를 분석한 다음, 데이터를 명확하고 간결한 언어로 설명하는 사람이 읽을 수 있는 내러티브를 생성할 수 있다. 또한 사용자는 이러한 내러티브의 톤, 스타일, 초점을 특정 청중과 목적에 맞게 사용자 정의할 수 있다.
그러나 Quill의 장점에도 불구하고 여기에도 몇 가지 한계가 있다. 다른 소프트웨어와 마찬가지로 주요 단점 중 하나는 입력 데이터의 품질과 구조에 크게 의존한다는 점이다. 따라서 형식이 잘못되었거나 불완전한 데이터는 부정확하거나 오해의 소지가 있는 내러티브를 초래할 수 있다. 또한 Quill이 인간의 글쓰기와 유사한 텍스트를 생성할 수 있지만, 인간 작가가 제공할 수 있는 깊이와 창의성에 미치기는 어렵다. 소프트웨어를 완전히 활용하려면 초기 설정과 맞춤화가 상당히 필요하며, 이는 많은 자원을 소모할 수 있다. 그럼에도 불구하고 Quill의 데이터 기반 내러티브 생성 자동화 능력은 상당한 효율성 향상을 제공한다.
Power BI는 Microsoft에서 개발한 데이터 분석 도구로, 사용자가 데이터를 시각화하고 인사이트를 공유하는데 매우 요긴하다. 2015년에 출시된 Power BI는 빠르게 시장에서 선도적인 데이터 시각화 도구 중 하나로 자리 잡았다. 이 소프트웨어는 다양한 데이터 소스에 연결하고, 대화형 대시보드를 만들며, 상세한 보고서를 생성할 수 있게 해 주며, 자연어 처리(NLP)와 머신 러닝(ML) 기능과 같은 AI 기반 기능은 사용자가 평이한 언어로 질문을 하고 유익한 시각화 및 결과 예측을 받을 수 있게 하여 데이터 분석을 향상한다. 게다가 Power BI는 Excel 및 Azure와 같은 다른 Microsoft 제품과의 통합을 통해 기능성과 사용 편의성을 더욱 확장할 수 있다.
Power BI의 개발은 데이터 분석을 보다 쉽게 하고, 더 넓은 사용자층이 접근할 수 있게 하려는 Microsoft의 비전에서 출발했다. 처음에는 Office 365 제품군의 일부였지만, 그 인기도와 잠재력으로 인해 독립된 제품으로 개발되었다.
이 소프트웨어는 다양한 데이터 소스와 통합되어 사용자가 인터랙티브 한 보고서와 대시보드를 생성할 수 있다. 파워 BI의 주요 기능에는 데이터 연결성, 데이터 모델링, 상호작용적 시각화, 자연어 Q&A, 협업 및 공유 기능, AI 기반 분석 등이 있으며, 이를 통해 사용자는 데이터에서 패턴과 트렌드를 발견할 수 있다. 또한, Power BI는 자연어 쿼리를 지원하여 다양한 수준의 기술적 전문성을 가진 사용자도 쉽게 접근할 수 있다.
(source: https://www.microsoft.com/en-us/power-platform/products/power-bi)
Power BI의 주요 강점 중 하나는 사용자가 최소한의 노력으로 복잡한 시각화와 보고서를 만들 수 있게 해주는 사용자 친화적인 인터페이스를 제공한다는 점이다. 특히, 사용자가 대규모 데이터 세트의 대화형 및 동적 시각화를 빠르고 쉽게 만들 수 있어 데이터 분석 및 시각화 과정에서 시간과 노력을 절약할 수 있다. 또한 AI 기반 기능은 더 깊이 있는 데이터 분석과 예측 분석을 가능하게 한다. 그러나 Power BI는 대규모 데이터 세트를 처리할 때 상당한 컴퓨팅 파워를 요구하는 경우가 많으며, 고급 기능을 활용하려면 사용자가 소프트웨어에 대한 고급 기능을 학습해야 한다. 사용자 친화적인 인터페이스를 제공하기는 하나 Power BI는 초보자에게 복잡할 수 있으며, 매우 큰 데이터 세트를 처리할 때 성능이 저하될 수 있다. 또한, 소프트웨어는 광범위한 맞춤 설정 옵션을 제공하지만, 이는 새로운 사용자에게는 때때로 부담이 될 수 있다. 이러한 도전에도 불구하고, Power BI는 데이터 스토리텔링에 유용한 도구로 남아 있으며, 사용자가 원시 데이터를 매력적인 내러티브로 변환할 수 있도록 하는 매우 유용한 도구로 평가받고 있다.
루커 스튜디오(구 구글 데이터 스튜디오)는 구글에서 개발한 데이터 시각화 및 리포팅 도구이다. 사용자는 다양한 데이터 소스에 쉽게 연결하고, 대화형 대시보드를 만들고, 통찰력을 다른 사람과 공유할 수 있다. 루커 스튜디오의 직관적인 드래그 앤 드롭 인터페이스와 사전 제작된 템플릿은 다양한 수준의 기술 전문 지식을 가진 사용자가 쉽게 액세스 할 수 있으므로 전문적인 포맷의 보고서와 대시보드를 빠르게 만들 수 있다. 루커 스튜디오는 2016년 구글 애널리틱스 360 스위트의 일부로 처음 구글 데이터 스튜디오로 출시되었다. 이는 데이터 시각화 및 분석을 위한 사용자 친화적인 플랫폼을 제공하여 기업이 데이터 기반 의사 결정을 내릴 수 있도록 설계되었다. 2022년 구글은 Data Studio의 이름을 루커 스튜디오로 바꾸고 2020년 인수한 루커 플랫폼과 통합되었다. 이 리브랜딩은 기업에 보다 통합되고 포괄적인 데이터 분석 설루션을 제공하는 것을 목표로 한다.
루커 스튜디오의 주요 장점 중 하나는 구글 애널리틱스, 구글 애즈, 구글 빅쿼리와 같은 다양한 구글 제품과 원활하게 통합되고 MySQL, PostgreSQL, Google Sheets, BigQuery와 같은 다른 데이터 소스에 쉽게 연결할 수 있다는 점이다. 이를 통해 사용자는 여러 소스의 데이터를 쉽게 통합하고 포괄적인 보고서를 작성할 수 있다. 또한 루커 스튜디오의 협업 기능을 통해 팀은 실시간으로 보고서와 대시보드에 대해 협력할 수 있다. 그러나 일부 사용자는 구글 생태계에 대한 이 도구의 의존도가 제한적이라고 느낄 수 있으며, 잠재적인 단점은 사용자가 다른 고급 데이터 시각화 도구에 비해 복잡하고 높은 수준으로 사용자 정의된 시각화를 만드는 것이 어려울 수 있다는 점이다.
(Source: https://lookerstudio.google.com/u/0/navigation/templates)
인공지능 기술은 지루한 작업을 자동화하고, 숨겨진 패턴을 발견하며, 전반적인 내러티브 품질을 향상해 데이터 스토리텔링을 혁신하고 있다. AI 기반 도구는 방대한 양의 데이터를 신속하게 분석하여 인간이 발견하는 데 훨씬 더 오래 걸릴 수 있는 트렌드와 이상치를 발견할 수 있도록 돕는다. 이러한 기능을 통해 데이터 저널리스트와 스토리텔러는 데이터 처리에 매몰되지 않고 결과 해석과 설득력 있는 내러티브 작성에 더 집중할 수 있다.
더욱이 AI는 이미지, 텍스트, 소셜 미디어 게시물 등 다양한 유형의 미디어를 분류하고 분석하는 데 사용되고 있으며, 이러한 멀티모달 분석 기능을 통해 데이터 과학자들은 다양한 출처의 인사이트를 통합하여 더욱 포괄적이고 뉘앙스 있는 스토리를 만들 수 있다.
위에서 요약한 몇 개의 AI 기반의 데이터 스토리텔링 툴은 아마도 향후 1-2년 내에 엄청나게 증가할 것으로 예상된다. 더불어 AI가 데이터 스토리텔링의 효율성을 크게 향상하겠지만, 개인적으로 데이터를 비판적으로 해석할 수 있는 인간의 비판적 사고력과 창의성은 더욱 중요해질 것으로 예상한다. James Cameron의 인용구가 시사하듯이, 컴퓨터는 질문에 답할 수 있지만, 올바른 질문을 하고 맥락을 제공하는 것은 여전히 인간의 몫이다. 뉴욕 타임스의 1921년 털사 인종 학살 재구성이나 El Universal의 "Zones of Silence" 같은 프로젝트에서 볼 수 있듯이, 가장 강력한 데이터 스토리텔링은 AI의 분석 능력과 인간의 창의성 및 비판적 사고가 결합될 때 나타난다.
샤얀 사르다리자데.(2022, April). 우크라이나 전쟁: 틱톡 가짜 영상, 수백만 조회수 기록. BBC 모니터링 is online avaliable at https://www.bbc.com/korean/international-61250042 (acceced 29 July 2024)
Alex Street (2023). Who Were the Founders of Tableau? Available at https://bigframe.net/who-were-the-founders-of-tableau/
NRK (n.d.). TikTok doesn't show the war in Ukraine to Russian users. Online available at https://www.nrk.no/ostfold/xl/tiktok-doesn_t-show-the-war-in-ukraine-to-russian-users-1.15921522
Scott Ellsworth, (2009). "Tulsa Race Riot", The Encyclopedia of Oklahoma History and Culture. (accessed 30 July 2024)
Simon Rogers.(2023). AI FOR DATA STORYTELLING Available at https://simonrogers.net/2023/03/28/ai-for-data-storytelling/