[원문] "Guide to Automated Journalism"
이 글은 Tow Center의 "Guide to Automated Journalism" Executive Summary와 본문의 일부를 번역 및 재구성한 글입니다. (회색으로 작성된 부분은 개인적인 소견임.)
최근 몇 년 구조화된 데이터로부터 뉴스를 자동적으로 생성하기 위해 알고리즘을 사용하는 자동화된 저널리즘(원문 Automated Journalism, 국내에서는 로봇 저널리즘이란 말로 더 통용되는 듯하나 컴퓨테이셔널 저널리즘, 로봇 저널리즘, 알고리즘 저널리즘 모두 비슷한 의미로 사용된다. 단, 컴퓨테이셔널/데이터 저널리즘은 이들보다 더 포괄적인 개념으로 컴퓨테이셔널/데이터 저널리즘 중에서도 작성이 자동화된다면 이는 로봇 저널리즘/자동화 저널리즘에 해당한다. 꼭 작성 방법이 자동화되지 않아도 데이터를 '활용'하여 기사를 작성하다면 이는 데이터 저널리즘에 해당한다고 볼 수 있다.)은 저널리즘 업계를 흔들었다. 특히 Associated Press가 기업의 분기별 수익 보고서를 생산해내기 시작한 이래로 말이다(Automated Insights 플랫폼으로 작성한 애플 분기 보고서). 일단 개발이 되면 알고리즘은 특정 주제에 관한 수천 개의 뉴스를 작성할 수 있을 뿐 아니라, 다른 어떤 '인간 기자'보다 더 빨리, 더 싸게 작성이 가능하며(일단 개발이 되면 = 개발까지의 비용을 무시한다면), 더 정확하기도 하다. 이런 자동화된 뉴스 생산이 기자들의 일자리를 빼앗을 것이라는 우려를 낳기도 하였지만, 이로부터 일부 학자들과 업계인들은 뉴스의 질을 향상시킬 수 있는 기술의 가능성을 보기도 했다.
이 가이드는 자동화된 저널리즘/로봇 저널리즘의 최근의 연구 주제, 전반적인 개요, 핵심 질문들, 적용 가능성 및 가능 영역, 그리고 미래 방향성에 대한 내용들을 다룬다.
[ Market Phase ]
# 전 세계적 회사들이 자동화된 뉴스를 생산하기 위한 소프트웨어를 개발하고 있다.
# 자동화된 뉴스 생산을 도입한 대표적인 미디어 회사는 Associated Press, Forbes, The New York Times, Los Angles Times, ProPublica이다. (이들 회사는 자동화로 뉴스를 만들지는 않고, 특정 알고리즘을 사용하는 플랫폼을 사용하여 뉴스를 생성한 후 이를 배포함. )
- 많은 뉴스룸들이 자동화된 저널리즘을 개발하기 위한 자원이나 기술이 부족하기 때문에, 자연어 생성 기술에 특화되어 있는 회사들과 협력하기 시작했다. 가령 2012년 Forbes는 Narrative Science의 플랫폼인 Quill을 사용했으며, 2013년 ProPublica도 이를 도입했다. 그리고 2014년 Associated Press가 Automated Insights의 플랫폼인 Wordsmith를 사용하면서 자동화된 저널리즘/로봇 저널리즘은 대중의 관심을 받는다.
# 실제 자동화된 뉴스를 생산하는 기업은 세계적으로 독일 5개(AX Semantics; Text-On; 2txt NLG; Retresco; Textomatic), 미국 2개(Narrative Science; Automated Insights), 프랑스 2개(Syllabs; Labsense), 영국 1개(Arria), 중국 1개(Tencent)로 총 11곳 정도이지만, 최근 성장 중이다. 이런 뉴스를 생산하는 기업들은 그들 자신을 저널리즘 조직으로 생각하지 않는다는 점은 고려할 만하다. 대신 뉴스 생산 기업들의 기술은 어떤 데이터나, 어떤 산업으로도 적용 가능하며, 실제 일부 기업들의 주된 비즈니스 영역은 제품 설명, 포트폴리오 분석, 병원의 환자 요약 등이기도 하다.
(자동화된 뉴스를 생산하는 회사들에게 저널리즘이란? 그냥 적용 가능한 다양한 영역의 부분에 불과하지 않을까? 애초에 automated journalism의 의미가 비생산적으로 기사 혹은 글을 생산하는 것을 자동화 함으로써 효율적으로 만들겠다는 것이지, 어떤 저널리즘을 만들겠다, 이런 의도는 없으니까. 그만큼 얼마나 비효율적인 일에 인력이 낭비되고 있었는가의 반증이기도 하다.)
# 비록 기술은 아직 시장 초기 단계지만, 자동화된 저널리즘은 이미 뉴스룸에서 활용되고 있다.
[ Conditions and Drivers ]
# 자동화된 저널리즘은 정제되고 명확하고 구조화가 잘된 데이터가 있는 반복적인 주제에 관한 일상적 뉴스를 생산하는데 가장 유용하다.
# 자동화된 저널리즘은 구조화된 데이터 접근이 불가능하거나 데이터의 질이 낮은 주제에 관해서는 사용될 수 없다
# 자동화된 저널리즘의 동력은 구조화된 데이터로의 접근성 향상과 비용을 줄이고 뉴스의 질을 높이려는 뉴스조직의 목표에 달려있다.
[ Potential ]
# Speed, Scale, Accuracy, Objectivity: 알고리즘으로 더 빨리(speed), 대량으로(scale), 더 정확하게(accuracy) 뉴스를 작성하는 것이 가능하다. 또한 알고리즘은 데이터를 분석하고 결과를 글로 씀에 있어 미리 정의된 규칙을 적용하기 때문에 객관적이다.
- 가령 정확성에 있어서는 자동화된 저널리즘이 오류를 범하기도 한다. 넷플릭스의 2분기 수익 리포트에서 넷플릭스가 주식분할을 한 것을 인지하지 못하고, 주가가 71% 수준으로 하락했다고 보도하였다가 수정한 사례가 있다. 해당 사례는 알고리즘 개발에 있어서 특수 사례를 미리 예측하고, 이상치(outlier)와 재검토가 요구됨을 시사한다.
# Personalization: 알고리즘은 같은 데이터를 가지고 다양한 기사를 작성할 수 있다. 가령 다국어로 작성이 가능하며, 다른 관점으로 작성하는 것이 가능하기 때문에 개인 독자의 선호에 따라 개인화하는 것이 가능하다. 사례로는 Narrative Science의 개인화된 파이낸스 리포트 서비스 , Automated Insights의 Yahoo Fantasy Football에 관한 리포트 등이 있다. 또한 이긴 팀 편의 독자에게는 긍정적 톤으로, 진 팀 편의 독자에게는 다소 동정적 톤으로 글의 어조를 개인화하는 것도 여기 포함된다.
# News on demand: 알고리즘은 데이터에 관한 사용자 질문에 따라 이야기를 작성할 수 있기 때문에 온디맨드 형태로 뉴스를 작성할 수 있다.
[ Limitations ]
# Data availability and quiality: 알고리즘은 편향과 오차가 필연적으로 존재하는 데이터와 가정에 기반한다. 따라서 알고리즘은 예상치 못하고 의도되지 않은 오차가 있는 결과를 생산할 수 있다.
# Validation and Ingenuity: 알고리즘은 질문을 하거나, 새로운 현상을 설명하거나, 인과관계를 증명할 수 없기 때문에 사회를 관찰하고 여론을 형성하는 저널리즘의 임무 수행에 있어서 한계가 존재한다.
# Writing quality: 자동화된 뉴스의 작문 수준은 사람이 쓴 글 보다 떨어지지만 자연어 생성 기술의 진전으로 발전할 수 있다.
[ For journalists ]
# 사람 + 자동화된 저널리즘 = 'man-machine marriage'
# (인간) 저널리스트들은 심층 분석, 인터뷰, 심층보도와 같은 알고리즘이 행할 수 없는 영역에 있어서의 발전이 요구됨
# 자동화된 저널리즘은 일상적 토픽만을 다루는 (인간) 저널리스트들은 대체할 것이나, 알고리즘의 발전에 따라 새로운 직업을 생산할 수 있음.(기존 저널리즘과 다른 speciality가 요구되는 영역에서)
[ For news consumers ]
# 사람들은 로봇/알고리즘이 작성한 기사가 사람이 쓴 기사보다 더 믿을 수 있다고 평가했지만, 딱히 로봇/알고리즘이 쓴 기사를 즐기지는 않음.
# 자동화된 알고리즘은 사실이 빠르게 제공되는 주제에 적합하며, 섬세한 작문보다는 효율적으로 전달하는 것이 중요함. 또한 기존에 뉴스가 생성되지 않던 영역이라서 독자가 글의 수준에 대해 낮은 기대를 갖고 있는 영역에 적합함.
# (뉴스 기자 작성) 알고리즘의 투명성(가령 알고리즘이 어떻게 작동하는지 알고 싶다는 등에 대한)에 대한 뉴스 사용자의 요구는 알려진 바가 적음.
[ For new organizations ]
# 알고리즘은 오류에 대해 책임을 지지 않기 때문에 자동적으로 생성된 결과물에 대한 책임은 나머지 사람(저널리스트나 배포자 등)의 것임.
# 알고리즘의 투명성이나 신뢰도는 오류가 발생했을 때 중요한 문제로 떠오를 것임. 특히 논쟁이 있는 주제나 개인화된 뉴스에 있어서는 더욱더.
# 기본적 가이드라인과 별개로 알고리즘 작동에 따라 어떤 정보가 투명해야 하는지에 대한 것은 제대로 알려지지 않음.
[ For society ]
# 자동화된 저널리즘은 뉴스의 양의 증가를 가져오기 때문에, 관련된 콘텐츠를 찾기 위한 사용자의 로드는 증가할 수 있음.
#자동화되고, 특히 개인화된, 뉴스로 여론의 분화에 대한 우려가 재강조될 수 있음.
# 알고리즘이 정부의 감시자로서의 저널리즘의 역할을 맡았을 때 민주주의에 대한 함의는 알려진 바가 적음.
서울대학교 이준환 교수 연구팀 로봇 저널리즘 프로젝트 페이스북 페이지(바로가기)