brunch

매거진 B Magazine

You can make anything
by writing

C.S.Lewis

인공지능(AI)의 기사 작성 알고리즘, 로봇 저널리즘

비플라이소프트 & WIGO AI LAB


“수요일인 17일은 고기압의 가장자리에 들면서 가끔 구름이 많고 오후부터는 제주도를 시작으로 일부 남부지방에 비가 내리겠다.”


연합뉴스가 6월 16일 송출한 기사 중 일부입니다. 연합뉴스뿐 아니라 인터넷 뉴스 코너에서 언제든지 볼 수 있는 흔한 날씨 기사 중 하나죠. 이 기사에는 한 가지 특별한 점이 있습니다. 기사의 마지막 문장에 그 답이 있습니다.


“이 기사는 엔씨소프트의 인공지능 기술인 자연어 처리 기술(NLP)과 취재 기자의 협업을 통해 작성됐습니다.” 


어떠세요? “인공지능이 발전하면 많은 직업을 대체하게 된대!” 이 말이 그저 먼 미래를 그리는 상상에 그치는 것이 아니라 이미 우리 실생활 속에 성큼 다가와 있다는 것이 느껴지지 않으시나요?




인공지능이 기사를 작성하는 시대


인공지능이 사람 대신 기사를 작성하는 것을 일컬어 ‘로봇 저널리즘’이라고 합니다. 로봇이라고 해서 사람을 닮은 모양의 로봇이 컴퓨터 앞에 앉아 자판을 두드리는 걸 상상하진 말아주세요(물론, 몇십 년 혹은 몇 년 후에는 가능할 수도 있지만 말이죠). 그저 과거의 수많은 기사 데이터를 학습한 인공지능 소프트웨어를 활용해 기사를 작성하는 것을 뜻하는 용어니까요.


아직 많은 사람들에게 생소한 용어이지만, 사실 언론계에서 인공지능 기술을 활용해 기사를 작성하고 있는 사례는 이미 퍽 많습니다.


해외 사례를 먼저 살펴볼까요? LA 타임스의 지진 속보 작성 프로그램, ‘퀘이크봇(Quake Bot)’이 대표적입니다.


출처: https://www.latimes.com/people/quakebot


LA 타임스는 퀘이크봇에 대해 ‘LA Times가 개발한 소프트웨어로, 미국 내에서 발생하는 지진 관련 소식을 최대한 빠르게 전달하기 위해 개발되었습니다’라고 소개합니다. 퀘이크봇은 24/7 미국 지질조사국(U.S. Geological Survey)의 지진 관련 공지를 체크하고, 뉴스 작성 기준 이상 진도(3.0)의 지진이 발생하면 직접 기사를 작성해 담당 기자에게 발송합니다. 알람을 받은 담당 기자는 작성된 기사를 검토한 뒤, 사람들에게 알려야 할 정보라고 판단하면 편집 과정을 거쳐 기사를 송출하죠.


LA 타임스의 사례에서 보듯 아직은 사람의 손길을 거치는 과정이 일부 필요하긴 하지만, 속도와 데이터의 정확성 면에서 혁신을 가져온 것만은 확실해 보입니다. LA 타임스에 따르면, 지진 발생 – 기사 작성 – 기자 검토 – 발송까지 불과 8분*밖에 걸리지 않았다고 하니까요.

* 네이버 지식백과


연합뉴스와 LA 타임스의 사례처럼 인공지능 기자들은 그래서 데이터를 기반으로 작성해야 하는 기사 분야에서 점점 두각을 나타내고 있습니다.




데이터 기반의 스포츠와 주식 분야, 속도가 생명인 통신사에서 활약


출처: 연합뉴스 로봇기자 '사커봇' 홈페이지 캡처


대표적으로 스포츠 분야가 있습니다. 연합뉴스는 지난 2017년 영국 프리미어리그 중계에 인공지능 기자인 ’사커봇’을 도입한 바 있고, 2018년 평창 동계 올림픽에서도 경기 속보 취재에 로봇 알고리즘인 ‘올림픽봇’을 투입했습니다. 올림픽봇은 주요 경기 속보와 기록, 경기 결과, 메달 순위 등 관련 소식을 대중들에게 전달했죠. KBO 역시 2군 리그인 ‘KBO 퓨쳐스 리그’에 인공지능 소프트웨어를 도입해 경기 결과를 기사로 작성하고 있습니다.


연합뉴스에 따르면, 사커봇은 데이터 수집부터 최종 기사 생성까지 기사제작 전 과정을 경기 종료와 동시에 거의 지연 없이 처리할 수 있었다*고 합니다. 걸린 시간은 단 몇 초. 정확한 기사와 신속한 송고가 생명인 스포츠 기사에 아주 적합한 장점을 인공지능 소프트웨어가 가지고 있는 셈이죠.

*연합뉴스, <연합뉴스 로봇기자 ‘사커봇’, 어떻게 기사 쓸까>, 2017.08.14


이런 장점 덕분에 데이터의 정확성이 중요한 주식 관련 기사 분야에서도 로봇 기자의 활약이 이어지고 있습니다. 뉴스 송출에 있어 속도가 중요한 통신사들도 예외는 아닌데요. 세계적인 통신사인 <AP>와 <로이터> 등도 로봇 기자를 도입해 기업 실적, 스포츠 등 데이터가 필요한 뉴스 작성에 활용하고 있습니다. 분야는 앞으로 더욱 늘어날 전망이라고 하고요.




로봇 저널리즘, 어떤 기술로 가능할까?


컬럼비아대학교 토우센터 자료에 따르면, 인공지능 소프트웨어에 의한 기사 작성은 다음과 같은 5가지 단계로 구성*됩니다.

* 네이버 지식백과


▲ 1단계 : 데이터 수집, 분석

▲ 2단계 : 통계적 방법론의 개입을 통해 데이터에서 가치 있는 뉴스거리를 찾아내는 과정

▲ 3단계 : 어떤 각도로 기사를 작성할지 기사의 관점을 확정

▲ 4단계 : 세부 기사 배열

▲ 5단계 : 자연어 처리 기술로 기사 제작


첫 단계는 기사 작성의 근거가 되는 원본 데이터 수집입니다. 이때, 전달하고자 하는 정보가 구체적일수록 알고리즘 기반으로 작성된 기사의 이질감이 낮아지죠. 분명한 데이터를 가지고 작성할 수 있는 스포츠, 금융, 날씨 등의 분야에서 로봇 저널리즘의 적용 범위가 빠르게 확산 되고 있는 이유이기도 합니다. 데이터 수집을 할 때는 쓰고자 하는 분야에 해당하는 기사들을 판별하여 수집하고 주요 정보를 추출하는 데 있어 불필요한 내용을 제거하는 전처리 과정을 우선적으로 거치게 됩니다.


다음으로, 수집한 데이터에서 기사로 작성할만한 소재를 도출합니다. 소재는 말 그대로 기사의 주제가 되는 주제어 혹은 주제어들의 집합인데요. 각 분야별로 사전에 정의된 주요 주제어 사전을 기준으로 도출하거나, 비플라이소프트의 모니터링 & 분석 플랫폼인 위고몬의 이슈키워드 기능과 같이 주요 핵심어를 추출하는 통계적 기법들을 활용함으로써 핵심이 되는 주제어들을 정량적으로 수치화하여 선별하는 과정을 거치게 됩니다.


뉴스의 주제어들이 정해지고 나면 해당 주제어들을 중심으로 맥락을 고려해 전체 기사의 분위기(Mood)를 결정하게 됩니다. 스포츠 분야를 예로 들어볼까요? 프로야구 A팀의 성적이 오르고 있는지 혹은 극심한 부진에 빠져 있는지를 알기 위해 정량적인 성적 지표의 변화량을 분석하여 전체적인 기사의 분위기를 정합니다. 단순히 정량적인 성적 정보 이외에도 위고몬의 감성어(긍부정) 추출 기능과 같이 주제어의 감성어가 무엇인지를 판별해 기사의 분위기를 정하기도 합니다. 이때, 개별 분야의 도메인 지식을 기반으로 구축된 자동화 알고리즘을 활용합니다.


전체적인 주제와 분위기가 정해지고 나면 추출된 정보들을 결합해 문맥의 흐름에 맞게 세부 내용을 정렬하는 과정을 거치게 됩니다. 주제어와, 근거가 되는 정량적 데이터 혹은 단어들을 위고몬의 의미 네트워크 등과 같은 정량적 분석 방법을 통해 연관시킵니다. 또, 자연어 처리 분야에서 단락순위화(Passage Ranking)와 같은 다양한 연구 기법들을 바탕으로 연관된 문단들을 우선 순위를 계산하여 배치하죠.


배치가 완료된 문단들은 자연어 처리 기술을 통해 완성된 문장으로 만들어지게 됩니다. 현재까지는 문장 전체의 완전한 생성보다 일정한 규칙으로 정해진 시나리오 안에서 주제어 및 연관 정보들을 결합하여 문장을 완성하는 과정에 가깝죠.





로봇 저널리즘은 자연어 처리 기술 가운데 여러 하위 분야들의 개념이 복합적으로 적용된 최신 기술이지만, 아직까지는 기자들의 영역을 완전히 대체할 수 있는 수준은 아닙니다. 실제로 정해진 규칙을 벗어나거나 정량화하기 까다로운 정보들을 기사로 재생성하는 일에는 여전히 애를 먹고 있으니까요. 하지만 여러 사례에서 보듯, 필요 조건을 만족한 로봇은 매우 신속하며 또한 정확합니다. 전 세계적으로 로봇 저널리즘을 연구하고 실제 서비스로 이어가려는 활발한 움직임들이 이를 반증한다고 볼 수 있죠.


물론 인공지능이 기자가 작성하는 영역의 일정 부분을 담당하는 것에 대해 찬성하는 의견만 있는 것은 아닙니다. 다른 직업군과 마찬가지로, 사람들이 일자리를 잃게 된다는 것에 대한 우려가 공존하거든요.


하지만 다른 관점으로 생각해보면 기자들은 단순한 팩트 기사 작성에서 벗어나 좀 더 심층적인 취재 기사에 에너지를 쏟게 되지 않을까 하는 생각이 들기도 합니다. 어쩌면 빠르고 정확한 인공지능 기자와 경쟁하면서 더 심도 깊고 깊이 있는 기사를 쓰기 위해 노력할 지도 모르고요. 그러다보면 ‘오보 논란’, ‘기레기 논란’의 횟수가 더 줄어들 수도 있지 않을까요?


* 2019 '기레기 지수'높인 요인 다시보기 (https://blog.naver.com/bflysoft_biz/221731690844)


로봇 저널리즘이 언론계의 모습을 어떻게 바꿔놓을지는 어떤 상상을 하든 여전히 추측에 지나지 않습니다. 어쨌든 현재로서는 보다 정확한 데이터를 빠르게 접할 수 있게 됐다는 것만은 확실해 보이네요. 앞으로 인공지능을 만난 저널리즘이 어떤 모습으로 발전할지, 여러분은 어떤 상상을 하고 계신가요?




* 이 글은 비플라이소프트의 인공지능(AI) 연구소인 WIGO AI LAB 박승리 연구원과의 협업을 통해 작성됐습니다.


                                              > 비플라이소프트 뉴스레터 구독하기 <



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari