자동화 팩트체킹 톺아보기1

1. 미디어 모니터링

by 고문정

(2017년 11월에 작성한 글입니다)



누구나 기사의 형식을 빌어 글을 쓸 수 있고 또 누구나 그 글들을 공유하고 전파할 수 있게 된 시대다. 이 추세를 힘입어 이른바 '가짜뉴스'가 사회적 이슈가 되었고, 이에 대한 해답으로 '팩트체킹'이라는 것이 주목받았다. 이 글은 보다 효과적이고 효율적이며, 나아가 (어쩌면 더) 중립적인 팩트체킹을 가능케 위해 한가지 방법으로 이야기되는 컴퓨터에 의해 자동화된 팩트체킹(automated factcheking)의 현주소를 소개한다.


팩트체킹은 무엇이 진실이고 무엇이 거짓인지를 '판단'한다는 점에서 일반적인 기사와는 차별화된다. 언론이란 중립을 지켜야 한다는 신화가 많기에, 발언이나 사실을 진실이다 거짓이다 판단하는 팩트체크 기사, 나아가 팩트체킹을 하는 주체(기자나 언론사)가 일부에게 비판/비난/공격을 받는 경우도 많다. 이처럼, 사실을 검증하는 과정에서는 검증 대상을 선택하는 것에서부터 사람의 주관성이 개입할 수 밖에 없다는 배경 하에 자동화된 팩트체킹이 크게 주목받기 시작했다(오세욱, 2017a).

또 뉴스를 유통하는 플랫폼들이 알고리즘을 선호하기 때문에 자동화 팩트체킹이 떠오른 측면도 있다. 뉴스의 유통 창구가 기존 언론사에서 구글이나 페이스북과 같은 플랫폼으로 넘어오면서 가짜뉴스의 유통은 언론사가 아닌 플랫폼의 골칫거리가 되었다. 이런 상황에서 구글과 페이스북은 어떻게 언론으로서의 책임은 피하면서 할 도리를 다 할 수 있을까를 고민했고, 그 해결책으로서 기술의 힘을 빌리기를 선택했다. 일단은 팩트체킹이 된 콘텐츠를 우선시하거나 루머로 의심되는 것을 표시하는 등으로 해결해보고 있지만, 이들의 궁극적인 관심사는 사람이 개입하지 않은 알고리즘을 통한 팩트체킹의 가능성이다.


그러나 영국의 독립 팩트체킹 기관인 풀팩트(Full Fact)의 대표 윌 모이(Will Moy)는 자동화 팩트체킹은 결코 완벽할 수는 없다고 말한다(PyData 컨퍼런스. Full Fact, 2017). 팩트체킹은 단어의 맥락을 완벽히 이해해야 하는 굉장히 복잡하고 어려운 작업으로, 일반적인 자연어 처리 기술만으로는 완벽한 자동화에 성공할 수 없다는 것이다. 예를 들어, ‘영국의 범죄율이 10년 전에 비해 두 배로 늘었다.’ 라는 단순해 보이는 명제를 검증할 때에도, 범죄율을 어떤 기준으로 볼 것인지에 대한 문제에 직면한다. 경찰이 추산한 범죄율로 본다면 예전의 경찰보다 현재 경찰이 훨씬 열심히 활동하고 있기 때문에 범죄율은 증가한 것으로 나올 것이고, ‘당신이 범죄에 노출된 적이 있습니까’와 같은 질문으로 일반인을 대상으로 조사한다면 범죄율은 오히려 감소한 것으로 나올 것이다. 이처럼 팩트체킹에는 매우 복잡한 판단이 요구되므로 자동화 팩트체킹은 완벽할 수 없다. 다만, 자동화 기술은 사람이 팩트체킹을 하는 데에 도움이 될 수는 있다.


이런 점에서, 풀팩트의 자동화 팩트체킹을 이끄는 메반 바바카(Mevan Babakar)는 사실 확인의 대상이 급증하는 상황에서 자동화 팩트체킹은 사람 팩트체커들이 복잡한 일에 집중할 수 있게 하면서도 더 많은 사실 확인을 가능하게 만든다고 설명한다(Full Fact, 2017). 자동화된 팩트체킹으로 단순하고 반복적인 사실이 쉽게 검증될 수 있어 사람의 반복적인 노력이 줄어들 수 있다. 특히 매체가 다양해진 오늘날에는 많은 정치 토론의 내용들이 미디어와 채널, 시간에 걸쳐서 계속 반복되고 있기 때문에 자동화된 팩트체킹은 실제적인 영향력을 가질 수 있다(Full Fact, 2016).


자동화된 팩트체킹의 과정은 사람이 하는 팩트체킹과 크게 다르지 않다. 먼저는 현재 이슈가 되는 주장들이 무엇인지 알기 위해서 먼저 각종 매체를 모니터링하고, 모니터링 한 내용 중에서 검증할 만한 주장들을 찾아낸다. 그리고 그 주장의 사실 여부를 검증하고, 검증 결과를 기사나 그림의 형태로 만들어 배포해야 한다(Full Fact, 2016). 풀팩트는 이와 같은 각 과정에서 기술을 적용하여 자동화된 팩트체킹이 가능하다고 설명하고 있으며, 이 기술들을 모두 적용하면 처음부터 끝까지 컴퓨터가 수행하는 end-to-end 자동 팩트체킹이 가능하다. 이에 근거하여, 이 글은 풀팩트의 2016년 자동화 팩트체킹 로드맵 보고서(Full Fact, 2016) 내용을 기초로 하여 팩트체킹의 각 단계마다 적용가능한 기술의 내용과 함께 현재 상용화되고 있는 자동화 팩트체킹 도구들을 소개하고자 한다.


그림1.png 그림1. (자동화된) 팩트체킹의 과정





1.모니터링(Monitor)


먼저, 팩트체킹의 첫번째 단계는 모니터링이다. 사실 확인 대상을 선정하기 위해서는 먼저 신문이나 TV, 소셜미디어 등에서 어떤 논의와 발언이 이루어지는지를 읽어내는 것이 필요하다. 문장을 식별하는 모니터링을 하는 데에는 현재 활용 가능한 다양한 도구들이 있으므로(표1), 이를 적극 활용하는 것이 좋다.

표 1. 모니터링에 사용 가능한 도구들(Full Fact, 2016)

(status는 풀팩트의 기술 적용 여부. 초록색은 사용중, 오렌지색은 개발 중, 빨간색은 기술적 장벽이 있는 상황(2016년 8월 기준))



 Storyzy (구 Trooclick) http://storyzy.com/

Storyzy는 신뢰할 수 있는 이야기를 판별하기 위하여 온라인 뉴스를 데이터화하는 작업을 시도한 회사이다. 온라인 뉴스 기사를 자연어처리 기술을 통해 구조화된 데이터로 만들고, 그 중에서 누가 어떤 말을 했는지에 대한 인용 정보들을 모아서 API 형태로 제공한다. 이 데이터베이스를 활용하면 특정 주제에 대해 누가 무슨 말을 했는지, 또는 특정 인물이 어떤 말을 했는지를 추적할 수 있고, 일일이 뉴스를 읽어보지 않아도 정치인의 발언들을 대규모로 모을 수 있다.



(계속)