컴퓨터과학과 저널리즘

인터넷 기사와 고문서, 그리고 논문을 컴퓨터가 읽는다면

Nov 16. 2019

인터넷 신문기사는 바쁘게 돌아가는 요즘 사회에 정말 필요한 요소라고 생각한다. 드라마나 예능 프로그램을 모두 챙겨 볼 수도 없고, 해외에서 어떤 사건이 터졌을 때 그 현장에 갈 수 없고, 입장이 까다로운 기관에 접근할 수 없을 때, 각 분야에서 일어나는 일들을 몇 문단 안의 내용으로 간추려서 실시간으로 보여준다. 시간이 없을 때, 다방면의 방대한 정보를 스마트폰을 통해 접할 수 있는 상당히 효율적이고 유익한 매체다. 요즘은 컴퓨터 과학 분야가 이 유익한 매체를 조금 더 효과적으로 전달하기 위해 저널리즘과의 병합을 시도하는 추세다.

각 인터넷 신문기사는 접근을 위한 웹 링크가 주어지고, 이 웹 링크를 통해 기사를 열람하면 글과 그림 혹은 관련 영상이 나온다. 읽는 사람 입장에서 인터넷 기사가 쉽게 읽히기 위해서, 글의 화제성과 내용뿐만 아니라, 한눈에 들어오는 기사의 구성과 디자인도 중요하다. 기사의 구성과 디자인을 만들어 내기 전에, 기사의 구조를 세세하게 파악하는 것이 필수적일 것이다. 컴퓨터 과학 분야는 문서를 분석하며 읽어내는 텍스트 마이닝 기술을 발전시키면서 한 번에 기사의 구조를 파악하는 일을 하고 있다. 어떠한 기사를 텍스트 마이닝을 실행하는 프로그램에 넣으면, 글자, 단어, 문장, 문단 수를 보여주는 기존 문서 작업 프로그램들의 기능보다 더 나아가서, 가장 자주 등장하는 단어, 반의어 관계의 단어 묶음, 숫자나 외국어 분류 등을 할 수 있다. 이 프로그램들을 조금 더 발전시킨다면, 같은 주제의 기사들을 시간별로 하나의 텍스트 마이닝 프로그램에 집어넣었을 때, 한 사건에서 측정된 시간에 따른 수치의 변화나 진행 상황 등도 쉽게 파악할 수 있을 것이다. 동생의 석사 논문 주제였던 세월호 사건을 사건 순으로 재구성한 영어 대본을 작성할 때 이런 프로그램에 대한 필요성을 강하게 느꼈다.

2014년부터 아직도 명료하게 해결된 것이 하나도 없는 세월호 관련 사건들을 찾으면서, 2014년 당시의 답답했던 기억이 되살아났다. 세월호 사건 당일에, 나는 한 컴퓨터 과학 수업 준비를 하고 있었다. 정리가 어느 정도 끝나자, 습관적으로 스마트폰을 이용해서 인터넷 기사를 보기 위해 다음 웹사이트에 접속했다. 다음 포털에 들어간 순간, 처음 보인 것은 세월호에 탑승했던 고등학생들을 포함한 200명이 넘는 실종자 수였다. 교수가 들어온 이후에도, 큰 충격에 정신을 다잡기가 너무나 어려웠다. 더 기가 막혔던 것은, 하루가 지나고, 며칠에서 몇 주가 지나도 무수하게 쏟아져 나오는 기사 속에 일정해지지 않는 실종자 주와 사건 발생 시간이었다. 아무리 정부에서 대응을 못하고 정확한 정보를 알지 못한다고 할지라도, 언론마다, 기자마다 다르게 추정하고 써 내려가는 숫자들이 나를 너무나 괴롭게 만들었다. 실종자 수와 탑승자 수를 모르는데 누가 구조가 되었는지 누구를 찾아야 하는지 아무도 모르는 건 아닌가 하는 데까지 생각이 미치자 괴로움은 슬픔과 분노로 변해가고 있었다. 언론사마다 하나의 사건에 대해 써 내려가는 기사들의 내용이, 한 기자가 시간이 지나면서 써 내려간 기사들의 내용이 일관적일 수는 없지만, 적어도 수치에 대한 것은 크게 차이가 나서는 안 되고, 차이가 난다면 그 이유에 대해서 전체적으로 상호적으로 확인할 수 있는 시스템 구축이 꼭 필요해 보였다. 신속성이 중요한 인터넷 기사이지만, 더 중요한 정확성이 등한시되는 경우도 있는 것 같았다. 때로는 화제성을 가장 선두에 놓고 자극적인 숫자로 시선을 끌려는 시도 또한 없지 않았으니까.

이러한 인터넷 기사 외에도 논문이나 특정 문서의 표절을 판독하는 프로그램 또한 텍스트 마이닝 기법을 사용한다. 두 문서 사이에 어떤 특정한 구절이 정확하게 일치하거나, 더 똑똑한 프로그램들은, 정확하게 일치하지는 않더라도 문장의 구조를 쪼개서 봤을 때 유사점이 기준점 이상이라면 표절로 판독한다. 여러 가지 인문, 사회과학 연구 분야가 초기 단계에 있고 중첩되는 연구 분야가 상대적으로 적었을 때, 이러한 표절 판독 프로그램은 표절 가능성이 있는 논문들을 찾아내는데 큰 역할을 했다. 특별한 구절 몇 개가 글을 완전히 바꿔버리는 경우도 있기 때문에 표절을 잡아내는 것은 건강한 연구 문화를 위해 당연한 것이었다.

2019년 현재, 과거에 비해 상당히 늘어난 대학원 프로그램과 소속 학생수의 증가로 중첩되는 연구 분야와 프로젝트들이 늘고 있다. 중첩되는 연구 분야의 표절을 솎아내야 하는 일이 더 필요해진 반면에, 표절 판독 프로그램이 다른 논문을 인용한 부분마저 표절로 분류하고 있는지는 살펴봐야 할 것이다.

인공지능의 문서를 분석하는 프로그램은 날로 발전하고 효율적으로 사용되고 있지만, 그 효율성의 유효성과 정당성에 대해서는 사람의 개입이 필요할 것이다.

keyword

Brunch Book

이전 13화만인을 위한 데이터 과학 (Data Science)역사와 데이터 과학 다음 15화