brunch

You can make anything
by writing

C.S.Lewis

by 허주부 Nov 23. 2019

버즈피드가 머신러닝을 활용하는 법

늦은 DJCON 2018 이야기

image source : https://www.buzzfeednews.com/article/peteraldhous/hidden-spy-planes


(게으르다, 라고 말해다 할 말 없어요. 1년이 다 되어서야 작년 DJCON 후기를 남기다니. 그러나 2년 되기 전 주섬주섬 옛글을 꺼내 봅니다)



중앙일보, SBS, 뉴스타파. 많은 언론사가 시행착오를 겪고 있었어요. 아직 그 어떤 언론사도 아직 데이터 사이언스를 콘텐츠 제작 과정 전반에 반영하지는 않았지요(아마 앞으로도 어려울 수도). R, 파이썬 등 기술, 도구는 데이터를 전처리할 때 사용하는 경우가 대부분이었습니다. 알고리즘 또한, 해석력이 뛰어난 랜덤포레스트와 같은 알고리즘을 주로 사용했고요. 








버즈피드가 ML을 사용하는 방식


Peter Aldhous는 현역 데이터 저널리즘 분야 종사자 중 가장 주목받는 사람 중 한 명이예요. 동물학 박사라는 다소 색다른 커리어를 가진 그는 현재 버즈피드(buzzfeed)에서 데이터 사이언티스트로 근무하고 있지요. 그는 2018 DJCON에서 버즈피드 뉴스 프로젝트 사례를 통해, 머신러닝 가능성과 한계에 대해서 언급했습니다. 



https://www.buzzfeednews.com/article/peteraldhous/hidden-spy-planes



머신러닝을 하기 위해서는 당연 데이터가 필요하겠죠? Peter는 우선 항공기 등록 기록(register log) 4개월 데이터를 연방항공국 웹 사이트에서 확보했어요. 그리고 시간(time stamp)과 공간(latitude, longitude)를 기준으로 각 항공기가 어떤 경로로 이동했는지 파악하고 시각화했습니다. 그 과정에서 변수를 추출하거나 제거하는(feature engineering) 지난한 과정을 거쳤고요.


재료를 다듬었다면, 이제 본격적으로 요리를 시작할 시간입니다. 버즈피드 데이터 팀은 수많은 항공 경로 중 유의미한 항공 경로만을 보고 싶었어요. 그래서 Random Forest 알고리즘을 활용하여, 일반 항공기와 다른 경로로 움직이는 흥미로운 후보 타깃(candidate)만 추출했습니다.


요리할 때 간이 잘 되어 있는지 정기적으로 확인하듯, 머신의 결과가 나온 이후에도 그 결과를 계속 확인해야 합니다. 그래서 Peter는 해당 항공기 공문서를 활용하여, 각 후보 항공기의 용도가 무엇인지 하나씩 파악했어요. 그 결과, 이상 행동을 보이는 항공기는 US Marshals와 같은 도망자 추적 항공기 - 특정 인물을 추적하며 비행하는 항공기 - 라는 사실을 확인할 수 있었습니다. 실제로 그 항공기는 지정 경로를 비행하며, 휴대전화 및 와이파이의 데이터를 수집했다네요.




아직 머신만으로는 부족해


머신러닝은, 이처럼 뉴스 콘텐츠 제작 과정에서의 효율성을 증대하는 수단으로 활용할 수 있어요. 사람이 모든 데이터를 하나씩 뜯어보고 그 패턴을 파악하기란 무척 많은 시간과 노력(혹은 집중력)이 필요합니다. 이때, 머신러닝은 데이터 저널리즘 프로세스에서 일종의 초기 필터와 같은 역할을 하여, 저널리스트의 시간과 노력을 획기적으로 단축하죠. 저널리스트가 몇몇 데이터만 확인할 수 있도록 말이죠.


그런데 이 말을 뒤집으면, (아직 그리고 아마 앞으로도) 머신러닝만으로, 사실 관계를 판단하고 보도할 수 없다, 라는 말이 됩니다. 제작 초기에 머신러닝을 활용하면, 보도 시간은 확실히 단축할 수 있습니다. 수많은 이미지 중 눈여겨보아야 할 이미지만 추출할 수도 있고, 방대한 텍스트 안에서 유의미한 패턴을 뽑아낼 수도 있지요. 그러나 최종적으로 사실 관계를 파악하는 일, 마무리는 결국 사람이 해야 합니다. 머신은 보도 결과를 책임질 수 없기 때문이지요.




머신러닝 사용의 제 1 전제 - 투명성


뉴스 콘텐츠 제작에 머신러닝을 제대로 접목하기 위해서는, 데이터와 알고리즘을 투명하게 공개해야 합니다.
- Peter Aldhous



Peter의 말에서 보듯, 머신러닝을 저널리즘에 접목하기 위해서는, 각 언론사는 데이터 수집/정제 과정과 사용 알고리즘을 투명하게 공개해야 합니다. 그렇지 않다면 그 어떤 독자도 해당 데이터를 가지고 결과를 검증/재현할 수 없고, 이는 보도 자체에 대한 불신으로 이어지게 될 거예요. 


실제로 Peter는 “hidden spy planes”를 위해 머신러닝을 사용할 때, Random Forest 알고리즘을 사용했어요. RF는 가지(tree)가 뻗어나가는 과정을 직접 확인할 수 있어, 어떤 feature가, 어떻게 결과에 영향을 끼쳤는지 알 수 있는 알고리즘이지요. YTN의 '사라진 방화 - 화재 조사의 불편한 진실' 기사도 RF를 사용했지요. (링크: http://dataj.ytn.co.kr/arson/)








ML도 결국 도구입니다. 그래서 ML 자체가 양질의 보도를 보장하진 않지요. 그러나 데이터 분석가/엔지니어로서 ML이 어떻게 보도 과정에 활용되는지, 활용될지 여전히 궁금하고 기대됩니다. 아직 여전히 한계가 많고 개선할 점이 많지만요. 



매거진의 이전글 느리게 읽는 _ Death to the Mass

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari