brunch

You can make anything
by writing

C.S.Lewis

데이터 저널리즘을 위한 컴퓨터공학과 복수전공? 파이썬?

데이터 사이언스, 데이터 저널리즘 - 데이터의 의미가 같을까?

나는 언론정보학과, 소프트웨어융합학과를 다전공으로 이수하고 있다.

기자가 되고 싶었고 그러다, 데이터로 사람 사는 세상을 이야기하고자 코딩공부를 시작했다.

체계적으로 데이터, 코딩을 배우고 싶어서 소프트웨어융합학과(데이터사이언스) 복수전공까지 하게 됐다.

다전공하기 전의 기대와 이후의 소회를 알려드리려고 한다.

데이터 저널리즘에 관심있어서 컴퓨터공학과를 비롯한 IT학과를 다전공하려는 분들께 도움이 될 것 같다.



목차

0. 소프트웨어융합학과 다전공 계기

1. 일반적인 데이터의 의미

2. '데이터 사이언스'에서의 데이터

3. '데이터 저널리즘'에서의 데이터

4. 데이터 저널리즘을 위한 컴퓨터공학과, 소프트웨어융합학과 복수전공 ..?




0. 소프트웨어융합학과 다전공 계기


이제는 식상해진 단어 '빅데이터'

내가 처음 '빅데이터'란 단어를 접했을 때는 2015년이다.

대학교에 입학하고 남들과는 다른 기자가 되겠다며, 나만의 무기를 고민하다 '데이터'를 떠올렸다.

여기저기 특강을 듣고 자문을 구하다가, 2016년 7월 군대에 갔다.


병장을 달 즘에 'Python, html/css' 공부를 시작했다. 

데이터 저널리즘에 도움이 될 것이고, 코딩을 할 줄 알아야 차후의 시대를 맞이할 수 있다고 판단했다.

내 기대만큼 데이터 저널리즘 시장이 커지지 않았다.


여전히 언론사들의 수입은 지면에서 나오고, 데이터 저널리즘 콘텐츠도 지면에 맞춰야 했다.

유튜브, 넷플릭스 등 다양한 콘텐츠 시장의 성장으로 독자들의 뉴스 소비 시간 감소의 영향도 있으리라.

나 또한 뉴스보다 영상을 비롯한 다른 콘텐츠에 시간을 더 많이 쓰는 것 같다.


'데이터 저널리즘' 정기공채가 진행되지 않는다. 

이것만 바라보기에는 부담스러웠다.


데이터 저널리즘, 그로스 마케팅, 데이터분석가 등 진로를 다양하게 열어두고 코딩을 시작했다.

본전공이 IT관련 학과가 아니다보니 코딩과 거리가 멀어졌다.

코딩에 많은 시간을 투자하고 체계적으로 배우고 싶어서 소프트웨어융합학과 다전공을 신청했다.


다전공하면 뭐라도 '데이터 저널리즘'에 도움되겠지


IT에 대한 '무지(無知)'를 커리큘럼에 대한 '막연한 기대'로 바꿔왔다. 공부를 안 한 것이 아니다.

구글링, 질문을 통해 소프트웨어융합학과를 조사했지만 그래도 잘 와닿지 않았다.

그 당시의 선택에 후회하냐고 물으면, 'No'다. 엄청 공부를 했기 때문에 지금에서야 깨달을 수 있었다.

다전공을 하지 않았다면 이해하지 못했을 것이다.




1. 일반적인 데이터의 의미

 

요즘 어떤 수업이든 '빅데이터'를 조금씩은 다뤘을 것이다.

OT시간에 보통 '데이터, 정보, 지식의 차이를 아냐'며 수업을 시작한다.


데이터: 기록된 사실

정보: 데이터 중에서 '의미가 있는' 것

지식: 정보가 '체계'를 갖춘 것 

출처: 위키백과

사람에 따라 조금씩 차이를 가지지만 일반적으로 데이터, 정보, 지식 순으로 넓은 의미를 가진다.




2. '데이터 사이언스'에서의 데이터

 데이터 사이언티스트들이 하는 데이터 분석(머신러닝, 딥러닝)에는 어떤 데이터가 쓰일까?


     자연어, 이미지, 영상, 음성


'번역프로그램(자연어)', '자율주행(이미지)', '유해영상물 차단(영상)', '노이즈 제거(음성)'이라는 예시로 설명할 수 있다. 


1) 데이터 사이언스를 데이터 저널리즘으로..

'데이터 사이언스(고객관계관리), (고급)데이터 마이닝, 웹/파이썬 프로그래밍' 등 전공과목을 들으면서

 '데이터 사이언스를 데이터 저널리즘에 어떻게 적용시킬 수 있을까' 


고민했다.  결론은 '이거 안 되겠는데?' 싶었다

쉬운 예를 들면 머신·딥러닝으로 '분류, 회귀'분석을 할 수 있다.

분류: 저체중, 정상체중, 과체중, 비만과 같은 카테고리 변수를 예측하는 것

회귀: 몸무게 같은 수치형 데이터로 예측하는 것

사실 기반으로 적어야할 기사를 '학습데이터가 이랬으니 결과는 이럴 것입니다'하고 적는 게 말이 되나..


편집장: 2030년 서울시민의 비만율이 40%라고 결론을 내린 이유가 뭐야?
유사 데이터저널리스트: 모델이 그렇다는데요?
편집장: ...


내가 정의한 데이터 저널리즘은 '데이터를 활용한 기사, 콘텐츠'이다.

기사 요약봇, 기사 작성 알고리즘과 같은 기술들은 데이터 저널리즘이 아니라고 가정한다.



2) '기존 통계분석'과 '데이터 사이언스'의 차이점

비교적 새롭게 부상한 (빅)데이터 분석과 전통적인 통계분석이 무슨 차이가 있는지 처음엔 잘 몰랐다. 

지금도 언어로 정확히 정의내리라고 하면 하기 어렵지만, 상황에 따라 분류를 할 수는 있다.


통계에서는 p-value, t-value, 표준점수가 쓰인다. 통계학은 모집단에서 추출한 표본으로, 모집단을 예상하는 학문이다. 전수를 조사하려면 비용, 시간이 많이 들기 때문에 표본으로 모집단의 특성을 예측하는 것이다. 


사람의 키를 0 ~ 3m라고 하면, 신뢰구간 3m에 신뢰도는 100%다. 그런데 이런 통계는 의미가 없다. 누구나 사람의 키는 0 ~ 3m 사이라고 알기 때문이다. 신뢰구간을 1 ~ 2m로 좁혀 유의미한 범위를 만들면 신뢰도를 조금 손해보게 된다. 간혹 2m가 넘는 사람들이 있기 때문에 1 ~ 2m는 0 ~ 3m에 비해 부정확한 예측이다.

모집단, 표본, 출처: 통계청

데이터 사이언스의 (빅)데이터 분석은 기본적으로 가지고 있는 데이터 '전부' 사용한다. 학습데이터, 검증데이터로 나누긴 하지만 검증데이터도 결국 데이터 분석의 결과인 모델을 더 우수하게 만들기 위함이다. 


이미지로 된 손글씨 데이터가 '1, ..., 10'이 있으면, 모델에 '이런 이미지를 가진 데이터가 X를 의미한다'고 데이터 중 일부(학습데이터)로 학습시켜준다. 남은 데이터(검증데이터)로 예측값과 실측값을 비교하여, 모델의 정확도를 파악한다. 이런 분석은 기존의 통계학으로 하기 힘들다. 



이미지, 자연어도 알고보면 [[0 1 0 1 1 0], [1 1 1 1 1 1], [0 0 0 1 0 1]] 이런 식의 수치데이터로 저장되어 있다. 이미지, 자연어를 숫자로 표현했으니 이런 것을 몇십만 장되는 것을 분석하려면 엄청난 연산처리능력, 시간이 필요함을 예상할 수 있다.  그래서 하드웨어의 발전, GPU의 재발견 등에 힘입어 '데이터 사이언스, 빅데이터'가 뜬 것이다. 빅데이터 분석이 수지타산이 맞기 시작하여 현업에 이용할 이유가 생겼기 때문이다.

이미지 데이터 구조, 출처: https://www.slideshare.net/jaewonlee79/rgb-data




3. '데이터 저널리즘'에서의 데이터

한국에서 데이터 저널리즘, (빅)데이터 분석 및 데이터 사이언스가 본격적으로 등장한 시점은 2015년 즘으로 '시점'은 같다. 그런데 '데이터 저널리즘이 말하는 데이터'와 '데이터 사이언스가 말하는 데이터'는 다른 것 같다.


1) 언론사의 데이터 저널리즘



뉴스래빗 - 데이터저널리즘 기사

뉴스타파, 한국경제 뉴스래빗, SBS 마부작침, KBS 데이터룸에서 작성한 기사를 봐도, 머신·딥러닝에 기반한 기사는 보이지 않는다.


'2. 데이터 사이언스에서의 데이터'에서 언급한 데이터와는 거리가 멀다.  '1. 일반적인 데이터의 의미'에 더 가깝다. 한국사회와 관련된 '기록된 사실'로 기사를 쓰고, 인포그래픽 등으로 더 보기 좋게 시각화하여 정리했다. 머신·딥러닝 분석 결과로 쓰인 것은 없다.


공공데이터가 개방됐다. IT기기의 발달로 GPS, 구매이력 등 다양한 데이터가 생겼기 때문에 데이터 저널리즘 ·사이언스가 가능해진 시기가 같았을 뿐이다. '데이터'라는 단어는 같지만, 의미는 다르다.







4. 데이터 저널리즘을 위한 IT 관련 학과 복수전공 ..?


'오로지' 데이터 저널리즘을 위해 IT 관련 학과인 컴퓨터공학과, 소프트웨어융합학과를 다전공한다?

비추천한다.

데이터 저널리즘에 필요한 코딩 지식은 학과 커리큘럼의 일부에 속한다. 배보다 배꼽이 큰 상황이 벌어진다.

학점은 학점대로 떨어지고, 언론고시 공채 준비할 시간은 없고, 스트레스는 스트레스대로 받는다.


단, 데이터 저널리즘에도 관심 있지만 다른 IT 분야에 대한 가능성도 열고 싶으시면 추천한다.

난 이 케이스에 속한다. 저널리즘의 패러다임을 바꾸겠다며 코딩을 시작했지만, 데이터 저널리즘이 아니어도 좋다!


학점은 떨어지고, 인적성 준비할 시간은 없고, 학업기간이 늘어나 힘들고...

하지만 할 수 있는 영역이 많아졌음에 상당히 만족한다.


'스미싱 문자와 관련된 피해사례를 통계로 기사를 쓰기'보다, '내가 받은 문자가 스미싱 문자인지 알 수 있는 웹 서비스'(https://github.com/ehdrn463/smash_web)를 제공하고 싶다. 보통 현업에서는 전자 같은 형태로 한정되어 있는데, 나는 후자 같은 진짜 '빅데이터다운 콘텐츠'를 만들고 싶다.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari