brunch

You can make anything
by writing

C.S.Lewis

by 허주부 Jan 11. 2019

데이터사이언스, 알고 계시나요?

"데이터과학 입문" 리뷰

데이터과학은 거품?


"데이터과학 입문"은 데이터과학에 관심이 생긴 이후, ‘블로터’기사에서 추천하는 것을 보고 찾아 읽은 책이에요. 인상 깊었던 것은, 데이터과학을 다룬 입문 서적이 서두에서 부터 데이터과학의 효용을 부정하고 있다는 것이었어요. 저자는 “세상의 모든 문제에 대한 해법을 데이터와 테크놀로지에서 찾지는 못할 것”이라며 테크놀로지의 한계를 먼저 제시했습니다. 데이터과학을 둘러싼 논쟁이 “언젠가 실망으로 끝나게 될 비현실적인 기대”를 키우고 있다면서요.


데이터과학 열풍에 거품이 껴 있는 이유는 무엇일까요? 데이터과학은 왜 명확하게 정의하고 해당 학문의 가치, 역할을 검증하는 것이 어려운 것일까요? 두 질문에 대한 답은 “(데이터과학에서의) 대부분 발전이 대학이 아니라 산업에서 일어"났기 때문이에요. 데이터과학은 학문적 가치를 검증받기에 앞서, 시장의 수요에 의해 탄생했어요. 그래서 학문을 정의하고, 학문의 체계를 정립할 수 있는 시간적 여유가 부족했습니다.


이러한 데이터과학의 탄생 과정을 고려하면, 데이터과학이 여러 학문 분야를 관통하고 있는 것은 당연할지도 몰라요. 이와 같은 맥락으로, 데이터과학자라고 분류되는 사람들의 출신은 각기 다르지요. 이는 데이터과학을 구현하기 위해 필요한 학문이 워낙 많기 때문이에요. 그래서 데이터과학자는 특정 분야에 통달한 지식인이 아닌, “수학, 통계학, 컴퓨터과학, 기계학습, 시각화, 커뮤니케이션, 그리고 영역 전문성에 골고루 능력을 가지고 있는” 지식인을 뜻한다고 할 수 있습니다.




컴퓨터과학 + 통계학 + 도메인 지식 + .... = ?  (Photo by rawpixel on Unsplash)




데이터과학의 요건 - 컴퓨터과학, 통계학, 도메인 지식


데이터과학자가 갖춰야 할 수많은 지식 중 뺄 수 없는 것이 컴퓨터과학이에요.(데이터과학이 통계학에서 파생되었다는 점을 감안해도). 책의 저자는 “데이터과학은 데이터의 토목공학”(33)이라며, 실질적으로 데이터를 수집, 가공할 수 있는 실무적 지식 - 컴퓨터과학 - 을 중시했습니다. 


그러나 단순히 컴퓨터과학 관련 지식만 갖춰서 유의미한 정보를 생산할 수 없어요. 정보통신기술의 발달로 어마어마한 양의 데이터가 매일 같이 누적지만, 그 데이터는 그 자체로 효용을 지니지 않기 때문이죠. 그래서 저자는 수많은 데이터를 두고 “데이터는 스스로 (그 가치를) 말하지 않으며" 가공되지 않은 데이터는 “단지 우리 사회에서 일어나는 사건들의 정량적이며 수동적인 반향일 뿐" 이라고 말합니다.


수동적 반향에 불과한 데이터를 유의미한 정보로 탈바꿈하기 위해서는 어떻게 해야 할까요? 현실 데이터를 이해할 수 있도록 요약해야 합니다. 이때 필요한 능력이 통계적 추론인데요. 그래서 데이터과학자는 미적분학, 통계학 등 수리적 지식을 기반으로 하여 통계학적으로 생각할 수 있어야 합니다.(그래서 통계학이 컴퓨터과학보다 더 본질적일지도)


끝으로 단순화한 데이터를 더욱 가치 있는 정보로 가공하기 위해서는, 데이터 가공의 목적을 제시할 수 있는 눈, "도메인 지식"이 필요합니다. 가령 언론계 동향에 대한 데이터를 유의미하게 가공하기 위해서는, 언론계가 움직이는 메커니즘을 사전에 알고 있어야 합니다. “세상을 지배하는 것은 수학자들이 아니라 어떤 분야에서 유기적으로 성장한 테크닉에 익숙한 해당 분야의 전문가들”라는 저자의 말을 감안하면, 손(컴퓨터과학)과 머리(통계학) 뿐만 아니라 눈(도메인 지식)을 가진 사람은 여전히 중요하다고 할 수 있어요.


컴퓨터과학, 통계학, 도메인 지식, 하나 같이 만만하지 않은 분야를 갈고 닦아야 하는 데이터과학. 자신의 부족한 부분을 메꿔줄 수 있는 보완적 능력을 지닌 동료, 학생들과 함께 수학하는 건 어떠세요?





작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari