brunch

You can make anything
by writing

C.S.Lewis

by Amang Kim Jun 21. 2017

20. 데이터과학을 시작 할때 도움이 되는 것들 (상)

빅데이터, 데이터사이언스, 교육, 그리고, 한계

데이터과학(정확히는 데이터 분석)을 배우거나 활용 하려고 하는 사람들에 주는 조언 글들은 참으로 많다. 이런 주제로 글을 적어도 되나 싶을 정도로 말이다. 그래도, 원래 업이 이쪽 계통 알바(가르치는)인지라, 이 흔하디 흔한 주제로 할까 한다. 우선, 데이터과학을 할때 필요한 것을  알기 위해서는 데이터를 사용하려는 목적을 먼저 파악 하는 것이 도움이 된다. 물론, 이러한 목적을 여러가지로 나눌수 있겠지만, 나름대로 내 다음과 같이 분류 해 보았다.


   1. 데이터로 문제를 해결 해야만 하는 사람

   2. 데이터의 문제를 해결하는 사람

   3. 데이터로 설득하려는 사람

   4. 데이터로 문제를 해결 하려는 사람


각 해당 항목 별로 당신이 경쟁력을 갖기 위해, 알아두면 좋은 것들에 대한 이야기 이다. 그 이유에 대해서는 이 글 마지막에 이야기 하도록 하겠다. 


당신이 데이터과학을 시작하는데 있어 가장 먼저 알아야 할 것은 현재 당신의 위치(혹은 당신이 서고자 하는 위치)를 파악하는 일 것이다. 이 두 편의 글이 그러한 고민에 대한 도움이 되었으면 하는 바램으로 글을 시작하겠다.


1. 데이터로 문제를 해결 해야만 하는 사람 

문제 자체가 이미 데이터의 분석의 방법으로만 풀어야 되는 사람들이다. 최근의 데이터 분석을 언급하면, 사용자 행동을 분석하는 마케터를 생각하기 쉽지만, 사실 데이터 형태의 정보를 다루는 것은 최근에 알려진것보다 훨씬 더 오래된 역사를 가지고 있다. (실험) 물리학 중에서 열역학 분야라던가, 기계공학 분야에서 유체역학 분야 라던가, 생물학 분야에서 생통계(Bio-Statistics)라던가, 행동경제학에서의 행동분석과 같은 분야에서 이러한 형태의 데이터 문제는 다양하게 존재한다. 최근에 유행하고 있는 인공지능/머신러닝의 경우도 머신을 교육시키기위한 데이터를 다뤄야지만 한다. 이러한 부류의 사람들은 이미 데이터를 다루어야만 하는 부류들이다. 이러한 부류들의 어떤 문제의 해결 방법이 “실험과 측정(혹은 분석)”로 진행하는 사람들을 이다. 이러한 이들에게 기본적으로 필요한 것은 해당 분야(혹은 전공과목)에 대한 지식이다. 즉, 열역학과 관련한 데이터를 다루는 사람이라면, 열역학에 관한 지식이, 기계공학(특히, 유체역학)쪽을 하는 사람이라면, 유체역학 관련 지식이, 생통계(Bio-Statistics)를 하는 사람이라면, 생물학에 관련된 지식이 중요하다. 


또한, 이러한 부류들에게 추가로 반드시 알아야 할 것은 통계학적 지식인데, 측정(혹은 관찰)을 통해 수집된 데이터가 분석을 하기전에 실제로 의미가 있는지에 대한 파악할 필요가 있기 때문이다.  데이터과학(혹은 통계학)하는 이들에게서 자주 쓰이는 속담(?)이 “Garbage in, garbage out” 이다. 아무리 좋은 데이터 분석 방법을 사용할 줄 안다고 하더라도, 분석하려는 데이터의 질이 좋지 않으면 좋은 분석 자체가 무의미 하다.

짧지만, 강렬한...ㅎ (출처: 인터넷 어딘가)

데이터 분석 실력 만큼 중요한 것이 데이터 자체에 대한 가치를 판단할 줄 아는 능력이고, 이러한 가치를 판단하는데 필요한 것이 바로 해당 분야의 전문성과 통계학적 지식인 것이다  여기에 어느 정도의 통계 팩키지의 사용능력을 가지고 있다면 좋을 것이다. 이들 부류에게는 어떤 통계 팩키지를 사용하느냐는 크게 중요하지 않다. R과같은 프로그래밍 언어도 괜찮고, 엑셀도 괜찮다. 당신이 다루는 데이터 양을 충분히 처리 할 수 있고, 당신에게 익숙하다면, 그걸로 족하다.

   

2. 데이터의 문제를 해결하는 사람 

이미 어떠한 형태로든 “데이터”의 형태로 되어 있는 정보를 다루는 사람들을 뜻한다. 이러한 부류는 데이터가 어디서부터 왔느냐는 덜 중요하다. 일단, 자료는 데이터의 형태로 가져 올 수 있다. 이런 사람들이 관심사는, "어떤 식으로 데이터를 구조화(DB화) 하느냐?", "어떻게 원하는 유효한 값들을 신속하게 계산 할 것인가?"와 같은 것들이다. 


사실 상, 이 영역은 데이터 과학의 영역이라기 보다는 소프트웨어 개발자의 영역에 가깝다. 특히, 데이터분석을 다루는 범용 팩키지나 커스터마이즈된 모듈을 개발하는 부류들이 여기에 해당한다. 이쪽 계통 사람들에게 중요한 것은 당연히, 전산학 관련 기술들이다. 데이터베이스, 분산 컴퓨팅, 데이터마이닝과 같은 데이터 관련 전공들 말이다. 그리고, 무엇보다 중요한 것은 이러한 데이터를 현란하게 다룰 줄 아는 프로그래밍 기술(코딩 능력)이다. 그리고, 이러한 사람들이 통계적인 이론들을 알면 좋다. 데이터 분석 이론의 근간을 이루는 것이 바로 통계학이기 때문이다. 통계학적 이론과 이를 프로그래밍 할 수 있는 능력이 이러한 부류의 사람들이 가져야할 최고의 경쟁력일 것이다. 


3. 데이터로 설득하려는 사람 

쉽게 이야기하면, 장사를 하려는 사람들, 마케팅이나 사업을 하는 사람들이 여기에 속한다. 물론, 기본적으로 데이터를 다룰 줄은 알아야겠지만, 이런 이들에 중요하는 것은 보여주는 것, 즉 시각화(Visualization)일 것이다. 보통 데이터의 시각화를 이야기하면, 연관 검색어 보여주기 내지는 시각화 기능이 뛰어난 R와 같은 프로그래밍 언어를 생각하기 쉽지만, 이보다 범용적으로 쓰이는 용어는 Infographics이다. 물론, 데이터가 의미하는 바르게 이해하는 보편적인 지식도 필요하겠지만, 이들에게 정작 필요한 것은 예술적 감각일 것이다.

인포그래픽스 예제 (출처: 인터넷 어딘가)

Infographic이나 Data visualization과 같은 용어들은 최근에 (빅)데이터가 뜨면서 같이 각광을 받기 시작했지만, 사실 그보다는 역사가 오래되었으며, 산업디자인에서 주로 다루었었다. 고로, 이쪽 부류의 사람들이 산업디자인에 관련한 지식들을 가지고 있다면 큰 도움이 된다. 여기에 데이터를 바로 그려줄수 있는 소프트웨어를 잘 쓸 줄 알면 금상첨화. 참고로, 엑셀도 괜찮은 데이터 시각화 도구가운데 하나이다. 물론, 제대로만 쓸 줄 안다면 말이다. 다만, 이러한 시각화가 데이터를 표현하는데는 도움이 되긴 하지만, 진정한(?) 의미의 데이터과학이라고 부르기는 어렵지 않을까 싶다.

  

4. 데이터로 문제를 해결 하려는 사람 

사실, 데이터를 다루는 전공이 아닌, 그렇지만 데이터 과학에 관심을 가지고 있는 사람들은 아마도 대부분 부류에 해당할 것이다. 데이터 과학 내지는 데이터 분석을 자신의 영역에서 사용하고자 하는 사람들 말이다. 데이터를 직접 다루는 전산학이나 통계학이 아닌 분야에서 말하는 데이터관련 이야기들은 모두 여기에 해당한다고 해도 과언이 아니다. 이런 부류들에게 중요한 것은 데이터를 다루는 기술이나, 통계학적 지식이 "아닐 수" 있다. 사실상, 이러한 부류에게 가장 절실히 필요한 것은 

문제의 본질을 파악하는 능력

이다. 문제의 본질을 파악한다는 의미가 여러가지가 있지만, 여기서 의미하는 것은 (데이터와 관련한) 문제를 바라 보는 관점을 뜻한다. 당신이 데이터 과학(혹은 데이터분석)을 관심을 가지고 있다는 것은 데이터를 이용해 뭔가를 하려는 목적이 있어서 일 것이다. 어떠한 목적으로 데이터를 다루는지에 따라서, 데이터를 다루는데 필요한 능력 수준이 달라진다. 때에 따라서는 “1. 데이터로 문제를 해결 해야만 하는 사람”수준의 능력 필요할 수도 있고, 때에 따라서는 “2. 데이터의 문제를 해결 하는 사람”수준의 능력이 필요할 수도 있다.

 

다만, 데이터과학(혹은 데이터분석)을 업으로 한다고 하는 사람들의 대부분은 자신을 “1. 데이터로 문제를 해결 해야만 하는 사람”으로 여긴다는 거다. 그리고, 이러한 믿음을 가진 이들은 세상을 그런 쪽으로 바라보는 경향이 강하다. 물론, 이들 중에는 진짜로 데이터로 문제를 해결해야만 하는 부류에 속해 있을수도 있다. 그렇지만, 실질적으로 

이런 믿음을 가진 부류의 대부분은 “4. 데이터로 문제를 해결 하려는 사람들” 

이다. 즉, 우리가 접하는 대부분의 데이터 관련 문제들은 대부분의 경우, 데이터분석 자체가 목적이 아니라, 어떤 목적을 위해 데이터과학을 이용하는 경우가 많다.  이러한 경우, 가장 우선적으로 고민해야할 문제는  

“과연, 데이터로 문제를 해결해야만 하는가?”

혹은, “(당신의) 문제를 해결하는데 있어, 데이터과학이 필요한가?” 이다. 그리고, 이에 대한 정확한 대답을 하기 위해서 필요 한 것이 바로 문제의 본질을 파악하는 능력일 것이다. 이와 관련하여, 이후에는 “4. 데이터로 문제를 해결 하려는 사람”들이 알면 도움이 될만 한 내용에 대해서 조금더 심도있게 다루도록 하겠다. 

[계속]

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari