다양성
자, 이제 데이터를 다루는 직업이 되려면 어떠한 학문적 지식이 필요한지, 무슨 툴들을 다루는지, 등의 사전 준비를 마쳤다는 가정하에, 본격적으로 '데이터 전문가'의 직업으로 들어가 보자. 대부분은 데이터 과학자 (Data Scientist)가 이 세상의 전부인 것처럼 묘사가 되어있지만, 사실 데이터 과학자는 정말 다양한 데이터 관련 직업들 중에 하나인 것뿐이다. 물론 그렇게 인기가 있는 이유는 따로 있겠지만, 이 부분은 뒷부분에 다뤄보겠다.
아니 그전에, 왜 도대체 데이터 과학 (Data Science)이라고 칭해지는 것일까? 과학을 국영수처럼 학문으로 배운 우리들은 이 부분부터 낯설지만, 여기서의 과학은 어떤 학문적인 과학 (물리 같은)이 아닌, 세상을 더 잘 표현하기 위해 질문은 던지는 것 정도로 해석해야 한다. 그렇다면 비즈니스에서의 Data Science는 데이터를 통해 회사가 운영되는 '무언가'를 더 잘 이해하려고 의문점을 제시하는 것이 되겠다. 그 '무언가'는 회사의 Senior Leadership들의 방향성과 연관성이 있으므로, 그들의 확실한 비전이 회사의 Data Science를 꽃피우게 하는데에 정말 중요한 역할을 한다.
과학에 대해서 조금만 더 덧붙여 보자면, 예전에 읽었던 책에서 과학의 전제 조건은, 세상에 존재하는 과학은 언제든지 부정될 수 있다고 본 기억이 난다. 그렇기 때문에 과학의 정의는, 쉽게 대체될 수 없게끔 무척이나 정확할 필요가 있다고 봤었는데, 이 부분도 데이터 과학과 밀접한 관련이 있다. 예를 들어, 내가 분석한 데이터의 결론들이, 마치 지구는 둥글다 (지구는 둥글지 않다고 믿는 사람도 있지만)처럼 대부분의 사람들이 납득할만한 이유가 뒷받침되어야 한다.
그렇다면, 이 예시가 회사라는 가정하에, 크게 3개의 직업 범주에서 한 회사가 지구는 둥글다는 결론을 내기까지 어떠한 다양한 데이터 관련 직업들이 포함되는지 알아보자.
데이터 엔지니어 (Data Engineer)
아마 데이터 관련 업무의 시작점이 아닐까 싶다. 데이터 엔지니어는 회사마다 불려지는 게 다른데 (Data Steward, Data Designer, 등등), 하는 일들은 대부분 비슷하다. 이들의 가장 큰 강점이라면 SQL이 대표적이고, 우리가 흔히 말하는 Big Data를 회사 고유의 데이터 베이스에서 사용 가능하게 전처리 작업을 해준다고 보면 될 것 같다.
예시에 적용: 이들은 회사 내외로 존재하는 지구 관련 데이터를 테이블로 정리를 해줄 것이다. 위도, 경도, 언어, 인구 밀도 등 하나하나 보면 사용할 수 없을 만큼 흩어져 있는 데이터 들을 흔히 볼 수 있는 엑셀 테이블 같이 말이다.
데이터 분석가 (Data Analyst)
데이터 엔지니어들이 어느 정도 정리를 해 놓은 데이터를 가지고, 실직적으로 분석을 하는 직업이다. 데이터 엔지니어가 없는 회사는, 데이터 분석가에게도 어느 정도의 SQL 기술을 필요로 한다. 데이터 분석가라는 큰 범주안에서, Marketing Analyst, Web Analyst, 등등 또다시 수많은 직업들이 있지만, 대부분은 분석가는 인사이트를 도출 해 내는 직업이다. 그렇기에 Tableau, Power BI, Spotfire과 같은 Business Inteligence (BI) 툴들이 가장 큰 강정이겠다.
예시에 적용: 이들은 이미 전처리가 되어있는 지구 관련 데이터들을 Tableau와 같은 BI 툴에 넣어서 각각의 데이터 포인트들이 어떠한 스토리를 내포하고 있는지를 알아내는 일을 할 것이다. 그러면서 데이터 시각화를 통해, 지구는 둥글다!라는 인사이트를 도출 해 낼 것이다.
데이터 과학자 (Data Scientist)
데이터 과학의 꽃은 당연히 데이터 과학자다. 앞에서 잠깐 말한 데이터 과학자가 이 직업군의 대표주자가 된 이유는, 소위 일당백이기 때문이다. 데이터 엔지니어의 SQL 기술, 데이터 분석가의 BI 툴을 다루는 기술까지 (그들보다 전문성은 조금 떨어질 수 있겠지만) 어느 정도 이상의 레벨로 다룰 수 있다. 그렇기 때문에 앞의 두 직업군을 스킵하고 데이터 과학자만 두는 회사도 왕왕 있다. 하지만 이 직업군의 최대 강점은, Python이나 R 같은 프로그래밍 언어로 통계학을 접목시켜, 인사이트가 정말로 인사이트가 맞는지, 그렇다면 몇% 의 통계적 확률로 그런 결과가 나왔는지 등을 알아낸다.
예시에 적용: 데이터 분석가들이 지구는 둥글다!라는 결론을 도출 해 낸 것을, 통계적 분석을 기반으로 (여기서 머신 러닝이니, 알고리즘이니 하는 것들이 나오는 것이다) 이 결론은 x% 확률로 통계적 어쩌고 저쩌고에 타당성이 들어맞고 등등이기 때문에 인사이트가 맞다!라고 결론을 내어준다.
이렇듯 데이터 과학이라는 분야는 정~말 크게 보아야 이런 세 종류의 범주가 있고, 모두가 유기적으로 협업을 통해 프로젝트를 진행해 나아간다. 또 위에서 말했듯 모든 범주는 또 다른 다양한 직업으로 나뉘어 지기 때문에, 이 분야의 다양성을 외면하고서 데이터 전문가가 된다는 것은 본질적인 오류가 있다. 자신의 성향이 어떤지를 파악해보고, 내 강점들과 맞는 데이터 직업군을 목표로 하는 것이, 무지성으로 데이터 과학자만 바라보는 것보다 훨씬 효율적일 것이다.
다음은, '회사의 관점'의 딜레마에 대해 적어보겠다.