brunch

You can make anything
by writing

C.S.Lewis

by Spark Dec 27. 2021

데이터 딜레마 - 2

다양성

자, 이제 데이터를 다루는 직업이 되려면 어떠한 학문적 지식이 필요한지, 무슨 툴들을 다루는지, 등의 사전 준비를 마쳤다는 가정하에, 본격적으로 '데이터 전문가'의 직업으로 들어가 보자. 대부분은 데이터 과학자 (Data Scientist)가 이 세상의 전부인 것처럼 묘사가 되어있지만, 사실 데이터 과학자는 정말 다양한 데이터 관련 직업들 중에 하나인 것뿐이다. 물론 그렇게 인기가 있는 이유는 따로 있겠지만, 이 부분은 뒷부분에 다뤄보겠다.


아니 그전에, 왜 도대체 데이터 과학 (Data Science)이라고 칭해지는 것일까? 과학을 국영수처럼 학문으로 배운 우리들은 이 부분부터 낯설지만, 여기서의 과학은 어떤 학문적인 과학 (물리 같은)이 아닌, 세상을 더 잘 표현하기 위해 질문은 던지는 것 정도로 해석해야 한다. 그렇다면 비즈니스에서의 Data Science는 데이터를 통해 회사가 운영되는 '무언가'를 더 잘 이해하려고 의문점을 제시하는 것이 되겠다. 그 '무언가'는 회사의 Senior Leadership들의 방향성과 연관성이 있으므로, 그들의 확실한 비전이 회사의 Data Science를 꽃피우게 하는데에 정말 중요한 역할을 한다.


과학에 대해서 조금만 더 덧붙여 보자면, 예전에 읽었던 책에서 과학의 전제 조건은, 세상에 존재하는 과학은 언제든지 부정될 수 있다고 본 기억이 난다. 그렇기 때문에 과학의 정의는, 쉽게 대체될 수 없게끔 무척이나 정확할 필요가 있다고 봤었는데, 이 부분도 데이터 과학과 밀접한 관련이 있다. 예를 들어, 내가 분석한 데이터의 결론들이, 마치 지구는 둥글다 (지구는 둥글지 않다고 믿는 사람도 있지만)처럼 대부분의 사람들이 납득할만한 이유가 뒷받침되어야 한다. 


Photo by NASA on Unsplash


그렇다면, 이 예시가 회사라는 가정하에, 크게 3개의 직업 범주에서 한 회사가 지구는 둥글다는 결론을 내기까지 어떠한 다양한 데이터 관련 직업들이 포함되는지 알아보자.


데이터 엔지니어 (Data Engineer)

아마 데이터 관련 업무의 시작점이 아닐까 싶다. 데이터 엔지니어는 회사마다 불려지는 게 다른데 (Data Steward, Data Designer, 등등), 하는 일들은 대부분 비슷하다. 이들의 가장 큰 강점이라면 SQL이 대표적이고, 우리가 흔히 말하는 Big Data를 회사 고유의 데이터 베이스에서 사용 가능하게 전처리 작업을 해준다고 보면 될 것 같다. 

예시에 적용: 이들은 회사 내외로 존재하는 지구 관련 데이터를 테이블로 정리를 해줄 것이다. 위도, 경도, 언어, 인구 밀도 등 하나하나 보면 사용할 수 없을 만큼 흩어져 있는 데이터 들을 흔히 볼 수 있는 엑셀 테이블 같이 말이다. 


데이터 분석가 (Data Analyst)

데이터 엔지니어들이 어느 정도 정리를 해 놓은 데이터를 가지고, 실직적으로 분석을 하는 직업이다. 데이터 엔지니어가 없는 회사는, 데이터 분석가에게도 어느 정도의 SQL 기술을 필요로 한다. 데이터 분석가라는 큰 범주안에서, Marketing Analyst, Web Analyst, 등등 또다시 수많은 직업들이 있지만, 대부분은 분석가는 인사이트를 도출 해 내는 직업이다. 그렇기에 Tableau, Power BI, Spotfire과 같은 Business Inteligence (BI) 툴들이 가장 큰 강정이겠다.

예시에 적용: 이들은 이미 전처리가 되어있는 지구 관련 데이터들을 Tableau와 같은 BI 툴에 넣어서 각각의 데이터 포인트들이 어떠한 스토리를 내포하고 있는지를 알아내는 일을 할 것이다. 그러면서 데이터 시각화를 통해, 지구는 둥글다!라는 인사이트를 도출 해 낼 것이다.


데이터 과학자 (Data Scientist)

데이터 과학의 꽃은 당연히 데이터 과학자다. 앞에서 잠깐 말한 데이터 과학자가 이 직업군의 대표주자가 된 이유는, 소위 일당백이기 때문이다. 데이터 엔지니어의 SQL 기술, 데이터 분석가의 BI 툴을 다루는 기술까지 (그들보다 전문성은 조금 떨어질 수 있겠지만) 어느 정도 이상의 레벨로 다룰 수 있다. 그렇기 때문에 앞의 두 직업군을 스킵하고 데이터 과학자만 두는 회사도 왕왕 있다. 하지만 이 직업군의 최대 강점은, Python이나 R 같은 프로그래밍 언어로 통계학을 접목시켜, 인사이트가 정말로 인사이트가 맞는지, 그렇다면 몇% 의 통계적 확률로 그런 결과가 나왔는지 등을 알아낸다.

예시에 적용: 데이터 분석가들이 지구는 둥글다!라는 결론을 도출 해 낸 것을, 통계적 분석을 기반으로 (여기서 머신 러닝이니, 알고리즘이니 하는 것들이 나오는 것이다) 이 결론은 x% 확률로 통계적 어쩌고 저쩌고에 타당성이 들어맞고 등등이기 때문에 인사이트가 맞다!라고 결론을 내어준다.


Photo by Kaleidico on Unsplash


이렇듯 데이터 과학이라는 분야는 정~말 크게 보아야 이런 세 종류의 범주가 있고, 모두가 유기적으로 협업을 통해 프로젝트를 진행해 나아간다. 또 위에서 말했듯 모든 범주는 또 다른 다양한 직업으로 나뉘어 지기 때문에, 이 분야의 다양성을 외면하고서 데이터 전문가가 된다는 것은 본질적인 오류가 있다. 자신의 성향이 어떤지를 파악해보고, 내 강점들과 맞는 데이터 직업군을 목표로 하는 것이, 무지성으로 데이터 과학자만 바라보는 것보다 훨씬 효율적일 것이다.


다음은, '회사의 관점'의 딜레마에 대해 적어보겠다.

작가의 이전글 데이터 딜레마 - 1
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari