원제: The death of data-scientists
역자* 페이스북 피드의 특수성일 수도 있겠지만, 데이터 사이언스를 교육하는 기관들이 많아지면서 '연봉의 앞자리를 바꾸는 데이터 분석 기술' 이라던가 '00일 만에 데이터 사이언티스트 되기'와 같은 자극적인 문구의 광고들이 1-2년 사이 폭발적으로 증가했다.
실제로 Glassdoor와 같이 직무별 평균 연봉을 파악할 수 있는 사이트를 살펴보면 데이터 관련의 직무의 평균 연봉이 높게 설정되어 있는 것이 사실이다. 또한 구직자로서, 채용 담당자로서 개인적 경험을 돌아보면 스타트업에서부터 대기업까지 데이터 관련 직무에 대한 기업의 수요 역시 엄청나게 증가된 점도 부정할 수 없다. 아무리 취업이 어렵다하는 세대이지만 통계학을 전공한 대학(대학원) 동기들 중 사기업 취업을 못한 친구들이 거의 없었고, 꼭 대학 전공자가 아니라 하더라도 제2교육기관에서 학습한 뒤 데이터 관련 직무로 직무 전환한 지인들도 주변에 많긴 하니 지난 몇 년간 구직자에게 데이터 영역이 '새로운 기회의 땅'이었음은 확실하다.
그러나 이미 현업에서 데이터 분석가 또는 데이터 사이언티스트 등 데이터 관련 직무로 일하고 있는 동료들 중 자신의 커리어와 회사에서의 입지 등에 고민하는 사람들은 적지 않다. 이들의 고민은 '업무 능력의 경쟁력'과 같이 개인의 역량에 대한 고민에서부터 데이터 팀이 회사에서 성과를 잘 내고 인정받기 위한 '기업 문화', 팀과 회사가 데이터 역량을 높이기 위한 '도구적 인프라' 등 고민의 종류와 대상도 다양했다. 이들과 서로의 고민을 나누며 '아무래도 데이터 관련 업무나 데이터 팀은 역사적으로 조직에 자리 잡은 지 오래되지 않아 고용하는 입장에서도, 고용된 입장에서도 무엇을/어떻게/왜 해야 하는지에 대한 공동의 상식이나 공감대가 부족한 경우가 많아 고민과 갈등의 상황을 더 쉽게 마주하는 것이 아닐까'하고 생각했다.
우리 데이터 팀과 나의 존재 가치는 과연 무엇이지?
조직 내에서 충실한 서포터였으나 그럼에도 불구하고 마음속에 위 질문을 띄우며 존재 가치에 대한 회의감이나 의구심을 품으며 고민했던 데이터 사이언티스트 또는 분석가들이 계시다면, 혹은 데이터 사이언티스트로 진로 설정을 한 데이터 사이언티스트 꿈나무가 이 글을 읽고 있다면 아래 번역 글이 앞으로 나아가야 할 방향에 조그마한 단서나 도움이 되지 않을까 싶다. '데이터 사이언티스트의 죽음'이라는 무서운 제목이지만 정작 이야기하는 것은 '데이터 사이언티스트의 미래'라 할 수 있으니 말이다.
*역자 : 정다미
** 이 글은 정다미, 김영웅 공동 번역하였습니다.
원문: The death of data-scientists
이전에 저는 ‘데이터 엔지니어링의 진화’에 대한 글을 쓴 적이 있습니다. 그 글에서 저는 과거 비즈니스 인텔리전스라 불렸던 데이터 엔지니어들이, 데이터 사이언티스트들의 다양한 (업무) 스펙트럼뿐만 아니라 데이터 및 데이터 사용량이 엄청나게 늘어나는 것을 지원하기 위한 혁신 속도를 따라잡기 위해, 보다 기술적인 역할을 맡아야만 했다는 점을 이야기했습니다.
저는 이제 우리가 알고 있는 데이터 사이언스는 곧 죽게 될 것이며, 과거 비즈니스 인텔리전스 엔지니어의 역할이 그러했던 것처럼 데이터 사이언티스트의 역할도 진화하게 될 것이라 확신합니다. 다만 데이터 엔지니어링이 기술적인 역할을 강화되는 방향으로 진화한 것과는 반대로, 데이터 사이언티스트는 오히려 기술적인 속성이 옅어지는 방향으로 진화하게 되리라 생각합니다.
이 같은 진화는 다음과 같은 세 가지 추세에 의해 나타나게 될 것입니다.
데이터 사이언티스트들이 일반적으로 수행하는 개별 워크플로우의 자동화
데이터 사이언티스트의 작업 중 반복적으로 수행되는 특정 부분을 효과적으로 대체하는 데이터 프로덕트의 등장
고부가가치 작업으로의 데이터 사이언티스트의 업무 전환
만약 (데이터 사이언티스트인) 여러분이 남은 직장생활 동안 전형적인 머신러닝 작업을 계속할 수 있으리라 생각했다면, 이제 현실을 점검해 봐야 할 때입니다.
많은 소규모 스타트업에서 데이터 사이언티스트는 데이터와 관련된 모든 것을 연결하는 축 역할을 해왔습니다. 데이터 작업이 실행되도록 하는 인프라를 셋업 하고, 여러 가지 소스에서 데이터를 수집하고 처리하며, 최종적으로 예측 모델 같은 결과물을 만들어내는 것들입니다. 현재 이러한 각 단계들은 점점 더 쉬워지고 있습니다.
인프라를 관리하는 일은 턴키 솔루션(Turnkey Solution)이 많이 생기면서 쉬워지고 있습니다. 확장 가능한 인프라를 구축하는 일은 데이터 사이언티스트 또는 숙련된 데브옵스(DevOps) 관리자가 하는 일이었는데, 이제는 아마존이나 구글 클라우드 같은 클라우드 서비스로 아웃소싱 되고 있습니다. Google 360 사용자라면 Big Query에 이벤트를 통합할 수 있고, Funnel, Stichdata와 같은 써드 파티 툴을 이용해서도 통합 가능합니다.
데이터를 전처리하고 분석하는 단계도 점점 쉬워지고, 보다 쉽게 자동화되고 있습니다. 기본적인 작업의 자동화입니다. Alteryx 는 드래그 앤 드롭(Drag-and-Drop) 방식으로 다양한 워크플로우를 처리할 수 있습니다. 보다 고급 수준의 데이터 사이언스 활용도 점점 쉬워지고 있습니다. Keras에서는 아주 간단한 인터페이스로 Tensorflow 를 다룰 수 있고, Cloud AutoML과 AWS SageMaker는 클라우드 환경에서 머신러닝 작업을 가능하게 합니다.
데이터 분야에서 데이터 사이언티스트들의 워크플로우를 자동화하고 단순화하기 위한 이러한 서로 다른 흐름으로 (데이터 분야의) 도메인 지식이 적은 사람들도 (데이터 관련) 작업을 할 수 있게 되었고, 데이터 사이언티스트들도 시간의 제약에서 자유로워졌습니다.
데이터 사이언티스트의 자리를 대신하고 있는 일은 이뿐만이 아닙니다. 워크플로우 자동화, 데이터 프로덕트의 보편화, 머신러닝 모델의 활용 그리고 표준화된 데이터 분석 시스템이라는 또 다른 추세가 있습니다. 예를 들어 CRM 플랫폼은 성향 모델링과 추천 엔진 그리고 자동화된 A/B 테스트를 제공하는 방향으로 빠르게 이동하고 있습니다. 고객 세그멘테이션이나 의사결정 관련된 기능은 일반적으로 CRM 플랫폼에 내장되어 있습니다. 각 CRM 플랫폼들 마다 서로 다른 데이터 역량을 강조할 뿐이죠. Emarsys는 자동화된 RFM(Regency Frequency Monetary) 리포팅과 세그멘테이션 기능을, Sales-force는 Einstein Artificial Intelligence 시스템 기반을 강조합니다.
DMP(Data Management Platform)과 이와 비슷한 종류의 시스템들도 위와 같은 영역으로 이동하고 있습니다. 확률 기반으로 유저를 매칭 하거나 비슷한 세그멘테이션을 만드는 것을 지원하는 기술을 구현하면서 말입니다. 개인화 작업은 데이터 사이언티스트만이 할 수 있는 고유의 영역이었는데, 이제는 CMS(Content Management Systems) 나 다른 플랫폼을 통해서도 가능합니다. 표준화된 데이터 구조를 제공하고, 데이터 캡처 기능을 지원하는 이러한 데이터 프로덕트들은 데이터 사이언스의 영역 중 부가가치가 낮은 일들을 이미 대체하기 시작했습니다.
데이터 사이언티스트들은 이제 더 높은 가치를 가진 업무로 나아갈 것입니다. 전략, 프로덕트 개발과 같은 영역으로 진출하면서, 동시에 일반 사용자들에게 데이터 권한을 이양하는 방향으로 초점을 맞출 테죠. 전통적인 데이터 사이언스의 작업 중 일부는 커스마이제이션(Customization)이나 R&D 를 통해 보다 큰 영향을 만들어내는 프로젝트로 변화하게 될 것입니다.
데이터 사이언티스트의 역할이 (전략, 프로덕트 개발과 같이) 점점 전략적인 요소를 지향하게 되면서, 데이터를 분석하고 해석하는 능력은 더욱 중요해질 것입니다. 페이스북에서 프로덕트 분석을 하는 데이터 사이언티스트, 에어이밴비/우버에서 전략기획과 분석을 담당하는 사람처럼, 실리콘밸리 회사들의 데이터 사이언티스트와 데이터 분석가의 역할은 데이터에 기반하여 전략적 의사결정을 하는 방향으로 점점 변화하고 있습니다. 이들의 주요 업무는 (데이터를 기반으로) ‘예측하는 일’보다는 ‘전략을 구체화하는 일’입니다.
프로젝트와 프로덕트를 관리하는 스킬은 점점 더 중요해집니다. 새로운 세대의 데이터 사이언티스트들은 데이터 프로젝트를 처음부터 끝까지 관리하고, 데이터를 기반으로 전반적인 프로덕트로의 성과(결과)도 만들어야 합니다. 이는 많은 회사들이 프로덕트 분석 전문가나 정량적인 프로덕트 매니저를 채용하면서 나타나고 있는 사례입니다.
데이터를 진정으로 이해하고 있는 기술적 전문가는 너무나 필요한 존재입니다. 프로덕트를 기획하고 구축하거나 데이터 프로덕트를 만드는 것을 돕는 데 필요한 데이터이든, 단순하게 프로덕트 개발 과정을 가이드하는 역할을 하든 데이터이든 말이죠. 그리고 비즈니스, 정량적 분석, 기술적 프로덕트 역량을 모두 갖추고 있는 현재의 데이터 사이언티스트들은 이러한 필요에 매우 부합합니다.
데이터 주도(data-driven)와 데이터 중심(data-centric)의 문화를 추구하는 조직들에게 데이터 민주화(democratizating of data)는 점차 중요해지고 있습니다. (이와 같은 맥락에서) 데이터 사이언티스트의 역할 중 다른 사람들에게 어떻게 데이터를 해석하고 활용할지에 대해 가르치는 부분이 매우 중요해질 것입니다.
앞으로 전형적인 데이터 사이언스의 업무 중 일부는 CloudML 같은 기존 데이터 플랫폼에서 모델을 커스터마이제이션하거나 “Tailoring(맞춤화)” 의 문제를 해결하고, full-scale 개발에 앞서 P.O.C 를 제공하는 수준으로 그칠 것입니다. 반면에 일부 데이터 사이언티스트는 특정 빅데이터 기반의 데이터 프로덕트 중심 회사에서 R&D에 보다 집중적인 업무를 수행할 것입니다.
데이터 사이언스의 미래는 다양한 추세가 이끌어가고 있습니다. 앞으로 데이터 사이언스 업무는 급격히 변화를 겪을 것입니다. 데이터 사이언티스트가 수행하는 업무는 자동화와 생산화 덕분에, 현재보다는 덜 기술적이지만 보다 더 높은 가치를 만들어내는 일로 바뀔 것입니다. 특정한 R&D 에서의 높은 난이도의 기술적 업무를 제외하고, 기술적 난도가 높은 데이터 관련 업무는 데이터 사이언티스에 비해 훨씬 더 기술적인 역할을 수행하는 데이터 엔지니어가 맡게 될 것입니다.
역자: 정다미
이 글이 조금은 선언문처럼 느껴지는 면이 있어 독자에게 거부감이 들 수도 있겠다. 혹은 데이터사이언티스트의 기술적 역량이 줄어들고 전략 또는 프로덕트에서의 역할이 더욱 증대될 것이라는 그의 생각에 당장은 괴리감을 느낄 분도 많을 수 있다. 그러나 저자가 지적한 데이터 분석 인프라 및 도구의 상황적 변화와 실리콘벨리에서의 데이터 전문가의 쓰임의 변화 등은 일견 타당하다.
우리가 이 글을 첫 글로 선정한 이유는, 이후 연재될 데이터 프로덕트와 데이터PM 에 대한 이야기를 여는 데 있어 전반적인 산업의 정황과 데이터 PM의 등장 배경을 설명해주는 글이라 생각했기 때문이다. 전통적인 관념의 데이터 사이언티스트와 구분되어 그들이 다루고자 하는 것과 구체적인 그 역할에 대해서는 후속 글로 이어나가고자 한다.
본 매거진은 정다미, 김영웅 공동 번역으로 만들어가는 컨텐츠입니다.
정다미님은 카카오에서 데이터 프로덕트 매니저로 일하고 있고, 이전에는 그로스 PM, 퍼포먼스 마케터, 데이터 분석가로 일했습니다. 김영웅님은 기술교육 PM을 해왔고, 데이터 기반의 프로덕트 매니저와 데이터 PM에 관심을 가져왔습니다. 모두의 관심사인 데이터를 기반으로 프로덕트 매니저 관점에서의 이야기를 주로 전달하고자 합니다.