이 글은 Some Thoughts on Mid-Career Switching Into Data Science라는 제목의 기사의 번역본과 그에 대한 제 의견입니다. 공감되는 부분이 많아 번역해보았습니다. 미국에 한정되는 내용도 있으니 감안하고 보시기 바랍니다.
* 참고로 글에 나오는 mid-career를 '경력직'이라고 번역하였습니다.
우리는 스스로를 ‘경력직'이라고 말하는 독자들에게 데이터 사이언스로의 커리어 전환에 대한 조언을 요청을 종종 받곤 한다. 이 글을 읽고 있는 당신도 여기에 해당한다면, 데이터 사이언스로 커리어를 바꿨을 때 사회 초년생들이 겪는 어려움과 경력직으로서의 어려움을 동시에 겪을 것이다. 그런 당신에게 도움이 될 만한 생각과 지식을 나누고자 한다.
사람들이 스스로 ‘경력직’이라고 말할 때, 보통 10-20년의 경력을 말한다. 그렇다면 그들은 대부분 30-40살 일 것이다. 이들 대부분은 IT, 어쩌면 개발자, 애널리스트, 어드민, 혹은 그와 유사한 일을 한다고 말한다. 일부는 데이터를 많이 사용하는 오퍼레이션 영역에 있기도 하다. 대부분 학사 학위를 갖고 있다. 이것이 내가 앞으로 이야기할 ‘당신’의 프로파일이다.
여기까지 읽었을 때 ‘음 이건 내 이야기가 아닌데? 난 달라’라고 생각할지도 모른다. 나는 표준 편차의 중간값을 이야기하고 있다. 만약 당신이 이 값으로부터 2-3 표준 편차 내에 위치한다면 당신 이야기가 맞다.
Carmen says: 3년 이상의 경력을 가진 경력직이라면 이 글에서 말하는 '당신'에 해당된다고 생각합니다.
왜냐하면 데이터 사이언스는 핫하니까! 우리는 끊임없이 데이터 사이언스를 미국 내 최고의 직업 중 하나라고 칭하는 기사를 접하며, 나 역시 업계 사람으로서 여기에 동의한다. 데이터 사이언스의 일들은 흥미롭고 도전적이며 빠르게 진화하는 툴을 사용한다. 즉 평생 공부가 필요하다 (이건 좋은 일이다).
자질을 갖춘 데이터 사이언티스트가 구조적으로 부족하다는 것은 잘 알려진 사실이다. 회사들은 데이터 사이언티스트를 채용하기 위해 노력하지만 필요한 만큼 뽑지 못하기 때문에 데이터 사이언티스트들은 평균 이상의 연봉을 받는다.
아마도 당신이 10-20년간 커리어에 투자한 시간에 대한 보상이 불만족스러울지도 모른다. 만약 당신이 상대적으로 좀 더 나은 옵션을 찾고 있다면 데이터 사이언스는 고려해볼 만하다.
물론 데이터 사이언스 인력 부족은 당신에게 유리한 상황이 맞지만, 솔직히 말해보자. 당신이 몇 년을 IT나 애널리틱스에 투자해서 얻는 것도 있겠지만 동시에 당신은 가족과 함께 삶을 꾸리고 싶을 수도 있다. 10-20년 동안 당신의 연봉도 올랐을 테니.
당신이 마주할 가장 큰 어려움은 돈을 벌면서 동시에 커리어 전환을 위해 트레이닝받을 시간을 마련하는 것이다. 두 번째 어려움은 당신이 갓 졸업한 사람들과 경쟁하기 때문에 어쩌면 지금 받는 연봉보다 적은 연봉을 받을 수 있다는 점이다. 데이터 사이언티스트의 연봉 조사 결과 중 가장 괜찮은 여기를 참고하자.
연봉 전망이 더 좋아질 수도 있지만 박사 학위도 없는 상태에서 경력직 데이터 사이언티스로 시작하는 것은 불가능하다.
Carmen says: 다른 분야에서는 모르겠지만 데이터 사이언스는 박사 학위가 그 가치를 인정받는 편입니다. 미국 내 데이터 사이언티스트 채용 공고에 'PhD preferred/must'라고 못 박는 경우도 많습니다.
사내 교육으로 데이터 사이언티스트가 될 확률은 제로에 가까울 정도로 희박하다. 채용이 더 어려웠던 18개월 즘 전에, 특히 실리콘 밸리에서, Zenga가 18개월짜리 사내 데이터 사이언티스트 양성 프로그램을 운영했었다. 지금도 존재하는지는 모르겠지만 이것이 내가 아는 유일한 사례다. 만약 당신의 회사가 데이터 사이언스 인력을 어느 정도 확보한 상태라면 회사에 이런 프로그램에 대해 이야기를 꺼내볼 수도 있겠지만 어쨌든 이것은 굉장히 드문 일이고 사내 교육은 거의 언제나 이미 데이터 사이언스 일을 하고 있는 직원들에게 해당된다.
기업들이 신입 데이터 사이언티스트를 채용할 땐 대부분 대학에서 관련 전공으로 정식 학위를 받은 사람들을 선호한다. 이런 정보에 대한 공식적인 정보를 제공하는 기관은 없지만 내가 아는 바로는 면접을 볼 때 다른 조건이 동일하다면 정식 학위를 받은 이들이 훨씬 더 선호된다. 온라인 교육을 통해 중요한 스킬을 습득할 수 있지만 말이다.
온라인 교육으로 공부 시간을 단축할 수는 없다. 당신을 능력 있는 신입 데이터 사이언티스트로 만들어주는 6개월짜리 프로그램은 존재하지 않는다. 데이터 사이언스를 공부하는 것은 또 하나의 프로그래밍 언어를 습득하는 것이 아니다. 당신은 18-24개월의 시간이 필요하다.
Carmen says: 미국에는 데이터 사이언티스트를 양성하는 부트 캠프도 많이 있습니다. 제가 아는 곳은 data incubator 정도인데 이곳에서 교육을 받고 실제로 취업하는 경우도 많은 것 같습니다.
이 분야에서 가장 선호되는 학위는 데이터 사이언스 석사다. 신입 레벨의 데이터 사이언티스트가 되기 위해서는 약 2년 정도의 학교 수업과 경험이 필요하다. 이것을 온라인, 파트타임 프로그램으로 할 수 있을까? 가능하다, 물론 자기 절제가 관건이다.
학사 학위가 없다면 불가능할까? 절대 아니다. 석사에서 배울 수 있는 스킬을 가르치는 학사 수준의 프로그램이 점점 늘고 있다. 당신이 동일한 스킬을 2년 동안 학사 프로그램에서 습득하지 못할 이유는 없다.
석사와 학사 프로그램에서 주의할 점이 있다. 커리큘럼이 데이터 사이언스에 특화되어 있어야 한다. 컴퓨터 사이언스나 비즈니스 데이터 애널리틱스 같은 광범위한 분야가 아니라.
졸업했거나 졸업 예정인 석사생들이 나에게 종종 인턴십이나 취업에 대해 묻곤 한다. 나의 대답은 언제나 이렇다. ‘당신이 해결하고자 노력했던 문제에 대해 자세히 말해보고, 당신이 어떻게 데이터를 준비했는지, 구체적으로 어떤 알고리즘으로 모델링을 했는지, 어떤 툴이나 언어를 사용했는지 (R, 파이썬, SAS, SPSSS 등등), 그리고 어떤 결과가 있었는지 말해봐라’
가장 흔한 대답은 침묵이거나 (‘나는 필요한 수업을 들었다고요’) 하나의 프로젝트에 지나치게 깊게 이야기하는 것이다. 물론 나는 당신이 R을 사용했는지 알고 싶지만 구체적인 코드는 알고 싶지 않다. 나는 데이터를 다루고, 모델을 만들고, 문제를 해결하는 데에 중요한 이슈를 알고 있는지가 궁금하다.
이건 마치 VC로부터 돈을 받는 것과 비슷하다. 당신은 5분 내에 3-4개의 구체적인 예시로 이 모든 포인트를 커버하는 엘리베이터 피치 (아마도 1분 정도)를 해야 한다. 아마 이야기의 흐름은 이렇게 될 것이다:
해결해야 하는 비즈니스 문제는 무엇이었는가
어떻게 데이터를 확보했는가
어떻게 데이터를 전 처리하고 준비했는가 (feature engineering을 포함해서)
어떤 알고리즘을 왜 적용했는가 (여기서 R, 파이썬, 혹은 다른 툴을 언급할 수 있지만 알고리즘이 훨씬 더 중요하다)
당신은 어떻게 최고의 모델을 선정했는가
결과는 무엇이었는가. 혹은 이것이 만약 실무에 적용되었다면 어떤 금전적/비즈니스 결과가 있었을까.
만약 일하고 싶은 회사의 데이터 사이언티스트들과 인터뷰를 시작했다면 충분히 깊게 들어가도 좋다. 지금은 가능한 한 나의 비즈니스와 연관이 있는 문제를 깊게, 그리고 폭넓게 이야기해서 강한 인상을 심어주어야 한다.
데이터 사이언스를 공부할 때 좋은 전략 - 학교든 혼자 하는 공부이든 - 은 지역의 중소기업이나 큰 기업에 접근해서 살아있는 비즈니스 문제를 파악하고 그와 관련된 프로젝트를 해보는 것이다. 당신이 가장 관심 있는 업종의 3-4개 ‘레퍼런스 프로젝트’는 당신의 공부가 실용적인 적용이 가능했다는 것을 보여줄 수 있는 아주 큰 자산이다.
만약 실제 비즈니스 문제를 찾을 수 없다면, 당신의 타깃 업종과 관련 있는 공개 데이터에서 레퍼런스 프로젝트를 만들 수 있다. 캐글 컴피티션에 참여하고 싶다면 참여해라. 하지만 거기에는 평범하거나 쉬운 문제는 없고 실무에서는 거의 쓰이지 않는 어렵고 특이한 테크닉을 사용해야 한다는 압박/유혹을 느낄 수도 있다.
데이터 사이언스 실무에서는 문제를 해결할 시간이 원하는 만큼 주어지지 않는다. 여기에는 tradeoff가 있는데, 한쪽에는 시간과 당신이 내놓을 해결책의 가치가 있고 다른 쪽에는 실제로 가용할 수 있는 시간이 있다. 소수점 3, 4 자리의 정확도를 이야기하는 것보다 효율적이고 효과적인 시간의 사용에 대해 논의하는 것이 더 현명하다.
Carmen says: 제가 경험한 바로도 레퍼런스 프로젝트는 실무 경험이 없는 신입 데이터 사이언티스트가 취업할 때 가장 큰 무기가 됩니다.
데이터 사이언티스트에게는 크게 두 가지 시장이 있다:
첫 번째 시장은 딥러닝의 최신 기술을 직접 개발하고 자사 제품에 적용하는 실리콘 밸리, LA, 시애틀, 오스틴, 그리고 뉴욕의 기업들이다 (벤처 캐피털 펀딩 수준에 대한 최근 아티클을 찾아 읽으면 이 시장에 대한 정확한 지형을 알 수 있다)
다른 하나는 코어 데이터 사이언스 시장으로, B2C(Business-to-Consumer) 요소가 기업 내에서 중요한 역할을 하는 모든 업종의 기업들이 여기에 해당된다. 보험, 은행, 모기지, 통신, 에너지, 이커머스, 정부 관련, 컨설팅, 그 외 다양한 분야가 있다. 그들은 미국 전 지역과 해외에 있다.
만약 상위 1%의 지식과 야망이 있다면 주저 없이 좋은 학교 출신들로 무장한 엘리트 회사에 입사해라. 대부분의 최신 기술이 이런 회사들에서 개발되지만 이는 전체 데이터 사이언스 일자리의 10% 도 되지 않는다.
좋은 소식은 커리어 전환을 희망하는 경력직들이 관심 있는 90%의 데이터 사이언스 일자리가 미국 전역의 대도시에 위치한다는 사실이다.
또한 40%의 미국 기업은 예측 분석(predictive analytics)을 적극적으로 사용한다. 증명하기 어렵지만 이 숫자는 말이 된다. 그리고 이 말은 100%의 대기업들이 이미 예측 분석을 활용한다는 것이며 더 작은 규모의 기업일수록 활용도는 낮아진다.
아직도 예측 분석을 완벽하게 활용하는 기업은 극히 소수이기 때문에 대기업에서도 데이터 사이언스 쪽의 취업 기회는 끊임없이 열릴 것이다.
경력자들은 어디서 살아야 하는지에 대해 깊이 고민하는데, 당신 살고 싶은 그 지역에 좋은 데이터 사이언스 자리가 있다고 봐도 된다.
또한 사람들이 어느 지역에서 학교를 다녀야 한다고 물으면 나는 ‘어디서 살고 싶으냐고 되묻는다. 명문대학교에 입학 허가를 받은 것이 아니라면 당신이 살고 싶은 지역에서 갈 수 있는 가장 좋은 학교를 선택해라. 동문 네트워크와 지역에 대한 인지도가 유리하게 작용할 것이다.
데이터 엔지니어와 데이터 사이언티스트가 다르게 분류되기 시작한 지 2년이 채 되지 않았다. 아직 그 둘의 차이가 널리 알려지거나 받아들여지진 않지만 곧 그렇게 될 것이다.
데이터 엔지니어링은 데이터 사이언스보다는 고적적인 컴퓨터 사이언스와 IT 오퍼레이션과 공통점이 많다. 미가공 데이터를 모델링과 실무에 적용하는 것이 데이터 사이언티스트라면 데이터 사이언스에 필요한 인프라 스트럭쳐를 다루는 역할을 데이터 엔지니어로 볼 수 있다.
NoSQL 데이터 베이스인 하둡, 현재는 스파크, 이후 사물 인터넷과 기타 스트리밍 기술, 그리고 EDW를 대체하는 데이터 레이크 등이 개발된 이후로 데이터 사이언스의 근간이 되는 이러한 툴을 만들고 유지할 줄 아는 인력들의 전문성이 높아졌다. 특히 클라우드와 SaaS를 다룰 줄 아는 능력이 빠르게 확산되었다. 당신이 Spark 인스턴스, 데이터 레이크, 또는 AWS, Azure, 구글 상에 스트리밍 애플리케이션을 셋업 하는 것을 배울 수 있다면, 높은 연봉을 받을 수 있고 데이터 사이언스 대비 편안하게 커리어를 바꿀 수 있는 타협점으로 데이터 엔지니어링을 고려해볼 만하다.
이 정도 수준의 스킬을 쌓는 것은 데이터 사이언티스트의 모든 스킬을 배우는 것만큼 시간이 걸리지 않고(물론 그럴 수 있다면 좋겠지만) 어쩌면 회사에서 사내 교육을 받거나 온라인 교육을 받는 것도 가능할 수도 있다.
구인 광고를 접할 때 데이터 엔지니어와 데이터 사이언티스트를 구분하는 것은 그다지 걱정할 일이 아닐 것이다. 여전히 데이터 애널리스트 공고가 풀 스택 데이터 사이언티스트를 구하는 내용이거나, 반대로 데이터 사이언티스트 공고에서 실제 업무와 요구되는 스킬이 EDW 상의 SQL을 넘지 않는 경우도 흔하다. 아마 기업의 인사팀이 기술 트렌드를 따라잡는 데에 시간이 걸릴 테니 이 문제를 인지하고 구인 공고의 세부적인 업무 내용을 읽을 때 주의해야 한다.
최근 몇 년 동안 업종별로 데이터 사이언스의 전문성이 각기 다르게 형성되었다. 사용하는 테크닉은 동일하지만 적용하는 방식이 분야마다 다르다. 그래서 산업군 별 비즈니스 모델에 대한 깊은 이해와 전형적인 데이터가 중요해졌다. 예를 들면, 이커머스는 웹 로그를 분석하고 추천 모델을 만들 수 있는 사람을 선호하고, 보험, 은행, 모기지 업계는 리스크, 크로스 셀링과 업셀링 모델을 만드는 능력을 중요시한다.
이들을 공통점은 90%의 데이터 사이언스 업무가 여전히 소비자 행동을 예측한다는 점이다. 데이터 사이언스로 커리어를 바꾼 이후에도 현재 종사하는 업계에서 남는다면, 그동안 쌓은 경험이 특히 더 도움이 될 수도 있다.
이와 별개로 인공 지능과 딥러닝에 대한 질문도 종종 받는데, 직접 찾아서 읽어봐라. 몇 개의 딥 뉴럴 넷 아키텍처, 특히 LSTM(Long Short-Term Memory) 알고리즘 기반의 나선형 신경망(Convolutional Neural Nets)이 현재 상용화된 모든 인공 지능의 기반이 된다는 것을 금방 이해할 것이다. 굉장한 동기부여가 없다면 초보자가 읽을만한 내용은 아니다. 물론 Tensorflow나 Theano를 다뤄보는 것도 좋지만 일단 소비자 행동에 대한 모델링의 기초와 시계열 모델링(time series modeling)에서 시작해라.
마지막 두 가지 코멘트. 시장은 우리가 사용하는 툴을 더 자동화하는 방법으로 데이터 사이언티스트의 부족 현상에 대응하고 있다. 이로써 소수의 데이터 사이언티스트들이 많은 사람의 일을 처리한다.
이들은 자동화 툴이 citizen data scientists라고 불리는 데이터 사이언티스트가 아닌 사람들도 쓸 수 있을 정도로 간단하다고 시장이 믿어주기를 기대한다. 모델링 업무의 반복적인 부분이 자동화될 수 있는 건 사실이고 우리가 기뻐할 일이다. 그러나 예측 분석 과정에 대한 제대로 된 이해가 없다면 엉뚱한 예측을 하는 모델을 만들게 된다.
마지막으로, 당신의 경력은 양날의 검이다. 이미 경력을 쌓은 분야에 데이터 사이언티스트로 커리어를 바꾼 뒤에도 계속 머무른다면 신입들을 끌어줄 수 있다. 하지만 10-20년의 경력직이라면 나이로 인해 차별도 겪을 수 있다.
그 어떤 것에도 낙담하지 않길 바란다. 데이터 사이언스는 멋진 미래가 있는 업종이다. 당신이 가진 모든 것을 활용해서 도전해라. Good luck.