스타트업 취업직무 여섯 번째, 데이터 사이언티스트
오늘 소개드릴 스타트업 취업직무는 '데이터 사이언티스트' 입니다. 아마도 '이게 뭐지?' 라고 생각하실 만한 분들도 계실 것 같네요. 요즘 핫 키워드 중에 하나인 '빅 데이터'나 알파고 때문에 유명해진 '머신러닝'이 데이터 사이언티스트와 관련이 있는 내용입니다. 한마디로 방대한 데이터를 잘 정리하고 분석해서, 이제까지 하지 못했던 일을 해내는 방법을 연구하는 사람들입니다. 좀 더 자세히 이야기하면,
1) 통계적 지식(Math & Statistics Knowledge)을 바탕으로 가설을 설정하고 데이터 속 패턴을 찾아내며
2) 데이터 분석 툴과 프로그래밍 언어(Hacking Skills)를 사용하여 분석 및 서비스를 구현하고
3) 관련 산업에 대한 충분한 백그라운드 지식(Substantive Expertise)을 바탕으로 비즈니스에 적용하는 사람을 말합니다.
요즘에는 어떤 분야나 상황에 대해서도 수많은 데이터를 생성하고 축적할 수 있는 환경이 되었고, 이를 활용해할 수 있는 일도 많아지다 보니 거의 모든 사업 영역에 데이터를 이용한 비즈니스 개선이 가능한 데이터 시대가 되었습니다. 하지만 이 데이터들을 다루고, 그 안에서 해당 분야에 필요한 인사이트를 뽑아내려면 그만큼의 전문성이 있어야 하기에, '데이터 사이언티스트'라는 직업이 새롭게 등장한 것으로 볼 수 있죠. 데이터 사이언티스트가 21세기의 가장 섹시한 직업으로 선정이 된 것도, 이들이 할 수 있는 일이 그만큼 방대하고 꼭 필요한 일이기 때문입니다.
1) 데이터를 다루는 'Tool' 알기!
일단은 앞서 말씀드렸듯, 데이터를 다루는 방법을 알아야겠죠? 데이터를 다루는 데에는 당연하게도 그에 걸맞는 'Tools'가 있습니다. 기본적으로 한 가지는 할 수 있어야 데이터 사이언티스트가 되기 위한 첫 발을 내디딜 수 있습니다. 스타트업 취업을 희망하는 여러분들도 꼭 하나 배워놓아야 하는 것이지요. 데이터 사이언티스트, 빅데이터나 머신러닝이라는 내용이 지금처럼 모두에게 알려지기 전부터 이런 분야를 연구하는 사람들은 있었습니다. 그들은 'SAS'나 'SPSS', 'Matlab'라는 도구들을 주로 사용했습니다. 주로 데이터를 다루는 석/박사 급의 연구원들이나 큰 기업에서 사용했던 Tool들이죠.
이런 Tool들은 비교적 목적이 명확한 기존의 연구소/기업들을 위해 발전해 왔기 때문에 사용하기가 편한 대신, 할 수 있는 일들이 한정되어 있는 편입니다. 그리고 결정적으로 비쌉니다. 그래서 요즘에는 오픈 소스인 'R'이나 'Python'을 활용하여 데이터를 분석하는 경우가 많은데요. 일단 무료고, 관련 커뮤니티가 굉장히 활발하여 발전 속도도 빠릅니다. 그러다 보니 진입장벽도 낮고, 오픈 소스이다 보니 분석자가 원하는 대로 유연하게 사용할 수 있습니다. 이러한 Tool 들은 데이터 사이언티스트가 데이터 베이스에서 가져온 데이터를 분석하기 위해 필요한 도구들이고, 데이터를 데이터 사이언티스트의 손에 가져오기 위해서는 'SQL'이라는 도구를 또 배워야 합니다. Python, R이 회를 뜨기 위한 칼, 도마와 같은 요리도구라면, SQL은 수조에서 물고기를 꺼내 도마 위에 올려놓는 뜰채 같은 도구인거죠.
파이썬 컨퍼런스 'PyCon APAC 2016' (출처: '어쩐지 오늘', naver blog)
2) 분석을 위한 기본적인 '수학 지식' '통계 지식'은 필수!
이런 도구들의 사용법을 익히고 나면 이를 이용해서 분석을 진행하기 위한 지식들이 필요합니다. 어떤 지식일까요? 일단 '통계 지식'이 필요합니다. 다양한 데이터 분석 결과를 확률로 이야기하는 데이터 사이언티스트니 만큼 통계 지식은 필수 중에 필수겠지요. 실제로 데이터 사이언티스트의 면접에는 "p-value에 대해서 설명해보라", "Maximum Likelihood Estimation에 대해 설명할 수 있는가", "통계적 검정의 단계를 아는가?" 등등의 질문이 오고 갑니다. 그러나, 이런 통계 지식조차 데이터 사이언티스트들의 기초 지식이 아닙니다. 데이터 사이언티스트들의 기초 지식은 바로바로 선형 대수, 확률론, 미적분학과 같은 수학 지식이랍니다. Python이나 R 같은 데이터 처리 프로그램을 사용하면 컴퓨터가 수많은 양의 무지막지한 연산을 대신해주긴 하지만, 이러한 연산을 하려면 연산을 시키는 사람이 이 '연산이 무엇인지', '왜 필요한지' 알고 있어야겠죠? 데이터 사이언티스트로 스타트업에 취업을 하려는 분이라면 아무래도 수학을 잘하는 것이 필수이자 기본이라고 할 수 있습니다.
이렇게 수학 지식과 통계 지식을 바탕으로 삼고 Python과 R 같은 데이터 분석 Tool 사용법을 익혔다면, 일단 데이터 사이언티스트가 되기 위한 기본 준비를 마쳤다고 할 수 있습니다. 그리고 이 준비를 바탕으로 실제로 데이터 사이언티스트의 업무를 수행하려면 요즘 핫한 '머신러닝 기술'이나, 데이터를 분석하기 좋게 가공하는 '데이터 핸들링(Data Handling-Preprocessing),' 분석 결과를 도식화 하는 '데이터 시각화(Data Visualization),' 수많은 데이터의 저장 및 병렬 연산을 위한 '데이터 엔지니어링(Data Engneering)' 등의 Skill들이 또 필요하답니다~!~! 하하하하하하하하하...하.. 하...... ㅎ
그런데 이렇게 복잡한 데이터 사이언스는 왜 이렇게 하태핫태한 걸까요? 사실 이 데이터 사이언티스트들이 연구하는 주제 중에는 그동안 방법이 없어서 못했을 뿐 모두들 궁금해했던 주제들도 많습니다. 예를 들어, '우리나라 사람들은 오늘 점심에 뭘 먹었을까?' 라는 질문은 많은 요식업계 사람들이 궁금할 법한 이야기죠. 하지만 이런 걸 알아낼 방법은 전혀 없었다고 해도 과언이 아니죠. 그런데 요즘은 어떤가요? 오늘자 전국의 카드 사용내역을 모두 분석하여 점심시간대만 추출하고, 음식점 업종에서 사용된 것만 뽑은 후에, 요즘 음식점에 가면 있는 POS 기계의 데이터와 대조하고 하면, 몇%의 오차가 있겠지만 대략적으로 분석이 가능할 겁니다. 이렇게 매일매일의 데이터를 모아서 한 달, 두 달 분석을 하다 보면, 그 오차를 점점 줄일 수 있겠죠. 우리나라 사람들은 점심을 사 먹을 경우, 가장 많이 먹는 메뉴가 무엇이고, 얼마 정도의 가격을 지불하며, 사 먹는 사람의 비율은 얼마, 굶거나 집에서 먹거나 도시락을 싸는 사람은 몇 명이라는 식으로 분석이 가능하겠죠. 여기에 필요한 데이터를 모두 구할 수만 있다면요. 예전에는 이런 데이터를 모조리 갖고 있어도 이걸 분석하려면 슈퍼컴퓨터가 필요하다든지, 아예 분석이 불가능했습니다. 하지만 요즘은 이러한 분석과 연산을 할 수 있도록 컴퓨터 기술이 발전했기 때문에, 데이터 사이언티스트들이 주목을 받고 있는 것입니다. 이미 사람들이 너무나 간절하게 알고 싶었던 내용들을 알 수 있게 해주거든요.
그렇다면 실제로 데이터 사이언티스트들은 현업에서 어떤 식으로 일을 하게 될까요? 페이스북의 핵심 데이터 사이언티스트인 Dave Holtz는 데이터 사이언티스트가 현업에서 하는 일을 크게 4개로 구분했는데요.
첫 번째, 그냥 데이터 사이언티스트라고 불리는 데이터 애널리스트들,
두 번째, 수많은 기업들이 그저 쥐고 있을 수밖에 없었던 수년/수십 년간 축적해온 데이터들을 활용해서 뭔가를 만들어 내려고 애쓰고 있는 데이터 사이언티스트들입니다. 실제로 가장 많은 일반 기업들은 여태껏 자신들이 쌓아온 데이터를 어떻게 써야 할지, 앞으로는 어떻게 축적해야 할지 잘 모르고 있는 경우가 많은데요. 이들의 문제를 직접적으로 해결하는 일을 하고 있는 것이죠.
세 번째는 아예 데이터 사이언스 전문 솔루션을 제공하거나, 데이터 중심의 서비스를 제공하는 데이터 전문 기업들에서 일하는 데이터 사이언티스트들 입니다.
네 번째로 이미 데이터를 잘 활용해서 자신의 서비스/상품을 판매하고 있는 기업의 데이터 팀에 들어가서 일하는 데이터 사이언티스트들 입니다.
첫 번째 부류는 사실상 데이터 사이언티스트가 아닌 사람들이구요. 어떤 기업의 데이터 분석을 개척하는 개척가가 되거나, 데이터를 다루는 방법만을 전문적으로 연구해서 제공하는 전문 요원이 되거나, 데이터 분석을 사업과 잘 연결해놓은 기업의 회사원이 되거나, 로 요약할 수 있겠네요.
어떠신가요? 사실 이 데이터 사이언티스트가 스타트업 취업 직무 시리즈의 가장 마지막에 놓이게 된 이유가 짐작이 가시나요? 사실상 가장 어려운 분야이기도 하고, 아직 모든 기업에서 데이터 분석팀을 둘 만큼, 많은 전문가가 있는 것도 아닙니다. 하지만 분명하게도 모든 기업이 데이터 분석팀을 필요로 하게 될 것이고, 아직 많은 전문가가 없는 만큼 지금 뛰어들면 평생 이 분야의 선구자로 본인의 능력에 따라 마음껏 성장해나갈 수 있는 직업이라는 것이죠. 무엇보다 데이터 사이언티스트로 스타트업 취업만 하는 것이 아니라 일반 대기업에도 취업하기가 용이하답니다. 그만큼 귀하고 아직 보기 드문 직업이거든요. "난 이쪽에 충분한 재능을 갖고 있는 것 같고, 최선의 노력을 할 준비가 되었다"라고 생각하신다면 주저하지 말고 도전하세요. 아까 말씀드렸죠? "21세기의 가장 섹시한 직업, 데이터 사이언티스트"
10월에 시작한 스타트업 취업 가이드 시리즈도 이제 마지막 편이 되었습니다. 마지막까지 여러분들의 스타트업 취업에 도움을 드릴 수 있는 정보를 최대한 자세히 설명해 드리려고 노력 중입니다. 부족하거나 더 궁금한 점이 있다면 언제든 문의 바랍니다. 다음번에는 좀 더 재미있고 유익한 기획으로 돌아올 테니 기다려주세요~!