4-3.유망직업과 일자리

* 데이터 과학의 시작 : 이코노미스트 데이터 비가 내린다.

데이터 과학이란?

1.1 데이터 과학의 정의

요즘 들어 데이터 과학(data science)이 인기다 구글 트렌드에서 데이터 과학에 대한 관심도의

추세를 살펴보면 2000년대 중반보다 다섯 배 이상 증가했다.  또한 하버드 비즈니스 리뷰에서는 21세기 가장 섹시한 직업 1위로 데이터 사이언티스트를 뽑았다. 

데이터 과학을 실행하는 직종인 데이터 과학자(data scientist)는 실리콘밸리뿐 아니라 전 세계 각 업종에서 수요가 많은직종으로 부상하였다. 회사 리뷰 연봉 비교 사이트인 글래스도어(Glassdoon를 보면 2018년 초

반 현재 2천 개가 넘는 데이터 과학자를 잣는 구인광고를 잦을 수 있다.

‘내가 그의 이름을 불러 주었을 때, 그는 나에게로 와서 꽃이 되었다’는 시구는 데이터에도 그대로 적용될 수 있다. 디지털 세상에서 빅데이터는 이름만큼이나 방대하다. 하지만 누군가 이들을 조합해 의미 있는 해석을 뽑아내기까진 그저 파편화된 숫자에 불과하다.

데이터의 가치를 극대화하기 위해 의미 도출에서부터 콘텐화에 이르기까지 전 영역을 이해하고 이끌어가는 사람을 ‘데이터 디자이너’라고 한다.

이러한 과정은 광산에서 원석을 캐내는 일에 비유되기도 한다. 다듬어지지 않은 날것의 데이터로 유의미한 해석을 끌어낼 뿐 아니라, 많은 이들에게 친근하지 않은 숫자를 한 눈에 와 닿게끔 시각적으로 표현해준다.

김윤이 뉴로어소시에이츠 대표

소개 : 데이터 디자이너는 데이터를 남녀노소 누구나 쉽게 이해하도록 분석적·감성적으로 기획·가공하는 전문가입니다. 실시간으로 업데이트 되는 인포그래픽 IRMI(Interactive Real-time Motion Infographics‧ 인터랙티브 실시간 모션 인포그래픽) 등을 다루는 데이터전문회사 ㈜뉴로어소시에이츠에서 2013년에 창출한 신 직업이죠.

현재는 다양한 곳에서 통용되며 데이터 시대의 새로운 부가가치 메이커로 받아들여지고 있습니다. 서울시 산업통상진흥원의 신직업군 양성과정 프로그램으로 교육생을 배출해내기도 했답니다.

예시 및 포트폴리오 : 서울시에서는 매일 수많은 데이터를 투명하게 공개하고 있습니다. 그러나 그것이 API(application programming interface‧앱 프로그래밍 인터페이스)와 같은 컴퓨터를 잘 다루는 사람들에게만 친숙한 방식으로만 되어 있으면 활용되기 어렵습니다. 우리 어머니, 아버지세대는 아무리 많은 데이터가 공개되어 있다고 보실 수 없겠죠.

서울시는 24시간 시계 형태로 구현한 ‘재정시계’로 예산상황을 쉽게 이해하도록 했습니다. 과거로 스크롤해 재정 지출 현황을 확인할 수 있도록 했습니다. 데이터를 잘 모르는 사람도 새로운 인프라와 투명한 공개정책의 혜택을 누릴 수 있다는 이점이 있습니다.

2017년 7월 14일 서울시 재정시계.
활동영역 및 진출분야 : 데이터가 있는 곳이라면 어디든지 가능합니다. 특히 재미난 데이터가 발생하고 있는데 잠자고 있거나 소수의 사람들만 누리는 경우가 있다면 데이터 디자이너가 그 가치를 살릴 수 있죠.

모든 조직은 크건 작건 데이터를 가지고 있습니다. 그러나 데이터에 기초해 움직이는 조직은 매우 드뭅니다. 데이터를 흡수하기 어렵고 시간이 오래 걸리기 때문입니다. 이 부분에서 효율성을 제공해주는 사람이 데이터 디자이너입니다.

이러한 역할이 쌓이다보면 어떤 데이터가 의미 있고, 어떻게 보여줘야 하는지를 기획하게 되며 프로젝트를 리드하는 역할도 맡을 수 있습니다.

필요한 역량 : 데이터의 특성을 이해하려면 고등학교 수준의 수리 통계적 개념이 있으면 좋습니다. 여기에 딱딱한 숫자나 그래프에 대한 거부감을 줄이고 친숙하게 만들기 위한 디자인, 감성 효과들을 떠올릴 수 있을 정도의 이론과 사례 공부가 되어 있을수록 훌륭한 데이터 디자이너가 될 수 있습니다.

한편 코딩을 배우시게 된다면 할 수 있는 역량범위는 좀 더 늘어납니다. 좀 더 구체적으로 데이터를 직접 끌어오기 위해서 Open API, RESTful, CRUD(Create‧생성, Read‧읽기, Update‧갱신, Delete‧삭제)에 대한 개념이 있으면 좋고, 간단한 분석을 위해서는 R, Python 등의 언어를 공부하면 좋고요, 웹 시각화를 위해서는 CSS, JAVA, HTML5 등에 대한 이해가 있으면 좋습니다.

한계와 전망 : 데이터 디자이너는 아직 시장의 한계를 말할 정도로 시장이 성숙돼 있지 않습니다. 다만 현재의 제약이 있다면 이런 직업이 있는지, 왜 필요한지에 대해 대부분의 사람들은 잘 알지 못한다는 점입니다. 때문에 데이터 디자이너의 유용성을 설명하고 실제적 작업으로 증명해 직접 필요성을 절감하게 하는 단계가 필요합니다.

관심 있는 분에게 : 이 세상에 한 사람으로 태어나 남들이 하지 않는 특별한 작업으로 명성과 보람을 얻을 수 있는 방법을 찾으신다면 데이터 디자이너는 아주 적합한 선택 중 하나입니다. 자신이 이 길에 맞는지 궁금하거나 재밌는 작업을 나누고 싶은 모든 분들은 언제든지 문의해주세요. 감사합니다.

* 데이터 인포그래픽으로 나의 학습 수준과 약점을 메타인지화 할 수 있다면 공부를 좀 더 잘 할수 있을 것이다.

데이터 과학자, 글래스도어 선정 '인기 직종 1위'

Katherine Noyes | IDG News Service

이미지 출처 : International Data Group

글래스도어(Glassdoor)에서 꼽힌 미국내 인기 직업 25개 가운데 약 절반이 IT직종으로 나타났으며 그 중에서도 가장 인기 있는 직업은 ‘데이터 과학자’로 조사됐다.

이달 초 구인 사이트에 올라온 1,700개 이상의 정보와 평균 기본급 11만 6,840달러의 직업을 분석한 결과 데이터 과학자는 수요가 많은 직업으로 나타났다. 데이터 과학자는 글래스도어 직업 점수와 경력 기회 점수에서도 가장 높은 점수를 받아 1위를 차지했다.

지난해 데이터 과학자는 9위였지만 올해 1위로 급등했으며 지난해 순위에 들지도 못했던 분석 관리자는 11위에 올랐다.

여러 대학이 관련 학위 프로그램을 신설하기 시작했지만 일반적으로 데이터 과학자와 분석 인재는 여전히 부족한 상태다. 맥킨지는 2018년 경 데이터 관리자와 분석가가 미국에서만 150만 명 부족할 것으로 지난 2011년 추산했던 바 있다.

펀드-IT(PUND-IT)의 수석 애널리스트 찰스 킹은 데이터 과학자의 중요성이 2가지 중요한 문제와 관련 있다고 말했다. 첫번째는 데이터에서 더 큰 가치를 얻고자 하는 기업들의 바램이 증가하고 있다는 것이다. 이는 기업용 소프트웨어의 다양한 분석 기능이 빠른 속도로 확산되고 있는 것과도 관련이 있다.

두번째는 기업이 만들어 내고 취합하는 정보의 대부분이 비정형 또는 반정형 데이터라는 것이다. 때문에 기존의 관계형 데이터베이스와 툴을 이용해서 분석할 수 없다고 킹은 설명했다. 일부 추정치에 따르면 비정형 또는 반정형 데이터의 비율이 최대 80%에 이른다고 그는 지적했다.

그는 "본질적으로 데이터 과학자는 대규모의 가끔은 고도로 복잡한 데이터 세트를 관리하고 분석하며 고용주를 위해 정보의 장점을 극대화하는 데 필요한 툴을 개발하도록 교육받는다. 이 일이 단순하지만 일반적으로 집중적인 훈련이 필요하다”고 전했다.

데이터 과학자가 정확히 무슨 일을 하느냐에 대해서는 일부 논란이 있다. 엔터프라이즈 스트래티지 그룹(Enterprise Strategy Group)의 선임 애널리스트 닉 로다는 "일각에서는 데이터를 활용하기 위해 실행 가능한 환경을 설계하는, 데이터 플랫폼 아키텍트 역할로 보고 있다"고 말했다.

로다는 이어 “또 다른 사람들은 이를 ‘서로 다른 시스템의 기술적인 통합’, 거의 데이터 배관공 같은 것으로 간주하고 있다. 이 밖에도 데이터 분석과 현업의 요구를 좀더 이어주는 역할로 보는 시각도 있으며, 현업과 데이터 분석 모두에 능통한 사람으로 보는 경향도 있다”라고 설명했다. 

데이터 과학자를 어떻게 정의하건 간에 수요를 충족할만큼 충분한 인재는 없다고 그는 덧붙였다. 데이터 과학자가 사용하는 툴 분야가 빠르게 발전하고 있지만 이 툴들이 사용자들에게 낯설고 아직 완성된 수준이 아니라는 점을 감안하면 더 그렇다. 

데이터 과학자에게 필요한 4가지 자질

Sarah K. White | CIO

기업들이 고객에 대해 온갖 정보를 무수히 수집하고 있다. 동시에 최근 발생했던 일련의 보안 사고에서 개인 정보가 대거 유출된 것이 알려지면서 개인 데이터에 대한 관심이 고조되고 있다. 기업들은 수 많은 정보를 수집할 수 있다. 그러나 이들 데이터를 보호하는 것에도 만전을 기해야 한다. 기업들은 또 '정보 수집'과 '분류 및 분석'은 별개라는 사실을 깨닫고 있다.

데이터는 IT 부서와만 관련된 문제가 아니다. 여러 다양한 사람 및 부서와 관련이 있는 문제이다. 멤SQL(MemSQL)의 에릭 프렌키엘 CEO는 "데이터 과학자를 과거의 데이터베이스 관리자(DBA)처럼 볼 수 있겠다. 20~25년 전, DBA가 등장하던 것처럼, 오늘날에는 데이터 과학이 부상하고 있다. 데이터 과학은 수학, 여러 다양한 과학, 소프트웨어 및 컴퓨터 공학이 혼합된 분야다"라고 설명했다.

데이터가 증가하면서, 기업 서버에 축적되는 수 많은 정보를 활용할 수 있게 만드는 전문가를 찾는 수요도 증가하고 있다. 데이터 과학자에 대한 수요가 높다. 어쩌면 지금이야말로 이 분야에 뛰어들 적기다. 프렌키엘은 여러 빅데이터 전문가를 면접한 결과, 이들에게 중요한 자질 4가지를 파악했다고 밝혔다.


Credit: Thinkstock

'열린 마음'을 갖고 있어야 한다

IT 분야는 여러 다양한 방식으로 원하는 목표와 성과를 추구할 수 있다. 이를 염두에 두면 데이터 과학자가 되는데 도움이 될 것이다. 프렌키엘은 수 많은 기술 플랫폼이 존재하며, 매일 새로운 기술이 등장한다고 지적했다. 따라서 자신의 방식만을 고집해서는 최상의 성과를 일궈낼 수 없다.

프렌키엘은 이를 '멀티-모델 접근법(Multi-model approach)'라고 표현했다. 그러면서 "기술이 발전함과 동시에 다양한 방법으로 소프트웨어를 다룰 수 있어야 한다. 또 하나 이상의 도구를 갖고 있는 것이 정말 중요하다. 전체 생태계에 정통한 가운데, 생태계의 특정 부분에 전문성을 갖춰야 한다"라고 설명했다.

특히 수 많은 데이터를 가장 효과적으로 처리하는 방법을 찾기 위해 민첩성과 열린 마음을 유지해야 한다고 그는 강조했다. 비즈니스 성과를 높이는 수단으로 데이터를 활용할 수 있는 새로운 방법, 도움이 되는 방법을 지속적으로 찾아야 한다.

자신의 직업에 목적 의식을 갖고 있어야 한다

확실한 목적 의식을 갖고 데이터 과학 분야에 뛰어 들어야 한다. 고용 안정성이나 높은 연봉만이 목적이 되어서는 안 된다. 데이터의 '넓이', 데이터가 자신이 재직한 기업은 물론 사회에 미치는 영향까지 이해하고 있을 필요가 있다.

기업들은 데이터에 목말라 있다. 그러나 고객의 개인 정보를 다루는 과정에 보안과 개인정보 보호에 관한 문제가 발생한다. 데이터가 가져올 긍정적인 영향, 데이터를 이용해 기업의 성장과 세상의 성장 및 발전을 도울 방법에 초점을 맞춰야 한다고 프렌키엘은 강조했다.

네트워크(인맥)를 구축한다

직업과 상관없이 중요한 충고일 수 있겠지만, 네트워킹(인맥 구축)은 빅데이터 분야에서 커리어를 발전시키는데 큰 도움을 준다. 사무실 밖으로 나가, 데이터에 초점이 맞춰진 컨퍼런스나 회의에 참석하면서 업계 종사자와 교류해야 한다. 업계 종사자와 교류하고, 소셜 미디어와 컨퍼런스, 개인적인 만남을 통해 최신 기술에 대한 정보를 습득하면 지금 당장의 업무는 물론 향후 커리어 발전에도 도움이 된다.

최신 기술을 계속 습득한다

빅데이터 분야의 최신 기술을 계속 습득하면서 전문성을 유지해 나가야 한다. 새로운 소프트웨어와 툴을 시험해 본다. 또 깃허브(GitHub) 등 사이트에서 무료 소프트웨어 사본을 받아 이용하면서 최신 기술을 습득한다. 그러면 자신이 재직한 회사에 효과가 있는 방법, 효과가 없는 방법을 알 수 있다. 또 새로운 도구가 출시되면 이에 대한 정보와 기술을 습득해야 한다.

빅 데이터 분야에 뛰어들기 위해 새로 교육을 받을 필요는 그리 많지 않다. IT나 기술에만 국한된 분야가 아니기 때문이다. 기업의 모든 부서와 관련이 있는 분야이다. 비즈니스나 마케팅 경력이 컴퓨터 공학 관련 경력만큼 도움이 되는 분야이기도 하다.

프렌키엘은 SQL에 관한 책을 읽는 것이 좋은 출발점이라고 충고했다. 이런 방법으로 자신의 경력과 지식을 보강하면, 빅데이터 분야의 커리어를 추구할 수 있다는 설명이다. 프렌키엘은 "마케팅, 세일즈 분야 종사자, 프로젝트 매니저라도 학교 교육 없이, 지금 당장 빅 데이터 기술을 습득할 수 있다"라고 말했다. 


로다는 "현재 데이터 과학자들의 주된 업무가 계획을 수립하고 구축하거나 코딩하는 것이다. 하지만 빅데이터 분야의 예상된 발전으로 인해 더 나은 미래에 대한 희망이 존재한다"라고 강조했다.


하버드 비즈니스 리뷰 HBR 선정 21세기 가장 섹시한 직업 1위에 빛나는 데이터 사이언티스트에 많은 인재들이 관심을 보이고 있다. 이에 다소 생소한 영역으로 인지되는 분을 위해 무엇을 하는 직업인지를 설명하고 관심을 평소 갖고 있던 분들을 위해서는 실제 선배 데이터 사이언티스들의 생각과 업무와 그들의 신념을 소개해보고자 한다. 이미 우리는 데이터가 중요한 것을 알고 있고 그 데이터를 어떻게 활용하고 본인이 속한 비즈니스 영역이나 산업계 또는 사회를 위해 활용할지 고민 중일 것이다. 그러나 데이터 사이언티스는 단순한 직업이 아니다. 쉽게 말해 문과 출신인데 프로그래밍을 하는 느낌이기도 하고 개발자인데 말을 잘하는 특성도 있는 매우 특별한 존재이기도 하다. 그런 잡학다식한 사람이 되기 위해서는 우선 빅데이터의 역사를 이해할 필요가 있다. 웹서버 로그와 검색엔진이 문서화되고 온라인 광고, SNS, 교통정보, 인문사회, 과학, 의료, IOT, 논문자료 등이 기존에는 컴퓨터 1대로는 저장 및 처리가 되지 않고 분산화되어 있었다. 그러나 하둡(Hadoop) 기술의 등판으로 위 작업이 개인 PC 1대로 가능한 시대가 온 것이다. 특히 분석과 예측 분야에서 필요한 언어가 오픈소스와 되었고 (위 오픈소스는 뒤에서 자세히 정리) AWS(아마존 웹 서비스)등의 클라우드를 통해 폭발적인 성장이 시작되었다.

데이터 사인언스 분야 유관 트랜드 검색량 

데이터 사이언스에 대한 폭발적인 성장과 이제 개화를 시작한 이 분야에 관심을 가진 분들이 가장 어려워하는 부분은 영역의 구분이라 본다. 기존 통계학 전공자들이나 경제, 경영학 기반에서 데이터 사이언스에 관심을 보인 분들과 엔지니어링 영역에서 이 분야로 커리어 전환을 기대하는 분들도 다수 보아 왔다. 그래서 크게 5가지 영역을 구분하여 데이터 사이언스 영역을 구성하고 어느 영역에 무게 중심을 실어야 할지 나름의 고찰을 정리해 보았다. 

우선 데이터 사이언스에게 필요한 핵심 역량은 통계적 사고이다. 가장 익숙한 엑셀부터 SPSS나 SAP과 같은 분석기술을 활용하던 통계적 활동은 이제는 R이 등장하면서 현직 데이터 사이언티스들은 학습과 변화를 시도했다. 특히 오픈소스로 만들어진 R은 처음 화면에서 주는 허접함이 당황감을 줄 수도 있지만 배우면 배울수록 실행하면 실행할수록 그 견고함과 깊이에 매료된다. 저자가 아는 S통신사 데이터 사이언티스트는 삶의 80%를 R로 작성하고 심지어 스케줄링도 이 툴로 한다고 하니 그 활용범위가 매우 넓다고 할 수 있다.

두 번째로 머신러닝 지식이다. 대표적으로 구글의 덴서플로를 추천하고 싶다. 쉬운 영역은 아니지만 머신러닝에 대한 지식은 앞으로 꾸준히 준비를 해야 한다. 처음 스타트는 코세라의 엔듀르 응(Andrew Ng) 교수의 강의로 시작하는 것을 추천한다.

세 번째로 수학적 사고이다. 한국의 수학은 어렵기로 유명해서 많은 수포자(수학포기자)를 양성했지만 혹시 수학을 학창 시절 좋아하지 않았어도 너무 걱정할 필요는 없다. 최고급 테이터 사이언티스를 희망한다면 고급 수학까지 접근을 하겠지만 데이터 사이언티스로서 필드에서 활동하는 범위에서는 선형대수, 회기 분석 등의 이름은 어렵지만 배우고 활용하면 재미있는 영역이 즐비하기 때문이다.

네 번째는 코딩이다. 많은 문과생 또는 출신들이 부담을 느끼겠지만 그래도 파인 썬이 등장하면서 우리에게 희망을 주었다. 파이썬을 정말 잘 만들어진 프로그래밍이고 배우고자 하고 포기하지 않는 의지가 있으면 데이터 분석에 필요한 접근에 날개를 달아 줄 것이다.

마지막으로는 도메인 지식이다. 사실 가장 중요한 것은 마지막에 있듯이 실상 데이터 사이언스의 하루를 살펴보면 사람들과 커뮤니케이션을 하는 일이 많게는 50% 이상일 때도 있다. 이때 기본적인 의사소통이나 설득능력이 필요한데 이때 본인 기반의 전공지식이나 중점 영역이 없으면 상대가 바로 안다. 데이터 사이언티스트가 주로 대화하는 사람들은 조직의 상위 직책이나 똑똑한 사람들이다. 그동안 데이터 사이언티스를 준비하는 분들을 보면서 본인이 스마트하다고 생각하는 분들이 대부분이 었지만 상대가 그렇게 생각해주는 경우는 바로 도메인 지식이 명확할 때이다. 그래서 금융이면 금융, 통신이면 통신, 제조면 제조 등 본인 필드가 있다면 살리고 아직 부족하다면 선택과 집중을 명확히 할 필요가 있다.

한마디로 쉽지 않은 직업이고 영역이다. 그러나 현시대에 데이터 사이언티스트만큼 각광받는 직업도 드물다. 글라스 도어에서 가장 유망한 직업 1위로 선정한 이유도 여기에 있지 않을까 한다. 

역시 No pain. No gain. 인과응보이며 고통 없이 얻을 수 있는 것은 별로 없다.

데이터 사이언티스트 5대 역량


Machine Learning is not a branch of Data science. Machine Learning originated from Artificial Intelligence. Data science is only using ML as a tool. The reason is that it produces amazing and autonomous results for specific tasks;

Finishing my answer with all types of analytics that together get closer to encompass the Data Science definition:

Ref.: Descriptive Diagnostic Predictive Prescriptive Analytics

Have a safe journey!

[Update: 2018–02–17] I’ll be going through these +101 answers (which 18 are collapsed) to update my answer someday. There are some really good answers on this question, but I personally don’t recommend to take advises from people that aren’t researchers, professors or professionals. This people are also known as aficionados, enthusiasts, 190+ IQ etc.
[Curiosity] If you analyse the most famous diagram that defines mechatronics, you are probably going to see some similarities. Humans when faced with complex problems, tend to be predictable (e.g. create diagrams to explain to others).

Ref.: Wikipedia

Always upvote answers that you find useful. Everyone can be wrong so be respectful and polite.

Michael Hochster, Head of Research at Pandora

Answered Jan 17 2014 · Upvoted by Alex Blocker, Staff Statistician at GRAIL, Xoogler, statistics PhD and Sean Gerrish, CS PhD from Princeton; ex Google; ex quant finance · Author has 788 answers and 3.9m answer views

Data Scientists are people with some mix of coding and statistical skills who work on making data useful in various ways. In my world, there are two main types:

Type A Data Scientist: The A is for Analysis. This type is primarily concerned with making sense of data or working with it in a fairly static way.The Type A Data Scientist is very similar to a statistician (and may be one) but knows all the practical details of working with data that aren't taught in the statistics curriculum:  data cleaning, methods for dealing with very large data sets, visualization, deep knowledge of a particular domain, writing well about data, and so on. 

The Type A Data Scientist can code well enough to work with data but is not necessarily an expert. The Type A data scientist may be an expert in experimental design, forecasting, modeling, statistical inference, or other things typically taught in statistics departments. Generally speaking though, the work product of a data scientist is not "p-values and confidence intervals" as academic statistics sometimes seems to suggest (and as it sometimes is for traditional statisticians working in the pharmaceutical industry, for example). At Google, Type A Data Scientists are known variously as Statistician, Quantitative Analyst, Decision Support Engineering Analyst, or Data Scientist, and probably a few more.

Type B Data Scientist: The B is for Building. Type B Data Scientists share some statistical background with Type A, but they are also very strong coders and may be trained software engineers.  The Type B Data Scientist is mainly interested in using data "in production."  They build models which interact with users, often serving recommendations (products, people you may know, ads, movies, search results). 

At Google, a Type B Data Scientist would typically be called a Software Engineer. Type B Data Scientists may use the term Data Scientist to refer just to themselves, and since the definition of the field is very much in flux, they may be right. But I see the term being used most often in the general way I am proposing here. 

This categorization is crude. Many Data Scientists are some mix of A and B. But this answer is long enough already.

80k Views · View Upvoters · Answer requested by William Chen

Your feedback is private.

Is this answer still relevant and up to date?

Rahul Agarwal, Senior Statistical Analyst at Walmart Labs

Updated Dec 25 2015 · Author has 132 answers and 582.6k answer views

Data science is a form of Rebranding that was needed.

Before the Data Science trend, people who used to work with data were called Business Analysts. Statisticians. Computer Scientists. Data analysts. _____.____(Put More data titles here).

Now they are called Data Scientists. That's it.

The Need of the Rebranding:

Somewhere along the way we recognized the power data could bring. The volume, velocity and variety of data needed people who could handle such sort of data.

Now a basic problem arised when people who were statisticians were not able to handle these copious large amounts of data. While people who were Computer scientists were not able to formulate proper analysis on the data to get good value out.

This led to the term of Data Scientist, which people have explained in many different ways. One I like the most is:

Now where do you get such people? You need to create such Job Titles which demand these skills. And hence the Rebranding took its roots.

The Skillset Required:

Skillset required for Data Science position may vary a lot based on different organizations. I like to bifurcate it into Fundamental knowledge and Tool based knowledge.

1. Fundamental Requirements:

a) Linear Algebra: To understand various algorithms.

b) Multivariable Calculus: To understand various algorithms.

c) Probability and Statistics: To understand various algorithms.

d) Coding in at least one Language preferably Python/R: Scripting and Development.

e) SQL and Excel: Probably the two tools you will use the most.

f) Knowledge of machine Learning algorithms:

Rahul Agarwal's answer to What are the top algorithms that every data scientist should have in their toolbox?

Rahul Agarwal's answer to How smart do you need to understand the algorithms and maths behind machine learning?

2. Tool Based Requirements:

a) Scikit-Learn/Caret for Machine Learning: Rahul Agarwal's answer to What are the best data science MOOCs?

b) Hadoop/Spark for Big Data: Rahul Agarwal's answer to How do you learn big data?

c) I am recently seeing job openings that demand Javascript and knowledge of Web frameworks for Data Science jobs.

What Data Science is Not:

1. Data Science is not Magic: although it might feel like that to some. You don't get predictions using a crystal ball you get predictions using data. And wherever data is involved, no magic is involved. Data Science is just a way to take Data driven Decisions. Data Science alone won't solve all of your problems.

2. Data Science is not Easy: There are a lot of additions happening nearly everyday to the field that would require people to read ad learn a lot everyday. You need to learn about old algorithms, you need to learn about new algorithms and then you would have to continue working side by side. This is not to discourage people, actually it is one of the things that attracts me a lot towards this field. I feel fascinated about the kind of learning opportunities and scope in this domain.

3. Data Science is not a FadRahul Agarwal's answer to Is data science a fad? How long will it continue to grow as a field?

4. Data Science is a Unicorn: Actually nobody quite knows what the exact definition of data Science is. To give you a perspective here is Drew Conway 2.0for you(not made by Drew Conway). Everyone has his own opinion of data science.

5. Data Science is not Sexy:  Data science has been tagged particularly as the sexiest job of the 21st century by Hal Varian. I disagree. Data Science is tedious.A lot of time is used up in data wrangling, tuning and other mundane stuff. HBR: The Sexiest Job of the 21st Century is Tedious, and that Needs to Change

Although I would still call it the most experimental/ interesting job out there. The possibilities of what you could do with the data are still endless: Rahul Agarwal's answer to What are some best practices in Feature Engineering?

6. Data Science itself is not predictable: Getting insights from data needs creating hypotheses and then work towards disproving them. And most of them actually end up getting disproved. There would be issues with your data and it might take time to resolve them. You may go days without getting a valuable valid hypothesis. What this means is that It would take time to gain value from your data and you cannot delve on deadlines. One of the profs of CS109, a course I highly recommend said: "under promise and over deliver" is one of the basic trait of a data scientist.

25.8k Views · View Upvoters

Your feedback is private.

Is this answer still relevant and up to date?

Saurabh Singh, works at Jindal Steel & Power Limited

Answered May 31

Data science is the study of where information comes from, what it represents and how it can be turned into a valuable resource in the creation of business and IT strategies. Mining large amounts of structured and unstructured data to identify patterns can help an organization rein in costs, increase efficiencies, recognize new market opportunities and increase the organization's competitive advantage.

Breaking down 'Data Science': Data is drawn from different sectors and platforms including cell phones, social media, e-commerce sites, healthcare surveys, internet searches, etc. The increase in the amount of data available opened the door to a new field of study called Big Data or the extremely large data sets that can help produce better operational tools in all sectors. The continually increasing sets of and easy access to data are made possible by a collaboration of companies known as fintech, which use technology to innovate and enhance traditional financial products and services. The data produced creates even more data which is easily shared across entities thanks to emergent fintech products like cloud computing and storage. However, the interpretation of vast amounts of unstructured data for effective decision making may prove too complex and time consuming for companies, hence the emergence of data science.

How Data Science works: Data science incorporates tools from multi disciplines to gather a data set, process and derive insights from the data set, extract meaningful data from the set, and interpret it for decision-making purposes. The disciplinary areas that make up the data science field include mining, statistics, machine learning, analytics, and some programming. Data mining applies algorithms in the complex data set to reveal patterns that are then used to extract usable and relevant data from the set. Statistical measures like predictive analytics utilize this extracted data to gauge events that are likely to happen in the future based on what the data shows happened in the past. Machine learning is an artificial intelligence tool that processes mass quantities of data that a human would be unable to process in a lifetime. Machine learning perfects the decision model presented under predictive analytics by matching the likelihood of an event happening to what actually happened at the predicted time.

So its very prominent that Data Science has a very promising future and has a lot of scope. There is a massive shortage of human resources in this field, and especially in India; it is estimated that by 2019, there will be a shortfall of 1.5 million data scientist. Bearing this in mind, both students and professionals are all able to have an edge over all other applicants if they leverage their degree or a certification on the same. Some of the courses worth mentioning are:

Coursera-Data Science Specialization


: This Specialization covers the concepts and tools you'll need throughout the entire data science pipeline, from asking the right kinds of questions to making inferences and publishing results. In the final Capstone Project, you’ll apply the skills learned by building a data product using real-world data. At completion, students will have a portfolio demonstrating their mastery of the material.

Great Learning-Data Science & Engineering

: Great Lakes PGP-DSE (Full Time) is a 5-month full time program for fresh graduates and early career professionals looking to build their career in data science & analytics and move to roles such as business analysts, data analysts, data engineer, analytics engineer etc. by learning relevant data science techniques, tools and technologies, and hands-on application through industry case studies.

World Class Faculty: You gain from the decades of experience and expertise brought to the table by Great Lakes faculty in their chosen domains. Our faculty comes from leading international and national schools such as Harvard, Stanford, Kellogg, University of Chicago, IIMs, and IITs.

Microsoft- Professional Program for Data Science


: Microsoft consulted data scientists and the companies that employ them to identify the core skills they need to be successful. This informed the curriculum used to teach key functional and technical skills, combining highly rated online courses with hands-on labs, concluding in a final capstone project.

edX- Data Science Course

: Multiple course programs exist to get you on a path to a job as a data scientist. The Micro Master’s program teaches you essential Python programming needed to perform data tasks and explores machine learning and big data analytics using Spark. And completing a Micro Masters can jump start a data science degree or data science masters. The Programs feature multi-course tracks designed to give you in-depth knowledge and training.

I would personally recommend Great Learning’s Post Graduate Program in Data Science & Engineering considering Great Lakes being the no. 1 analytics school in the country with great industry connects and the highest no. of transitions of alumni into Analytics.

All the best and I hope this answer was useful.

520 Views · View Upvoters

Stephen Gelardi, former Instrumentation and Electrical Technician / SCADA

Answered May 3

Data science is a field of Big Data which seeks to provide meaningful information from large amounts of complex data. Data science, or data-driven science, combines different fields of work in statistics and computation in order to interpret data for the purpose of decision making.

BREAKING DOWN 'Data Science'

Data is drawn from different sectors and platforms including cell phones, social media, e-commerce sites, healthcare surveys, internet searches, etc. The increase in the amount of data available opened the door to a new field of study called Big Data — or the extremely large data sets that can help produce better operational tools in all sectors. The continually increasing sets of and easy access to data are made possible by a collaboration of companies known as fintech, that use technology to innovate and enhance traditional financial products and services. The data produced creates even more data which is easily shared across entities thanks to emergent fintech products like cloud computing and storage. However, the interpretation of vast amounts of unstructured data for effective decision making may prove too complex and time consuming for companies, hence, the emergence of data science.

History of Data Science

The term data science has been floating around for the better part of the last 30 years, and was originally used as a substitute for "computer science" in 1960. It wasn't until about 15 years later that the term was used to define the survey of data processing methods that are used in different applications. In 2001, data science was introduced as an independent discipline. The Harvard Business Review published an article in 2012, calling the data scientist the “sexiest job of the 21st century.”

How Data Science Works

Data science incorporates tools from multi disciplines to gather a data set, process and derive insights from the data set, extract meaningful data from the set, and interpret it for decision-making purposes. The disciplinary areas that make up the data science field include mining, statistics, machine learning, analytics, and some programming. Data miningapplies algorithms in the complex data set to reveal patterns which are then used to extract useable and relevant data from the set. Statistical measures like predictive analytics utilize this extracted data to gauge events that are likely to happen in the future based on what the data shows happened in the past. Machine learning is an artificial intelligence tool that processes mass quantities of data that a human would be unable to process in a lifetime. Machine learning perfects the decision model presented under predictive analytics by matching the likelihood of an event happening to what actually happened at the predicted time.

Under analytics, the data analyst collects and processes the structured data from the machine learning stage using algorithms. S/he interprets, converts, and summarizes the data to a cohesive language that the decision-making team can understand. These areas mentioned are by no means a complete list of what data science involves. As the role of a data scientist is better understood, more skill sets will be added to the field that encompass sectors like data architecture, data engineering, and data administrator.

Data Scientist Defined

A data scientist collects, analyzes and interprets large volumes of data to help a company improve its operations. These professionals develop statistical models in order to analyze data and use different analytics to find patterns, trends and relationships in data sets. This information can be used to predict consumer behavior, while identifying business and operational risks. The data scientist is often a storyteller, presenting data insights in a simple manner to people at the organization.

The Role of Data Science Today

Data science has helped bring the financial industry into the tech-savvy era. Through the use of data science, companies are employing big data to bring value to its consumers. Banking institutions are capitalizing on big data to enhance their fraud detection successes. Asset management firms are using big data to predict the likelihood of a security’s price moving up or down at a stated time. Companies like Netflix mine big data to determine what its users are interested in, and uses this information to make decisions on what TV shows to produce and host. The company also uses the algorithms it has in place to create personalized recommendations on what to watch based on a user’s viewing history.

Read more: Educational Scientific Labs Equipments

474 Views · View Upvoters

Ji Li, data scientist

Updated Mar 23 2015 · Upvoted by Bhabani Mohapatra, Post Grad, Manipal University and Rishabh Agnihotri, Masters Candidate, Masters of Data Science

I have been a data scientist for about two years. Here are some quick thoughts on what I think data science is. Or, why don't we start with what data science is not.

First, data science is not a software engineering piece of work. That is, data science is not about building products or product features or systems or any related fancy things.

Second, data science is not a visualization piece of work. Creating the cool visual is neither the end goal nor the beginning part of how a data scientist works. Needless to say, data science is not about creating visually impactful infographics.

Third, data science is not a scientific piece of work. In particular, data scientists don't work in the academia. It is the industry's particular requirements and the business markets' call that makes the job of data scientist needed. Data scientists usually don't publish papers, and neither is the paper or book publishing business part of any data scientists' daily concerns.

Last but not least, I don't agree with the public view that data science is, at least mostly, statistics. Just to cite a quick story of myself. Once I was asked to hire someone to assist my work and ended up interviewing lots of applicants through phone. Many of the applicants came from the filed of statistical analysis and most of these applicants tended to sound really confident that he or she would be more than qualified for the role. However, I didn't end up calling any of them on-site. One thing I realized at that time was that statistical knowledge alone doesn't make a person qualified for assisting me effectively on the kind of data science work that I needed to do, for reasons I'll mention in a short while.

Now, we are ready to talk about what data science is. It's a thing that encapsulates some programming skills, some statistical readiness, some visualization techniques, and, last but not least, a lot of business senses. The kind of business sense that I in particular care about is the ability and willingness, sometimes eagerness, to translate any business questions into questions answerable using currently or forthcomingly available data within one's reach. In fact, it takes a special way of connecting all the dots in the random world full of data most of which you may not find immediately useful to make a working data scientist.

A data scientist, based on my current understanding, is the person who connects the dots between the business world and the data world. Similarly, data science is the craft that a data scientist utilizes to make this happen.

I'm going to share a favorite analogue of mine about data science. Doing data science is like preparing a meal. One starts with data munging, which includes but is not restricted to ETL (extract, transform, and load), data cleansing, data debugging, etc. This is the step similar to preparing the food source, where you rinse cleans the vegetables, the meat, and the rice, chop the food source into reasonably sized pieces, and put them aside. After that is done, you are ready to cook the food source, which corresponds to data exploration, feature construction, feature reduction, running and ensembling the algorithms, etc. This is when you cook the vegetable and meat in a step-by-step fashion, adding ingredients and sources on particularly calculated timing, and watching the raw material turn into edible pieces. The last step is to serve the food, when you arrange the cooked food in artistic ways and serve them in a particular sequence of first course, second course, etc, to customers who ordered the food to begin with. This is when you prepare your data mining results in artistic visualization and create reports or data stories to send to the business users who wanted this piece of data science work to be done on the first place.

Summarizing the above, the process of data science consists of data munging, data mining, and delivering actionable insights. Based on my own experience, a common toolset to get all or part of these done include Python, R, Tableau, SQL, etc.

Python is particularly handy as an all-purpose tool especially great for data munging. It can also be used for data mining, thanks to the almighty scikit-learn package, and even insight delivering based on its fast growing graphing abilities.

R is a bit shy on data munging compared to Python. However, because of its nature of being "statistically complete" - a word I just made up, meaning that any statistical thingie you have ever heard of is most likely already represented by a R package, or two - R is great for exploring the data and running algorithms on different parameter settings. This makes R a great tool for prototyping data science - for example, to identify the key feature set as well as a good enough machine learning algorithm with parameter setting, before you start to write complicated production code for "real". In addition to the above, R is also powerful with its visualization packages and can be used to turn a repeatable data mining piece into a shiny report.
Talking about data visualization, Tableau is one of the best commercial software for visually explore your data. It is also handy for creating interactive visualization reports or data stories.

Besides Python, R, Tableau, there's one more data science tool that I want to mention before finishing this post. SQL is the language of English in the world of data munging, or at least have been so for a very long time. It is powerful in integrating different data sources, and handy for data exploration and data debugging.

These are just my two cents on what data science is. I hope it make sense to you so far. I'm still a learner, and merely a beginner in this field, and I expect to pick up a lot more and deeper understanding on this subject matter in the near future.

23.6k Views · View Upvoters

Sandeep Dayananda, Data Science & Machine Learning Enthusiast

Answered Dec 6 2017 · Author has 52 answers and 120.6k answer views

I am happy to share my knowledge on Data Science. I have got to work on Data Science through projects in R and Python Programming. To help you out with Data Science, let me give you a quick guide into what Data Science is.


Data Science involves using automated methods to analyze massive amounts of data and to extract knowledge from them.

There are 3 important sciences which are form Data Science. These are:

Computer Science

It is the combination of all the 3 sciences and every Data Science project involves using them to attain the results required. By combining aspects of statistics, computer science, applied mathematics and visualization, data science can turn the vast amounts of data the digital age generates into new insights and new knowledge.

Go through our blog on What is Data Science to completely understand the important concepts involved. I would like to recommend Edureka’s blogs on Data Science. Check out these blogs which have all the basic content required to clear a Data Science Interview.

Top 35 Data Science Interview Questions

Data Science Tutorial


Data Science Blogs

So after you go through these, you can also check out our Data Science TrainingYouTube playlist.


Data Science has the following components:


Statistics is a branch of mathematics dealing with the collection, analysis, interpretation, presentation and organization of data.


Visualization is when we display the results of Data Science analysis in a simpler way using diagrams, charts and graphs.

It improves decision making, sense of work, customer relationship and financial performance.


Machine Learning explores the study and construction of algorithms that can learn from and make predictions on data.


Deep learning is one of the only methods by which we can circumvent the challenges of feature extraction in machine learning. This is because deep learning models are capable of learning to focus on the right features by themselves, requiring little guidance from the programmer.

Therefore, we can say that Deep Learning is:
 1. A collection of statistical machine learning techniques
 2. Used to learn feature hierarchies
 3. Often based on artificial neural networks 

예시년 하버드 비즈니스 리뷰가 21세기 가장 섹시한 직업으로 데이터 사이언티스트(Data Scientist)를 꼽으면서 이 새로운 직업은 전세계 수많은 사람들의 관심을 끌게 됐다. 이 용어가 나온 근원지인 미국 채용 시장을 잘 보여주는 구인구직 서비스 인디드(의 2016년 리포트 ‘미국에서 가장 연봉이 높은 기술 직업은?’을 살펴보면 기술 직업 15개 중에서 IT보안 전문가와 소프트웨어 아키텍트의 뒤를 이어 데이터 사이언티스트가 3위를 차지하고 있다. 직군 별 연봉 및 기타 상세한 정보들을 살펴볼 수 있는 페이스케일(을 살펴봐도 데이터 사이언티스트는 높은 연봉이 보장된 커리어 성장 패턴을 보이고 있음을 확인할 수 있다. 

데이터 사이언티스트 직군의 연봉 분포 [사진 출처 : 페이스케일]

한국에는 이러한 정보들을 체계적으로 보여주는 서비스가 아직 없어 수치로 말하기는 어렵지만 거의 모든 크고 작은 기업들이 데이터 사이언티스트를 뽑고 싶은데 마땅한 사람이 없어서 못뽑는다고 하소연을 하고 있다는 얘기를 직간접적으로 전해듣고 있다.  공급대비 수요가 부족하면 당연히 몸값이 올라가기 마련이고 실제로 데이터 사이언티스트의 연봉은 국내 역시 꽤 높게 형성돼 있다. 

그러나 이렇게 인기 있는 직업의 경우 자연스럽게 몸값 거품도 있기 마련이이다. 특히 채용 담당자가 제대로 평가하기 어려운 신종 직업이라는 점을 노려 데이터 사이언티스트라고 하기에는 사실상 부적절한 역량과 업무 경험을 가진 사람들이 스스로를 데이터 사이언티스트라고 주장하면서 채용 담당자들과 기업들을 골탕 먹이는 경우도 점점 많아지고 있다. 

이처럼 ‘뜨거운 감자’인 데이터 사이언티스트 분야에 종사하려고 마음을 먹었다면 어떻게 해야 시장에서 실질적으로 인정받는 성과를 내는 사람으로 성장할 수 있을지 궁금할 것이다. 뽑는 입장에서도 어떻게 성장해 온 사람이 진짜 일 잘 해서 성과를 내는 데이터 사이언티스트일지 궁금할 수밖에 없다. 이 용어 자체가 2008년에 링크트인(LinkedIn)의 데이터 제품 총괄이었던 DJ 파틸이 ‘우리 같은 일을 하는 사람들이 데이터 사이언티스트다’라고 말한 것에서 나온 것이기 때문에 역사가 채 10년도 안됐으며 산업 현장에서 나왔기 때문에 학술적으로 정교하게 정의가 된 용어도 아니다. 고로 객관식 답안지처럼 용어의 명확한 뜻과 이 커리어를 밟기 위한 정형화된 공식이 존재하지도 않는다. 

물리 법칙을 연구하는 과학이 물리학이고 생명체의 법칙을 연구하는 과학이 생명과학인 여타 과학들과 달리 데이터 사이언스는 데이터를 연구하는 과학이 아니라 현실 세계의 다양한 문제, 보통은 비즈니스와 밀접한 관계를 갖고 있는 문제를 데이터를 통해 해결하는 절차와 방법을 통칭한다. 따라서 과학과 산업의 융복합, 다양한 학문들간의 융복합이 자연스러운 영역이기 때문에 정형화된 순차적인 커리어보다는 다양한 커리어와 역량의 융복합이 일반적이다. 한국 및 세계의 뛰어난 데이터 사이언티스트들을 살펴봐도 그 배경이 정말 다양하다는 것을 알 수 있다. 

위키피디아에서 이야기하는 데이터 사이언스의 절차 [사진 출처 : 위키피디아]

그러나 공식화된 성장의 지름길은 없지만 현업에서 성과를 제대로 내는 데이터 사이언티스트들이 노력해 쌓은 역량들을 이들이 현업에서 해결해야 하는 일의 성격과 연결해 정리할 수는 있다. 21세기에 가장 섹시하다는 이 새로운 커리어를 관심있게 보는 사람에게는 이번 정리가 도움이 될 것이다. 앞으로 두회에 걸쳐 8가지 특징을 살펴볼 것이며 순번에 따른 우선순위가 없다는 점을 미리 밝힌다. 

첫번째는 수학이다. 

데이터 사이언티스트는 세상의 여러가지 모습들을 숫자와 수식으로 표현하는 모델링을 수시로 하게 된다. 이렇게 해야 세상의 흐름을 읽고 예측해 연관된 비즈니스에 도움을 줄 수 있기 때문이다. 수치화 될 수 있는 수많은 데이터들의 대부분은 어디서 툭 튀어나온 것이 아니라 결국 세상의 한 부분에서 나온 것이기 때문에 데이터들을 보면서 세상을 읽는 작업도 밥 먹듯이 하게 된다. 즉 데이터로 세상을 읽고, 세상에서 모델을 설정해 데이터를 뽑아내는 쌍방향의 작업을 해야 하는데 이 기반이 되는 것이 바로 수학이다. 수학을 대학에서 제대로 공부한 사람, 예를 들어 수학 석사나 박사를 이수했다면 데이터 사이언티스트가 되기에 유리한 점으로 작용할 수도 있다. 그러나 데이터 사이언스에서 요구되는 수학적인 감각은 꼭 수학을 전공으로 아주 깊게 파고들지 않았어도 수학을 세상을 읽는 도구로서 제대로 느끼고 활용할 수 있다면 어느 정도는 이미 갖고 있는 역량이라고 볼 수 있다. 

두번째는 통계학이다. 

통계학의 근간은 결국 확률과 분포다. 데이터 사이언스에서는 수많은 데이터들을 활용해 우리가 해결하고자 하는 문제에 대한, 혹은 해결책에 대한 단서를 지니고 있는 분포와 패턴을 찾아낸다. 이러한 패턴의 분류는 머신러닝 등을 이용해 보완하거나 개량할 수 있지만 탐색적 데이터 분석(EDA)이라고 하는 데이터 사이언스의 앞단계 프로세스의 상당 부분은 사람이 통계학의 여러 방법론과 이론을 바탕으로 직접 수행해야 한다. 또 비즈니스에 도움이 되는 일의 상당수는 결국 앞으로의 기대 수익을 예상하고 그것을 벌 수 있는 조건을 구현하거나 재현하는 데에 초점을 맞추게 돼 확률적인 접근법이 필수다. 

한편 데이터 사이언스도 여타 과학과 마찬가지로 가설의 수립과 검증을 통해 논리적인 해결책을 도출하게 되는데 이 작업의 기본이 되는 것 역시 통계학의 방법론이다. 통계학은 다른 모든 과학에서도 기본이 되는 중요한 도구이며 데이터 사이언스에서도 마찬가지 역할을 하고 있다. 

세번째는 프로그래밍, 코딩이다. 

데이터 사이언스를 하는 과정에서 일반적으로 가장 많은 시간을 차지하는 작업을 멍잉(munging) 혹은 랭글링(wrangling)이라고 한다. 수많은 다양한 데이터들에 대해 모양을 바꿔가면서 살펴보거나 정제하거나 조합을 다르게 시도해보거나 하는 작업들을 지칭한다. 사람이 일일이 손으로 할 수 있는 작업이 아니며 엑셀이나 다른 보편적인 생산성 도구로 수행하기에도 데이터의 양이나 복잡도 등에서 큰 무리가 따른다. 따라서 이런 작업을 하기에 최적화된 프로그래밍 언어로 코딩을 해서 해결하거나 가급적 자동화해야 한다. 

데이터 사이언스의 코딩에서 많이 활용되는 프로그래밍 언어는 파이썬, R, SQL 로 축약될 수 있다. 이 언어들이 데이터 멍잉과 랭글링에 최적화 된 기능들을 많이 보유하고 있기도 하고 데이터를 읽고, 쓰고, 살펴보고, 분석하는 데에 태생적으로 특화된 언어들이기 때문이다. 컴퓨터 과학을 전공으로 하면 프로그래밍과 코딩 역량에 있어서 가산점을 가져갈 수도 있지만 심지어 컴퓨터 과학 전공자 중에서도 코딩은 잘 못하는 경우도 있고, 비전공자라도 데이터 사이언스를 잘 하는 데에는 아무 문제 없는 수준으로 코딩을 배우고 익힐 수도 있다. 

데이터 사이언스 코딩에 많이 활용되는 대표적인 노트북 도구인 주피터 [사진 출처 :]

네번째는 바로 머신러닝이다. 

알파고가 뜨면서 이제는 딥러닝이나 머신러닝이라는 단어가 일반인들도 한 번쯤은 들어 봤을 법한 기술 용어가 됐다. 간단하게 핵심만 이야기하면 딥러닝은 머신러닝의 한 세부 기법이며, 머신러닝은 인간 고유의 본질적 능력으로 오래전부터 여겨져왔던 ‘분류’라는 인지 행동을 기계가 자동으로 하는 기법이라고 볼 수 있다. 분류라는 행동은 정치, 경제, 사회, 문화 곳곳에 알게 모르게 자연스럽게 녹아 있으며 인간이 생존할 수 있는 중요한 본능 역시 적군과 아군의 분류다. 바꿔 말하면 분류는 세상의 수많은 문제들을 푸는 데에 다양한 형태로 활용할 수 있으며 데이터 사이언스에서도 분류로 풀어야 하는 문제가 많을 수밖에 없는데 이것을 인간이 아닌 기계가 머신러닝이라는 이름으로 할 수 있게 되었다는 점은 많은 것을 시사한다.   

분류는 다시 두 가지로 나눌 수 있는데 보기들 중 어느 하나로 분류하면 되는 객관식처럼 선택지를 미리 알고 분류하는 경우와 선택지 자체를 몰라서 그냥 서로 다른 둘 이상의 집단이라고 경계선을 긋는 분류가 있다. 그러나 이같은 분류 내에 사실은 수많은 파생 형태와 고려 사항이 있기 때문에 머신러닝이라는 방법론을 따로 제대로 공부하고 연습하지 않고서는 그냥 툭 가져다가 쓸 수 없다. 단 머신러닝에 대해 본질적인 깊은 이해를 갖고 있지 않더라도 큰 무리 없이 데이터 사이언스의 목표를 달성할 수 있게끔 갈수록 머신러닝 및 딥러닝의 활용이 빠르게 쉬워지고 대중화되는 흐름에 있다는 점은 눈여겨 볼만하다. 

머신러닝의 구분 – 지도학습(Supervised Learning)과 비지도학습 [사진 출처 : 캠브리지스파크]

편집자 주 : 나머지 4가지 역량과 데이터 사이언티스트 커리어 계발을 위해 명심해야 할 점들은 2부에서 이어집니다. 

Domain Knowledge-기술지식

소프트웨어 뿐 아니라 대부분의 분야에서, Developer와 End User와의 커뮤니케이션은 쉽지 않습니다. 왜 그럴까요? End User의 도메인 지식(Domain Knowledge)이 부족하기 때문인데요. 도메인 지식에 대해 간단히 고민해 보았습니다. 물론 소프트웨어사업분야에 한정된 것입니다.

1) 조금 넓은 의미로 이해할 필요가 있다.
Wikipedia에 보면, “도메인 지식이란, 인간활동 영역이나 자율적인 컴퓨터활동이나, 다른 전문분야에서 사용되어지는 유효한 지식을 말한다.” (Domain knowledge is valid knowledge used to refer to an area of human endeavour, an autonomous computer activity, or other specialized discipline.)고 기술되어 있습니다.

소프트웨어 기술에서 Domain Knowlege라 한다면, 목표 시스템이 운영되는 환경에 대한 지식을 이야기합니다. 하지만, 창업이나 사업을 준비하다보면 Domain Knowlege를 조금 더 “넓은 의미”에서 이해할 필요가 있습니다.

2) 무엇을 도메인 지식이라고 할까?
의류브랜드 사장님이라면 컨셉 만으로 사업전략을 짜진 않습니다. 직접 만나보면 대부분 옷감, 나염의 종류, 세탁방법, 무게와 재질 등에 해박한 지식이 있습니다. 이런 준비없이 의류사업을 시작했다가 망한 경우를 주변에서 많이 보셨을 것입니다.

자동차 회사의 디자이너나 마케터도 마찬가지입니다. 엔진, 시트(재질, 질감, 내구성), 전기제품 등에 대한 지식이나 이해도가 결코 낮지 않습니다. 반도체, 건설, 백화점, 유통업도 마찬가지입니다.

현장에서 그 업무 도메인을 안다 이렇게 이야기 할 때는 보통 ‘기술지식’,  ‘업무지식’,  ‘재무지식’ 세 가지를 갖추었다고 생각합니다. 이 세가지는 산업분야마다 달라서 매번 새로 익혀야 하는 것들입니다.

3) 기술지식이 직접 생산수단이다.
시장을 돌아다니다보면, 종종 세부계획이 기술팀 없이 수립되기도 합니다. 또는 그냥 “구현자”로서의 조언 정도로만 치부되는 경우가 많습니다.

하지만, IT회사에서 기술지식을 모르고 제품기획이나 전략수립이 가능할까요? 경험적으로 불가능합니다. 현장을 모르고 만든 전략은 반드시 ‘구현’이나 ‘성장’ 단계에서 고꾸라지고 맙니다.

소프트웨어는 소비자에게 “효용가치를 주는 제품”이라는 측면에서 하드웨어와 동일합니다. ‘기술지식’이 ‘제품’ 자체를 의미하므로 ‘업무지식’이나 ’재무지식’에 못지 않게 중요합니다.

소프트웨어의 특성, 가치, 제작방법, 제작 후의 유지보수, 그에 필요한 기술지식 등을 이해하지 못하고, 어떻게 좋은 전략과 디자인이 나올까요? 사업논리에 묻혀 기술논리를 등한시 한다면 ‘제품’ 없이 제조업하겠다는 말과 동일합니다.

4) 개발팀이 일을 하는 당사자다.
여기서 개발팀이란 소프트웨어 개발자만 의미하지 않습니다. 디자이너, 기획자 등 ‘제품 제작 참여자 모두’를 말합니다.

– 개발팀을 시키는대로만 만드는 조직으로 인식하면 안된다.
– 개발팀이 의견을 능동적으로 개진할 수 있어야 한다.
– 그들의 에너지를 어떻게 받아들여서 활용할 것인가를 고민해야 한다.

즉, 개발지식이 없을 때는 개발팀 의견을 유도해서 듣고 고민할 필요가 있습니다. 그런데, 그것은 회사 분위기나 시스템에 따라 많이 좌우됩니다. 그리고, 그런 시스템을 만드는 것은 CEO나 CTO들의 역할입니다.

5) 사업을 이해할수록 기술지식은 성숙해진다.
개발팀의 의견들이 사업적으로 쓸만해지려면, 비즈니스에 대한 이해가 선행되어야 합니다.

중동지방의 기후특성이나 고객기호를 이해하지 못하고, 아랍 판매용 자동차를 만들 수는 없습니다. 중동지방은 밤낮의 온도차가 크고 모래바람이 심해, 도장 처리나 철판의 팽창,수축에 대한 심화 지식이 필요하기 때문입니다.

제작자라면 사업이해도가 높은 것이 매우 당연하면서 자연스러운 일입니다. 큰 회사건 작은 회사건 개발자들의 사업에 대한 이해가 없다면, 핵심과는 동떨어진 기술과 아이디어들로 많은 시간을 낭비하게 될 것입니다.

