brunch

You can make anything
by writing

C.S.Lewis

by 라인하트 May 22. 2019

데이터 과학자: 21세기 가장 섹시한 직업 (3/6)

데이터 사이언티스트들은 누구인가?

   토마스 데이븐포트 교수와 파틸 교수는 2012년 10월 하버드 비즈니스 리뷰에 '데이터 과학자 : 21세기 가장 섹시한 직업 (Data Scientist: The Sexxist Job of the 21st Century)라는 글을 개제하였습니다. 서로 어울릴 것 같지 않은 섹시, 직업 그리고 데이터라는 단어가 조합된 제목은 현재의 경영 전략의 방향을 알려줍니다. 이 글은 경험이나 감에 의한 의사 결정이 아닌 데이터에 기반한 의사결정을 하려는 현대 경영의 시작을 알렸습니다. 


Who Are Those People? (그 사람들은 누구인가?)



   If capitalizing on big data depends on hiring scarce data scientists, then the challenge for managers is to learn how to identify that talent, attract it to an enterprise, and make it productive. None of those tasks is as straightforward as it is with other, established organizational roles. Start with the fact that there are no university programs offering degrees in data science. There is also little consensus on where the role fits in an organization, how data scientists can add the most value, and how their performance should be measured.



   빅데이터를 활용하는 것은 희소한 데이터 사이언티스트를 고용하는 데 달려 있다면, 관리자들의 과제는 그 인재를 식별하는 방법, 기업에 끌어들이는 방법 그리고 생산성을 높이는 방법을 배우는 것입니다. 그 과제들 중 어떤 것도 기존에 정의된 기업의 역할만큼 직관적이지 않습니다. 데이터 사이언스 분야의 제공하는 학위 프로그램은 없다는 사실부터 시작하십시오. 또한 기업에서 그런 역할을 수행하는 부서, 데이터 사이언티스트가 가장 큰 가치를 더할 수 있는 방법, 그들의 성과를 측정하는 방법에 대한 합의조차 없습니다. 


   The first step in filling the need for data scientists, therefore, is to understand what they do in businesses. Then ask, What skills do they need? And what fields are those skills most readily found in?


   따라서 데이터 사이언티스트를 고용하기 위한 첫 번째 단계는 기업에서 하는 일을 이해하는 것입니다. 그리고 데이터 사이언티스트들이 필요로 하는 기술이 무엇인지와 그 기술이 가장 쉽게 발견할 수 있는 분야는 무엇인지를 질문합니다. 



   More than anything, what data scientists do is make discoveries while swimming in data. It’s their preferred method of navigating the world around them. At ease in the digital realm, they are able to bring structure to large quantities of formless data and make analysis possible. They identify rich data sources, join them with other, potentially incomplete data sources, and clean the resulting set. In a competitive landscape where challenges keep changing and data never stop flowing, data scientists help decision makers shift from ad hoc analysis to an ongoing conversation with data.


   무엇보다도, 데이터 사이언티스트들이 하는 것은 데이터를 헤매는 동안 발견하는 것입니다. 그것이 세계를 탐색하기 위한 선호하는 방법입니다.  디지털 영역에서는 방대한 양의 비정형 데이터를 구조화하고 분석을 가능하게 합니다. 그들은 풍부한 데이터 소스를 식별하고, 잠재적으로 불완전한 데이터 소스와 결합하고 결과를 정리합니다. 도전과제는 계속 바뀌고 데이터는 계속 변화는 경쟁 환경에서 데이터 사이언티스트는 의사결정자가 임시방편의 분석에서 데이터에 기반한 대화로 전환하도록 도와줍니다.  


   Data scientists realize that they face technical limitations, but they don’t allow that to bog down their search for novel solutions. As they make discoveries, they communicate what they’ve learned and suggest its implications for new business directions. Often they are creative in displaying information visually and making the patterns they find clear and compelling. They advise executives and product managers on the implications of the data for products, processes, and decisions.


   데이터 사이언티스트들은 기술적 한계에 직면해 있다는 것을 알지만 그들은 새로운 솔루션을 찾는 것을 멈추지 않습니다. 그들이 발견하자마자, 그들은 그들이 배운 것을 의사소통하고 새로운 비즈니스 방향에 대한 영향을 논의합니다. 종종 그들은 시가적으로 정보를 제시하고 패턴을 명확하고 매력적으로 만드는 데 독창적입니다. 그들은 임원 및 제품 관리자에게 제품, 프로세스 및 의사 결정에 대한 데이터의 의미를 조언합니다. 


   Given the nascent state of their trade, it often falls to data scientists to fashion their own tools and even conduct academic-style research. Yahoo, one of the firms that employed a group of data scientists early on, was instrumental in developing Hadoop. Facebook’s data team created the language Hive for programming Hadoop projects. Many other data scientists, especially at data-driven companies such as Google, Amazon, Microsoft, Walmart, eBay, LinkedIn, and Twitter, have added to and refined the tool kit.


   데이터 사이언티스트들은 그들 자신만의 도구를 만들고 심지어 학술적 스타일의 연구를 하기도 합니다. 초기 데이터 사이언티스트들을 고요한 기업 중 하나인 야후는 하둡을 개발하는 데 큰 역할을 했습니다. 페이스북의 데이터 팀은 하둡 프로젝트를 프로그래밍하기 위해 하이브라는 언어를 만들었습니다. 다른 많은 데이터 사이언티스트들은 구글, 아마존, 마이크로소프트, 월마트, 이베이, 링크드인 그리고 트위커와 같은 데이터 기반 회사에서 툴킷을 재정의하거나 개발했습니다. 


   What kind of person does all this? What abilities make a data scientist successful? Think of him or her as a hybrid of data hacker, analyst, communicator, and trusted adviser. The combination is extremely powerful—and rare.


   어떤 종류의 사람들이 이 모든 것을 하나요? 데이터 사이언티스트를 성공적으로 이끈 능력은 무엇인가요? 데이터 해커, 분석가, 커뮤니케이터, 그리고 신뢰할 수 있는 조언자의 하이브리드로써 그들을 생각하십시오. 이런 조합은 매우 강력하고 희소합니다.



   Data scientists’ most basic, universal skill is the ability to write code. This may be less true in five years’ time, when many more people will have the title “data scientist” on their business cards. More enduring will be the need for data scientists to communicate in language that all their stakeholders understand—and to demonstrate the special skills involved in storytelling with data, whether verbally, visually, or—ideally—both.


   데이터 사이언티스트의 가장 기본적이고 보편적인 기술은 코드를 작성하는 능력입니다. 더 많은 사람들이 명함에 데이터 사이언티스트라고 적고 다니게 될 5년 후에는 사실이 아닐 수도 있을 것입니다. 더 중요한 것은 데이터 사이언티스트가 그들의 모든 이해 관계자 이해할 수 있는 언어로 의사소통하는 능력입니다. 데이터를 기반으로 말로 시각적으로 또는 둘 다를 사용하여 스토리텔링을 포함한 특정 기술을 말합니다. 


   But we would say the dominant trait among data scientists is an intense curiosity—a desire to go beneath the surface of a problem, find the questions at its heart, and distill them into a very clear set of hypotheses that can be tested. This often entails the associative thinking that characterizes the most creative scientists in any field. For example, we know of a data scientist studying a fraud problem who realized that it was analogous to a type of DNA sequencing problem. By bringing together those disparate worlds, he and his team were able to craft a solution that dramatically reduced fraud losses.


   그러나 데이터 사이언티스트들의 지배적인 성격이라고 말할 수 있는 것은 드러난 문제의 아래에 가서 핵심을 찾기 위한 질문을 하고, 테스트할 수 있을 정도로 매우 명확한 가설을 세우려는 호기심입니다.  이것은 종종 모든 분야에서 창의적인 과학자의 특징이기도 합니다. 예를 들어, 사기 문제를 연구하는 데이터 사이언티스트가 사기가 DNA 시퀀싱 문제와 유사하다는 것을 알았는 것을 생각해 봅니다. 이런 이질적인 세계를 하나로 결합하여 그와 그의 팀이 사기에 의한 손실을 획기적으로 줄일 수 있는 솔루션을 만들 수 있었습니다. 



   Perhaps it’s becoming clear why the word “scientist” fits this emerging role. Experimental physicists, for example, also have to design equipment, gather data, conduct multiple experiments, and communicate their results. Thus, companies looking for people who can work with complex data have had good luck recruiting among those with educational and work backgrounds in the physical or social sciences. Some of the best and brightest data scientists are PhDs in esoteric fields like ecology and systems biology. George Roumeliotis, the head of a data science team at Intuit in Silicon Valley, holds a doctorate in astrophysics. A little less surprisingly, many of the data scientists working in business today were formally trained in computer science, math, or economics. They can emerge from any field that has a strong data and computational focus.


   아마도 사이언티스트라는 단어가 왜 이 새로운 역할에 적합한 지 분명해지고 있습니다. 예를 들어 실험 물리학자는 장비를 설계하고 데이터를 수집하고 여러 실험을 수행하고 결과를 다른 사람과 의사소통합니다. 따라서, 복잡한 데이터를 가지고 일할 수 있는 사람을 찾는 기업은 물리 또는 사회 과학 분야에 교육과 업무 경험을 가진 사람들을 고용하였습니다. 가장 뛰어나고 명석한 데이터 과학자 중 일부는 생태학 및 시스템 생물학과와 같은 소수 학문 분야의 박사입니다. 실리콘 밸리의 인튜잇(Intuit)에 있는 데이터 사이언스 팀장인 죠지 로멜리오티스는 천체 물리학에서 박사 학위를 가지고 있습니다. 놀랍게도 오늘날 비즈니스 업계에 있는 많은 데이터 사이언티스트들은 컴퓨터 과학, 수학 또는 경제 분야에서 공식적으로 교육을 받았습니다. 그들은 강력한 데이터와 전산의 어떤 분야에서도 일할 수 있습니다.



   It’s important to keep that image of the scientist in mind—because the word “data” might easily send a search for talent down the wrong path. As Portillo told us, “The traditional backgrounds of people you saw 10 to 15 years ago just don’t cut it these days.” A quantitative analyst can be great at analyzing data but not at subduing a mass of unstructured data and getting it into a form in which it can be analyzed. A data management expert might be great at generating and organizing data in structured form but not at turning unstructured data into structured data—and also not at actually analyzing the data. And while people without strong social skills might thrive in traditional data professions, data scientists must have such skills to be effective.


   과학자의 이미지를 연상하는 것이 중요합니다. 왜냐하면 '데이터'라는 단어는 쉽게 잘못된 길로 인도할 수 때문입니다. 포틸리오가 말했듯이 "우리가 10년이나 15년 전에 봤던 사람들의 전통적인 배경은 오늘날 그대로 유지됩니다." 양적 분석가는 데이터를 분석하는 데는 뛰어나지만  엄청난 양의 비정형 데이터를 정제하거나 데이터를 분석될 수 있는 형태로 바꾸는 것은 못합니다. 데이터 관리 전문가들은 데이터를 정형화된 형태로 조직하거나 생성하는 데는 뛰어나지만, 실제로 데이터를 분석하는 것은 못합니다. 강력한 사교 기술이 없는 사람들은 전통적인 데이터 전문직에서 번성할 수 있지만, 데이터 사이언티스트는 효과적인 사교 기술을 갖추어야 합니다. 



   Roumeliotis was clear with us that he doesn’t hire on the basis of statistical or analytical capabilities. He begins his search for data scientists by asking candidates if they can develop prototypes in a mainstream programming language such as Java. Roumeliotis seeks both a skill set—a solid foundation in math, statistics, probability, and computer science—and certain habits of mind. He wants people with a feel for business issues and empathy for customers. Then, he says, he builds on all that with on-the-job training and an occasional course in a particular technology.


   로멜리오티스는 통계와 분석 능력에 기반하여 사람을 고용하지 않는다는 것을 분명히 했습니다. 그는 데이터 사이언티스트를 찾을 때 자바와 같은 주로 프로그래밍 언어로 시제품을 개발할 수 있는 지를 후보자들에게 질문합니다. 로멜리오티스는 기술, 통계, 확률 및 컴퓨터 과학과 같은 스킬 세트와 과학적 사고방식 두 가지 모두 요구합니다. 그는 비즈니스 문제와 고객에 대한 공감을 할 수 있는 사람을 원합니다. 그러고 나서 그는 실무 교육과 특정 기술에 대한 과정을 교육합니다.  



   Several universities are planning to launch data science programs, and existing programs in analytics, such as the Master of Science in Analytics program at North Carolina State, are busy adding big data exercises and coursework. Some companies are also trying to develop their own data scientists. After acquiring the big data firm Greenplum, EMC decided that the availability of data scientists would be a gating factor in its own—and customers’—exploitation of big data. So its Education Services division launched a data science and big data analytics training and certification program. EMC makes the program available to both employees and customers, and some of its graduates are already working on internal big data initiatives.


   몇몇 대학은 데이터 사이언스 과정을 론칭할 계획 중이며, 노스 캐롤라이나 주의 분석 프로그램에 석사 과정과 같은 기존 과정에 빅 데이터 실습 및 교과를 추가하려고 노력 중입니다. 또한 일부 기업은 자체적으로 데이터 사이언티스트를 양성하려고 노력 중입니다. 그룬플럼을 인수한 후, EMC는 데이터 사이언티스트들의 능력이 자신들과 고객들의 빅데이터 활용에 중요할 것이라고 판단했습니다. 그래서 교육 서비스 부서는 데이터 사이언스와 빅데이터 분석 교욱과 인증 프로그램을 론칭했습니다. EMC는 직원과 고객 모두에게 프로그램을 제공하고 일부 졸업생들은 내부 빅데이터 이니셔티브와 관련하여 일하고 있습니다.


   As educational offerings proliferate, the pipeline of talent should expand. Vendors of big data technologies are also working to make them easier to use. In the meantime one data scientist has come up with a creative approach to closing the gap. The Insight Data Science Fellows Program, a postdoctoral fellowship designed by Jake Klamka (a high-energy physicist by training), takes scientists from academia and in six weeks prepares them to succeed as data scientists. The program combines mentoring by data experts from local companies (such as Facebook, Twitter, Google, and LinkedIn) with exposure to actual big data challenges. Originally aiming for 10 fellows, Klamka wound up accepting 30, from an applicant pool numbering more than 200. More organizations are now lining up to participate. “The demand from companies has been phenomenal,” Klamka told us. “They just can’t get this kind of high-quality talent.”


   교육 서비스가 확산될수록 인재 풀이 확장되어야 합니다. 빅데이터 기술의 공급업체는 기술을 더 쉽게 사용하도록 만들고 있습니다. 그 사이에 데이터 사이언티스트는 차이를 좁히기 위한 창의적 접근을 시도하고 있습니다.  고에너지를 전공한 물리학자인 제이크 클람카가 설계한 인사이트 데이터 과학 연수 프로그램 하계의 과학자들을 6주 만에 데이터 과학자로 성공적으로 전환할 수 있도록 준비시킵니다. 그 프로그램은 페이스북, 트위커, 구글, 링크드인과 같은 현지 기업들의 데이터 전문가의 멘토링으로 실제 빅데이터 도전 과제에 과학자들이 노출되도록 합니다.  클람카는 원래 10명의 선임 연구원을 두는 것이 목표였지만, 200명이 넘는 지원자 풀에서 30명을 선발했습니다. 더 많은 기업들이 참가할 예정입니다. 클람카는 우리에게 말했습니다. "기업들의 수요는 환상적이었습니다. 기업들은 이런 종류의 고품질 인재를 얻을 수 없었습니다."



정리

    데이터 사이언티스트인 골드만이 링크드인에서 어떤 일을 수행하였는 지를 살펴보고, 데이터 사이언티스 또는 데이터 과학자의 역할을 정의했습니다. 여기서는 데이터 사이언티스트는 어떤 사람들인 지를 살펴봅니다. 


   데이터 사이언티스트 또는 데이터 과학자는 데이터 해커, 분석가, 커뮤니케이터, 그리고 신뢰할 수 있는 조언자의 등등의 조합입니다. 이들은 다음의 능력을 요구받습니다.



코딩
   데이터 사이언티스트의 가장 기본적이고 보편적인 기술은 코드를 작성하는 능력입니다. 데븐포트는 2012년에 향후 5년 후 데이터 사이언티스트가 많아지면 이 기술은 필수가 아닐 것이라고 했습니다. 2019년 현재 수많은 데이터 과학자가 명함을 파고 다니고 있습니다.

의사소통
   데이터 사이언티스트의 가장 중요한 능력은 모든 이해 관계자와 대화할 수 있는 능력입니다. 비즈니스 언어를 이용하여 임원들과 실무자들 설득하고, 데이터를 기반하여 데이터의 의미를 말로 시각적으로 표현할 수 있어야 합니다. 즉, 발표 능력이 중요합니다. 

호기심
   데이터 사이언티스트는 데이터를 보면서 끊임없이 질문하고 테스트하며 가설을 세워야 합니다. 명확하게 설계된 가설을 데이터로 입증해야 합니다. 이런 지루하고 반복적인 과정은 과학에서 가설과 검증을 하는 것과 같습니다.

 

사교 기술 (소셜 스킬)
   사교 기술은 전통적인 데이터 관리자와 데이터 사이언티스트를 구분 짓은 가장 강력한 잣대입니다. 전통적인 데이터 관리자들은 소셜 스킬이 없어도 번성해 왔지만, 데이터 사이언티스트들은 반드시 갖추어야 합니다.


   로멜리오티스는 데이터 사이언티스를 고용할 때 다음과 같은 능력을 살핍니다. 나머지 실무 교육과 특정 기술에 대한 것은 별도의 과정으로 교육합니다. 

 

통계와 분석 능력에 기반하여 사람을 고용하지 않음

자바와 같은 주로 프로그래밍 언어로 시제품을 개발이 가능한 자

기술, 통계, 확률 및 컴퓨터 과학과 같은 스킬 세트

과학적 사고방식

비즈니스 문제와 고객에 대한 공감 능력


   데븐포트의 예측대로 2019년 현재 데이터 사이언스 분야가 성장하면서 데이터 엔지니어와 데이터 사이언티스트로 나뉘고 있습니다. 데이터를 모으고 관리하고 시스템을 개선하는 사람들을 데이터 엔지니어라 정의하고, 모여진 데이터를 기반으로 통찰력을 이끌어 내고 비즈니스에 도움이 되는 결과를 만들어내는 사람들을 데이터 사이언티스트라 합니다. 



매거진의 이전글 데이터 과학자: 21세기 가장 섹시한 직업 (2/6)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari