토마스 데이븐포트 교수와 파틸 교수는 2012년 10월 하버드 비즈니스 리뷰에 '데이터 과학자 : 21세기 가장 섹시한 직업 (Data Scientist: The Sexxist Job of the 21st Century)라는 글을 개제하였습니다. 서로 어울릴 것 같지 않은 섹시, 직업 그리고 데이터라는 단어가 조합된 제목은 현재의 경영 전략의 방향을 알려줍니다. 이 글은 경험이나 감에 의한 의사 결정이 아닌 데이터에 기반한 의사결정을 하려는 현대 경영의 시작을 알렸습니다.
Goldman is a good example of a new key player in organizations: the “data scientist.” It’s a high-ranking professional with the training and curiosity to make discoveries in the world of big data. The title has been around for only a few years. (It was coined in 2008 by one of us, D.J. Patil, and Jeff Hammerbacher, then the respective leads of data and analytics efforts at LinkedIn and Facebook.) But thousands of data scientists are already working at both start-ups and well-established companies. Their sudden appearance on the business scene reflects the fact that companies are now wrestling with information that comes in varieties and volumes never encountered before. If your organization stores multiple petabytes of data, if the information most critical to your business resides in forms other than rows and columns of numbers, or if answering your biggest question would involve a “mashup” of several analytical efforts, you’ve got a big data opportunity.
골드만은 기업의 새로운 핵심 플레이어인 '데이터 사이언티스트'의 좋은 예입니다. 데이터 사이언티스트는 빅 데이터의 세계에서 발견할 수 있는 교육과 호기심을 갖춘 최고급 전문가입니다. 명칭은 몇 년 전부터 있었습니다. (그것은 2008년에 우리와 DJ 파틸과 제프 해머바처가 만들었고, 그들은 링크드인 및 페이스북에서 데이터와 분석 작업의 선두두자입니다.)그러나 수천 명의 데이터 사이언티스트들은 이미 스타트업과 유명 기업들에서 일하고 있습니다. 기업과 비즈니스 현장에서 그들의 갑작스러운 출현은 기업들이 이전에 만나지 못했던 다양성과 규모를 가진 정보를 다루고 있다는 사실을 반영합니다. 만일 기업이 다수의 페타바이트 데이터를 저장한다면, 비즈니스에 가장 큰 영향을 미치는 그 정보가 숫자의 행과 열이 아닌 형식으로 저장되어 있다면, 또는 당신의 가장 큰 질문에 대한 답이 몇 가지 분석 작업의 혼합이라면, 당신은 빅 데이터 기회를 가졌습니다.
Much of the current enthusiasm for big data focuses on technologies that make taming it possible, including Hadoop (the most widely used framework for distributed file system processing) and related open-source tools, cloud computing, and data visualization. While those are important breakthroughs, at least as important are the people with the skill set (and the mind-set) to put them to good use. On this front, demand has raced ahead of supply. Indeed, the shortage of data scientists is becoming a serious constraint in some sectors. Greylock Partners, an early-stage venture firm that has backed companies such as Facebook, LinkedIn, Palo Alto Networks, and Workday, is worried enough about the tight labor pool that it has built its own specialized recruiting team to channel talent to businesses in its portfolio. “Once they have data,” says Dan Portillo, who leads that team, “they really need people who can manage it and find insights in it.”
빅 데이터에 대한 현재의 상당한 열광은 하둡 (분산 파일 시스템 처리에 가장 널리 사용되는 프레임 워크), 관련 오픈 소스 도구, 클라우드 컴퓨팅 및 데이터 시각화를 포함한 제어가 가능한 기술에 집중합니다. 기술들이 중요한 돌파구 일 때, 최소한 기술들을 잘 활용할 수 있는 스킬세트와 마인드셋을 가진 사람들이 중요합니다. 데이터 사이언스 분야는 수요가 공급을 앞서고 있습니다. 실제로 데이터 사이언티스트의 부족은 일부 분야에서는 큰 제약이 되고 있습니다. 페이스북, 링크드인, 팔로 알토 네트웍스, 워크데이와 같은 회사를 후원했던 초창기 벤처 기업인 그레이락 파트너스는 포트폴리오 비즈니스에 인재를 할당할 수 있는 자신의 특화된 리쿠르팅 팀을 만들기 위한 인력풀에 대해 충분히 우력하고 있습니다. 그 팀을 이끄는 댄 포틸리오는 말했습니다. "기업이 데이터를 가지고 있을 때, 기업은 사람이 데이터를 관리하고 데이터에서 통찰력을 이끌어낼 사람이 필요합니다.
기업과 비즈니스 현장에서 데이터 사이언티스트들이 갑자기 많아졌습니다. 이유는 기업들이 전과 달리 다양하고 방대한 규모의 정보를 쌓아두고 있기 때문입니다. 기업은 쌓여있는 데이터에서 의미 있는 비즈니스 통찰력을 추출하고 경영에 적용하길 원하고 있습니다.
현재의 데이터 사이언티스트는 빅데이터를 다룰 수 있는 기술을 가진 사람들이 중요하지만, 시간이 지날수록 기술이 아니라 데이터에서 비즈니스 통찰력을 이끌어내는 사람들이 중요해질 것입니다.
그리고 여기서 언급된 하둡을 정리합니다. 하둡을 이해하기 위해서는 빅데이터가 무엇인지부터 알아야 합니다. 빅데이터는 전통적인 데이터베이스나 시스템에서 처리하기 힘든 빅데이터를 저장, 분석 및 처리하여 가치 있는 정보를 만들어 내는 일련의 과정을 의미합니다. 예를 들면, 뉴욕 증권 거래소는 하루에 1 테라바이트의 거래 데이터가 발생하고, 페이스북은 30 페타바이트의 사진을 가지고 있습니다. 이런 데이터를 처리하기 위한 플랫폼이 바로 하둡입니다. 하둡은 여러 개의 저렴한 컴퓨터를 마치 하나의 하나인 것처럼 묶어서 대용량 데이터를 처리하는 기술입니다. 수천 대의 서버를 대용량 파일을 저장할 수 있는 분산 파일 시스템, 저장된 데이터를 분산된 서버를 이용해 쉽고 빠르게 분석할 수 있는 컴퓨팅 플랫폼인 맵리듀스로 구성되어 있습니다.
이름이 하둡인 이유는 창시자인 아파치 루씬의 딸이 가지고 놀던 봉제 인형의 이름이 하둡이었거나 딸이 코끼리를 하둡이라고 발음하였다는 설이 있습니다.
기업의 입장에서는 데이터의 가치가 얼마나 중요한 지를 알지 못하는 상황에서 비싼 기존의 데이터베이스를 사용하지 않고, 값싼 하둡을 이용하여 처리할 수 있었기에 관심이 높아졌습니다. 하둡이 빠르게 퍼진 이유는 누구나 조금만 익히면 사용할 수 있을 정도로 사용하기 쉽고 편리하다는 점과 하둡의 부족한 기능을 보완해주는 하둡 에코 시스템이 있기 때문입니다.
플럼 (데이터 수집)
데이터를 수집하여 하둡 파일 시스템에 안정적으로 저장하는 솔루션
스쿱 (RDBMS)
기존 시스템의 데이터를 하둡에 로딩하거나 처리 결과를 다시 RDBMS에 저장할 수 있도록 도와주는 솔루션
엘라스틱 서치 (검색엔진)
데이터 검색
카산드라 (NoSQL)
대용량 데이터를 분산된 서버에 구적으로 실시간 저장 및 조회 기능을 제공하는 데이터 저장소
하이브, 피그 ( 하이레벨 스크립트)
하둡에 저장된 데이터를 맵리듀스 프로그램을 만들지 않고도 SQL과 유사한 스크립트를 이용해 데이터 처리
마후트 (기기 학습)
하둡 맵리듀스에서 실행되는 머신 러닝 라이브러리
휴 (모니터링)
하둡을 모터링 및 관리
주키퍼 (분산 코디네이터)
분산된 환경에서의 자원 제어 및 메타 데이터 관리