모던 데이터인프라 혁신 이끄는 톱50 스타트업 해부한다

May 1. 2022

학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 이번 글은 안드레센 호로위츠가 운영하는 미디어 퓨처에 올라온 글을 정리한 것입니다.

빅데이터 아이디어가 처음 나온 후 10여 년이 지나, 데이터는 대형 엔터프라이즈들과 신생 스타트업들에 걸쳐 계속해서 가장 중요한 하나이자 중요하고 무섭게 성장하는 혁신 주도자들 중 하나가 되고 있다.

비즈니스 운영들에 기본이 되는 것을 살피는 것부터 머신러닝을 통해 지능적으로 일상 작업을 자동화하는 것까지 데이터는 모든 크기들 조직들에서 의사 결정을 위한 신경 시스템에서 핵심이 되었다. 나아가 데이터 사용은 이제 데이터 사이언티스트들, 데이터 애널리스트들, 데이터 엔지니어들을 훨씬 뛰어넘어 모두가 데이터 생산자이자 소비자가 되는 상황에 이르고 있다.

데이터에 대한 이렇게 커진 집중의 결과: 데이터를 관리하는 비즈니스는 이미 가장 빠르게 성장하는 인프라 영역 중 하나가 됐다. 추정되는 가치는 700억달러 이상이다. 2021년 엔터프라이즈 인프라 지출에서 5분의 1 이상을 차지하고 있다. 이 시장 형성에서 멋진 것은 클라우드 컴퓨팅 동력의 조류를 타면서 소프트웨어 엔지니어링, 분석, 그리고 인공지능 분야를 결합한다는 것이다.(아키텍처적인 진화와 이 거대한 트렌드 뒤에 있는 동력에 대한 보다 많은 내용은 2022년 업데이트된 모던 데이터 인프라스트럭처를 위한 새로운 아키텍처들을 보라.)

데이터 산업의 성장은 최근 몇년간 가장 흥미롭고 영향력 있는 엔터프라이즈 소프트웨어 회사들을 탄생시켰다. 최근 스노우플레이크나 컨플루언트 같은 상장 회사들은 이미 수천여개 회사들이, 운영하는 방식과 수백만 제품들이 개발되는 방식을 바꿨다. 그러나 대부분의 사람들은 유력자와 거물들에 대해 생소하다.-차세대 카테고리를 정의하는 회사들.

데이터 회사들이 수백어달러 벤처 자본 투자를 받은 최고 기록을 깬 2021년과 이미 강력한 2022년이 지난 후 소음 속을 뚫고 들어가는 것을 돕기 위해 우리는 데이터50 첫 클래스를 수집했다. 이것들은 데이터에서 가장 흥미로운 카테고리들에 걸쳐 대표주자 회사들이다.

전체적으로 이들 50개 회사는 1000억 달러 이상의 가치가 있다. 그리고 대략 145억 달러 가량의 자본을 모두 합쳐 유치했다. 20곳은 2021년까지 유니콘 지위에 이르렀다.

추가 얘기 없이, 우리는, 2022년 데이터 50을 소개하게 돼 기쁘다.

데이터 50 리스트

아래를 보면 데이터50을 7개 하위 범주로 분류했다.

카테고리별 데이터50

[자료: a16z 퓨처]

쿼리와 프로세싱 기술은 데이터에 접근하고 모으고, 계산하는 핵심 엔진이다. 이것은 2개 메인 클래스를 포함한다. 배치 프로세싱(예를 들면 데이터브릭스와 스타버스트)과 실시간 프로세싱이다(예를 들면 클릭하우스와 임플라이-Imply). 후자는 실시간 애플리케이션들에 대한 수요가 증가함에 따라 지난 2년간 보다 많은 관심을 받아왔다.

AI/ML(인공지능과 머신러닝)은 대규모 데이터를 위한 알고리즘 적인 모델링과 머신러닝을 적용하는 소프트웨어를 포함하고 있다. 이 공간은 성숙해지고, 그리고 번성하고 있다. 리스트를 이루는 회사들 순 규모 증가다. 일부 플레이어들은 특정한 데이터 유형에 초점을 맞추고 있다. (예를 들면 라사-Rasa와 허깅페이스-Hugging face는 자연어에 집중한다.) 반면 다른 플레이어들은 AI 생산화(productization) 같은 다양한 영역들에 집중하고 있다. (예를 들면 스케일, 텍톤, 웨이츠, 그리고 바이어시스-Biases) 또는 AI 워크로드를 돌리기 위한 컴퓨트 레이어로서 행동한다.(예를 들면 에니스케일-Anyscale)

ELT와 오케스트레이션은 데이터 이동을 가능하게 한다. 이것은 데이터가 목적지에 제시간에 정확하게 도착하도록 보장하는 수송 레이어(transportation layer)다. 이 카테고리는 온프레미스 드래그 앤 드롭 인터페이스들 기반으로 개발된 전통적인 ETL 벤더들로부터 진화했다. 이 새로운 클래스 플레이어들은 반면, 대체로 클라우드 네이티브(예를 들면 파이브트랜과 dbt)에, 개발자 친화적이고(예를 들면 애스트로너머-Astronomer와 프리펙트-Prefect), 그리고 다양한 데이터 환경들에 걸쳐 보다 복잡한 의존성 들을 다룬다.

데이터 스택이 점점 복잡해지고 보다 많은 이해 관계자들이 관여하면서 데이터 거버넌스와 보안은 점점 중요한 사안이 되고 있다. 거버넌스 도구들은-특히 크게 규제를 받는 산업들에서-데이터를 보호하고 데이터 라이프 사이클에 걸쳐 컴플라이언스를 유지하기 위해 필요하다. (예들 들면 원트러스트-OneTrust와 콜리브라-Collibra). 이 카테고리는 상대적으로 새롭고 통상, 규제 감시 아래 있는 대형 엔터프라이즈 회사들에 제공된다.

고객 데이터 분석은 전통적으로, 마케팅 팀들이 소유해왔다. 하지만 고객 데이터 분석이 갖는 중요성이 커지면서 이제 데이터 팀들이 고객 데이터를 중앙 데이터 플랫폼들에 통합하는데 보다 많이 관여하고 있다. 이 카테고리는 고객 데이터를 획득하거나(예를 들면 러더스택-Rudderstack과 액션아이큐-ActionIQ) 이 데이터를 현업 비즈니스 활용 사례에 제공하기 위해 운용하는데(예를 들면 센서스-Census와 하이터치-Hightouch) 초점이 맞춰져 있다.

BI와 노트북(Notebook)은 데이터 소비 레이어를 커버한다. 잘 구축돼 있는 카테고리임에도 프리셋이나 메타베이스 같은 새로운 플레이어들이 오픈소스 퍼스트 접근을 취하고 기술적인 데이터 엔지니어들 및 비즈니스 인텔리전스 팀들에 어필하고 있다. 빠르게 변화하는 데이터 속성은 또한 반복적이고 상호적인 노트북(예를 들면 헥스-Hex)과 자동화된 인사이트 생성(예를 들면 시수-sisu에 대한 수요를 보다 많이 만들어낸다.

데이터 가시성은 소프트웨어 엔지니어링 스택에서 베스트 프랙티스들로부터 영감을 끌어낸다.

데이터 스택이 점점 위 아래(up and downstream) 도구들에 대해 상호 의존적이 되고 데이터 정확성이 광범위하게 영향을 미치면서 가시성은 데이터 플로우에 모니터링과 진단 역량을 제공하기 위한 새로운 카테고리로 떠올랐다.

적용을 이끄는 주요 시장 순풍이 규모와 데이터 사용을 키우고 있음에도 근본적인 드라이버들은 각 카테고리마다 다르다. 예를 들면 쿼리하기와 프로세싱 공간에서 나타나는 진화들은 주로 컴퓨트와 스토리지의 분리, 클라우드로 이동, 그리고 저렴한 컴퓨팅 파워에 의해 주도되고 있다. 반면 데이터 거버넌스와 데이터 가시성에서 운용 도구 적용은 대체로 데이터 워크플로우들의 복잡성과 확대되는 운용 활용 사례들에 의해 주도되고 있다.

쿼리와 프로세싱 회사들은 자본의 큰 부분을 유치해왔다.

[자료: a16z 퓨처]

쿼리와 프로세싱 카테고리는 단지, 데이터50에서 단지 5분의 1를 차지하고 있다. 그러나 이 카테고리에 투자된 자본 규모-모든 펀딩의 거의 50%-어마어마하다. 이 데이터는 데이터브릭스가 최근 16억달러를 유치한 것에 의해 영향을 받았지만, 이 카테고리는 데이터브릭스를 빼고도 여전히, 모든 펀딩의 37%를 차지하고 있다. 다음 카테고리의 두배 이상이다.

[자료: a16z 퓨처]

회사를 세면서 카테고리들을 살펴보면 배분은 보다 균형이 잡혀 있다. AI/ML은 회사들 수 기준으로 가장 큰 카테고리다. 주로 이 공간은 여전히 진화하고 있고, 모델들을 훈련시키고, 측정하고, 생산화하기 위해 새로운 별개 도구 세트들을 요구하기 때문이다.(이 공간이 어떻게 진화하고 이는지 보다 많은 것을 알려면 모던 데이터 인프라스트럭처를 위한 이머징 아키텍처들을 보라)

데이터50은 베이 에어리어에서 클러스터로 이뤄져 있다

50개 회사들 중 47개(94%)는 미국에 기반을 두고 있다. 3개는 해외에 있다. 이 회사들 중 다수인 33곳은 샌프란시스코 베이 에어리어에 있다. 반면 9곳은 워싱턴 DC I-95, 필라델피아, 뉴욕, 보스턴에 있다. 2곳은 시애틀, 한 곳은 신시네티에 있다. 한 곳은 애틀란타에 있다.

이같은 분포는 주로, 역사적으로 대규모 데이터 생태계가 있다는 것에 크게 영향을 받고 있다. (예를 들면 오라클과 테라데이타 모두 베이 에어리어에서 설립됐다.) 그러나 데이터 엔지니어링 인재와 데이터 도구에 대한 수요가 거의 모든 대륙에 도달하면서 우리는 보다 많은 데이터 회사들이, 전 세계에 걸쳐 나타나는 것을 보고 있다. (예를 들면 파이어볼트-Firebolt와 매틸리언-Matillion).

AI와 ML 카테고리가 2019년 새 데이터 회사들의 급증을 주도했다

데이터50 회사들 중 다수는 2014년 이후 설립됐다. AI/ML 도구 폭발에 의해 2019년 피크를 이뤘다. 사실, 많은 보다 많은 회사들이, 2019년 이후 설립됐다. 그러나 특정 규모에 이른 회사들에 초점을 맞췄기 때문에 대부분의 신생 회사들은 아직 이번 리스트에는 보이지 않는다.

[자료: a16z 퓨처]

투자 자금은 모든 카테고리에서 확대되고 있다

카테고리 투자별로 보자. 가장 주목할만한 트렌드는 AI/ML 회사들은 그 어느때보다 투자자 관심을 잡고 있다는 것이다. 대체로 초기 단계에 집중돼 있다. ELT와 오케스트레이션쪽도 마찬가지다. 주로 파이브트랜과 dbt의 메가 투자 라운드에 힘입었다. 후기 단계이기는 하지만 쿼리와 프로세싱 회사들도 계속해서 대규모 자금을 끌어들이고 있다.

[자료: a16z 퓨처]

우리는 다음 10년은 인프라스트럭처, 애플리케이션, 중간에 이는 모든 것을 아우르는 데이터의 십년일 것이라고 강하게 믿고 있다. 그 결과, 우리는 계속해서 기록적인 성장, 펀딩, 시가 총액을 보게 될 것이다. 우리는 매년 이 리스트에서 추적할 것이다. 첫 데이터 50 클래스에에 있는 모든 회사들에게 축하를 보낸다.

keyword

작가의 이전글모던 데이터 인프라 시대, 신형 아키텍처의 모든 것메타는 왜 네이티브모바일앱 대신 HTML5 먼저 밀었나작가의 다음글