학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 이번 글은 실리콘밸리 벤처 투자 회사인 안드레센 호로위츠에서 데이터 중심 인프라에 대해 정리한 글을 정리한 것입니다.
산업으로서 우리는 예외적으로, 크고, 복잡한 소프트웨어 시스템을 개발하는데 능하다. 우리는 이제 이제 데이터를 중심으로 개발된 거대하고 복잡한 시스템들의 부상을 보기 시작하고 있다. 이 시스템들이 제공하는 최고 비즈니스 가치는 소프트웨어 그 자체보다는 데이터 분석에서 나온다.
우리는 새로운 역할 등장, 고객 지출 변화, 그리고, 데이터를 중심으로 한 인프라와 도구들을 제공하는 새로운 스타트업들의 출현을 포함해 산업에 걸쳐 빠르게 움직이는 이 같은 트렌드의 충격을 보고 있다. 사실, 요즘 가장 빠르게 성장하는 많은 인프라 스타트업들은 데이터를 관리하는 제품을 개발한다.
이들 시스템은 머신러닝을 포함해 데이터 드리븐(주도) 의사 결정과, 데이터를 파워를 발휘하는 제품들을 주도하게 한다. 이들 시스템은 데이터를 나르는 파이프부터, 데이터를 보관하는 스토리지 솔루션, 데이터를 분석하는 SQL 엔진, 데이터를 이해하기 쉽게 만들어주는 대시보드까지 다양하다. 데이터 사이언스와 머신러닝 라이브러리, 자동화된 데이터 파이프라인과, 데이터 카탈로그도 아우르고 있다.
그리고 이 모든 에너지와 모멘텀에도 불구하고 어떤 기술이 이 트렌드를 이끌고 있는지, 실전에서 이들 기술들이 어떻게 쓰이는지를 둘러싸고 우리는 아직 여전히 엄청난 규모의 혼란이 있다는 것을 알고 있다.
지난 2년간 우리는 새로 등장하는 최고의 프랙티스를 체계화하고 데이터 인프라를 둘러싼 공통 어휘를 끌어내기 위해 데이터 스택 현재 상태에 대해 이 분야 종사자 20명 이상과의 인터뷰를 포함해 수백 명에 달하는 창업자, 기업 데이터 리더들, 다른 전문가들과 얘기를 나눴다.
이번 포스트는 이같은 작업 결과를 공유한다. 이 산업을 이끄는 테크놀로지스트들을 소개할 것이다.
데이터 인프라 시장의 거대한 성장
이 보고서를 작성한 주요 동기 중 하나는 지난 몇 년간 데이터 인프라가 크게 성장했다는 것이다. 가트너에 따르면 데이터 인프라 지출은 2019년 역대 최고치인 660억 달러 규모에 달했다.
모든 인프라 소프트웨어 지출의 25% 수준이었다. 피치북에 따르면 지난 5년간 톱 30 데이터 인프라 스타트업들은 80억 달러가 넘는 투자금을 유치했다. 전체 기업 가치는 350억 달러였다.
데이터를 향한 레이스는 직업 시장에서도 반영되고 있다. 데이터 애널리스트, 데이터 엔지니어들, 머신러닝 엔지니어들이 2019년 링크드인에서 가장 빠르게 성장하는 역할 톱에 올랐다. 뉴밴티지파트너스에 따르면 포춘 1000대 기업 60%는 최고 데이터 경영자(CDO)를 고용한다. 2012년 12%에서 상승했다.
이들 회사들은 실질적으로 매킨지 성장과 수익성 조사에서 그들의 경쟁자들을 앞서고 있다. 가장 중요한 것은 데이터는, 비즈니스 결과에 직접 기여한다는 것이다. 실리콘밸리 테크 회사들 뿐만 아니라, 전통 사업도 마찬가지다.
통합 데이터 인프라 아키텍처
에너지, 자원, 데이터 인프라 시장 성장 때문에 툴과 데이터 인프라 베스트 프랙티스도 놀라운 속도로 빠르게 진화하고 있다. 그렇게 많다 보니 때문에 모든 조각들이 어떻게 맞물려 돌아가는지 통합적인 뷰(View)를 얻는 것은 어렵다. 우리가 조금이라도 인사이트를 제공하려고 하는 이유다.
우리는 선도 데이터 조직 종사자들에게 내부 스택 기술이 무엇인지, 새로운 것을 처음부터 개발한다면 어떻게 다를지를 물었다.
논의 결과는 아래 레퍼런스 아키텍트 다이어그램에 담았다.
데이터 인프라 통합 아키텍처.
다이어그램에서 열들은 아래와 같이 정의된다.
이 아키텍처안에서는 많은 일들이 일어나고 있다. 대부분 프로덕션 시스템(production system)들에서 볼 수 있는 것들보다 훨씬 많다. 이것은 모든 유스 케이스들에 걸쳐 통합 아키텍처에 대한 완전한 픽처를 제공하기 위한 시도다.
대부분의 진화된 사용자들은 어떤식으로든 이같은 접근을 갖고 있을 수 있지만 대부분은 그렇지 않다. 이 포스트 나머지 부분은 이 아키텍처에 대해 분명함을 제공하고 실전에서 어떻게 일반적으로 현실화화는지에 초점을 맞춘다.
분석, AI/ML, 거대한 융합?
데이터 인프라스트럭처는 2가지 목적에 부합한다. 높은 수준에서 비즈니스 리더들이 데이터를 사용해 보다 나은 결정을 할 수 있도록 돕는다. 그리고 머신러닝을 포함해 고객들에게 제공하는 애플리케이션들에서 데이터 인텔리전스를 구현하도록 해준다.
두개 병렬 생태계는 광범위한 이들 유스 케이스들을 중심으로 성장해왔다. 데이터웨어하우스는 분석 생태계에서 근간을 형성한다. 대부분의 데이터웨어하우스들은 데이터를 정형화된 포맷으로 저장해 핵심 비즈니스 수치들로부터 빠르고 쉽게 인사이트를 생성하도록 디자인됐다.
통상, SQL과 함께 데이터 레이크는 이 운영 생태계의 백본이다. 맞춤형 애플리케이션과 보다 진화된 데이터 처리 수요를 위해 데이터를 날것(로우, raw) 형태로 저장함으로써 유연성과, 규모, 성능을 제공한다. 데이터 레이크는 자바/스칼라, 파이썬, R, SQL 등 광범위한 언어들로 운영된다.
이들 기술들 각각은 종교적인 지지자들이 있다. 그리고 어느 한쪽이 나머지 스택에 상당한 영향을 마치는 구현을 갖고 있다. 그러나 정말로 흥미로운 것은 . 범용 스토리지 제공, 네이티브 수평 확장, 세미 정형 데이터 유형, ACID 거래들, 인터랙티브, SQL 쿼리 등 모던 데이터웨어하우스와 데이터 레이크들은 서로 닮아가기 시작한다는 것이다
계속되는 핵심 질문은 데이터 웨어하우스와 데이터 레이크는 융합의 길을 가서 스택들에서 서로 교환 가능하도록 되겠느냐는 것이다. 일부 전문가들은 이것이 일어나고 있으며, 기술과 벤더 풍경의 단순함을 주도하고 있다고 말한다. 다른 이들은 언어들과 유스 케이스들, 다른 요인들의 차이 때문에 병렬 생태계는 계속될 것이라고 믿는다.
아키텍처 전환
데이터 인프라스트럭처는 클라우드로의 전환, 오픈소스, 서비스형 소프트웨어(SaaS) 비즈니스 모델들을 포함해 소프트웨어 산업에 걸쳐 일어나는 광범위한 아키텍처 전환에 적용되기 쉽다. 그러나 이들 외에도 데이터 인프라에 고유한 많은 전환들이 있다. 이들 전환은 프로세스에서 아키텍처를 발전시키는 ETL 도구와 같은 시장을 종종 불안정하게 만든다.
새로운 역량들
세로운 툴세트와 코어 시스템들에 필수적인 신형 데이터 역량 세트들도 나오고 있다. 이들 트렌드중 많은 것들은 새로운 기술 카테고리과 시장을 바닥부터 새로 만들고 있다.
모든 데이터 인프라 구축을 위한 청사진
아키텍처를 가능한 돌아갈 수 있도록 만들기 위해 우리는 전문가들에게, 일반적인 청사진들을 성문화해줄 것을 요청했다. 규모, 진화 수준, 타깃 유스 케이스, 애플리케이션들에 기반해 데이터 조직들을 위한 수행 가이드다
우리는 3가지 일반적인 청사진들에 대해 대략적인 개요를 제공할 것이다. 현대 비즈니스 인텔리전스를 위한 청사진을 시작한다. 클라우드 네이티브 데이터웨어하우스와 분석 유스케이스들에 초점을 맞춘다. 두번째 청사진에서 데이터 레이크 중심으로 개발된 분석 및 운영 유스 케이스들을 다루는 멀티모달(multimodal) 다모드 데이터 처리에 대해 살펴본다. 마지막으로는 운영 시스템들과 새로 나오는 AI 및 ML 스택 컴포넌트들에 대해 살펴본다.
3가지 범용 청사진
청사진1: 모던 비즈니스 인텔리전스
이것은 점점 상대적으로 작은 데이터 팀과 예산을 가진 기업들을 위한 기본 옵션이다. 엔터프라이즈들은 클라우드가 제공하는 유연성과 확장성을 위해 점점 레거시 데이터웨어하우스에서 이 청사진으로 전환하고 있다.
코어 유스 케이스들은 리포팅, 대시보드, 애드혹(즉석) 분석, 정형화된 데이터를 위해 우선 SQL 사용.
이 패턴의 강점은 초기 투자를 줄이고 빠르고 쉽게 시작할 수 있게 한다. 광범위한 재능을 이용할 수 있다. 하지만 광범위한 데이터 사이언스나 머신러닝, 스트리밍 저지연 애플리케이션을 포함해보다 복잡한 데이터를 필요로 하는 팀들에는 상대적으로 적합하지 않다.
청사진: 2 멀티모달(다모드) 데이터 처리
멀티 모달 데이터 처리 청사진
이 패턴은 진화된 복잡한 데이터를 필요로 하는 대형 엔터프라이즈들에서 가장 많이 발견된다.
유스 케이스들은 비즈니스 인텔리전스와 보다 진화된 기능을 포함한다. 운영 AI/ML, 스트리밍, 레이턴시에 민감한 분석, 대규모 데이터 전환, 다양한 데이터 유형 처리(텍스트, 이미지, 비디오 등), 다양한 언어를 사용(자바, 스칼라, 파이썬, SQL)
이 패턴의 강점은, 다양한 애플리케이션을 지원하기 위한 유연성, 툴, 사용자 정의 기능, 배치 맥락등을 포함한다. 대규모 데이터세트를 위한 비용 잇점도 갖고 있다. 이 청사진은 작은 데이터 팀을 갖고 있거나 단지 작동을 해보길 원하는 회사들에게는 상대적으로 적합하지 않다.
청사진3, 인공지능과 머신러닝
AI/ML 청사진
머신러닝을 하는 대부분의 회사들은 이미 이 패턴 기술들의 서브셋을 일부 갖고 있다. 헤비 ML 샵(Heavy ML shops)들은 종종 완전한 청사진들을 수행하지만 새로운 툴들을 위해 내부 개발에 의존하고 있다. 핵심 유스 케이스들은 온라인이나 배치 모드 등 내부용과 고객 대상 애플리케이션을 위한 데이터 기반 역량에 초점이 맞춰져 있다.
이 접근의 강점은 사전에 패키지된 ML 솔루션들과 반대로 개발 프로세스에 대한 완벽한 통제다. 사용자를 위한 우수한 가치를 만들어낸다. 장기적인 역량을 위한 핵심으로 AI와 ML을 개발한다. 이 청사진은 ML을 테스트 또는 소규모로 쓰거나 내부 사용 및 벤더들에 의존하는 기업들에게는 상대적으로 적합하지 않다. 머신러닝을 규모있게 다루는 것은 요즘 가장 도전적인 데이터 문제다.
전망
데이터 인프라스트럭처는 빠르게 진화하고 있다. 아키텍처 레벨에서 근본적인 변화가 빠르게 일어나고 있다.
다양하고 확산 가능한 최신 데이터 스택을 구축하려면 다양하고 지속적으로 증가하는 선택 사항을 포함된다.
적절한 선택은 하는 것은 그 어느때보다 중요하다. 우리는 계속에서 소프트웨어에서 가치를 전달하기 위해 코드와 데이터를 결합한 순수 코어 코드 기반 시스템으로 전환하고 있다.
효과적인 데이터 역량은 모든 영역들에 걸친 기어들에서 이제 테이블 스테이크(table stakes: 내기에 거는 돈)이다. 그리고 데이터에서 승리하는 것은 튼튼한 경쟁 우위를 제공할 수 있다. 우리는 이번 포스트가 가이드 역할을 해서 데이터 조직들이 현재 기술 상태를 이해하고 그들의 비즈니스 필요에 가장 적합한 아키텍처를 구현하며 진화가 계속되고 있는 이 분야에서 미래 계획을 세우는데 도움이 되기를 바란다.