모던 데이터 인프라 시대, 신형 아키텍처의 모든 것

Apr 23. 2022

학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 이번 글은 안드레센 호로위츠가 운영하는 미디어 퓨처에 올라온 글을 정리한 것입니다.

데이터 인프라 산업 성장은 우리가 2020년말 레퍼런스 아키텍처 세트를 출고한 이후에도 수그러들지 않고 계속되고 있다. 거의 모든 핵심 산업 지표들이 지난 1년간 최고 기록을 경신하고 있다. 그리고 대부분의 데이터 팀들이 적절하게 따라갈 수 있는 것보다 빠르게 신제품 카테고리들이 나타났다. 벤치마크 전쟁과, 빌보드 전투들도 돌아왔다.

데이터 팀들이, 산업에서 일어나는 변화들에 대한 최신 정보를 아는데 도움을 주기 위해 우리는 데이터 인프라 아키텍처 세트 업데이트 포스트를 출고한다. 이들은 현재 분석과 운영 시스템들에 걸쳐 우리와 지난해 얘기를 나눴던 많은 운영자들로부터 수집한 베스트 인 클래스(best-in-class) 스택을 보여준다. 각각의 아키텍처 청사진은 이전 버전에서 무엇이 바뀌었는지에 대한 요약을 포함하고 있다.

우리는 또한 이들 변화가 왜 벌어지고 있는지에 대한 설명도 시도할 것이다. 우리는 핵심 데이터 처리 시스템들은 상대적으로 지난 1년간 안정적으로 남아 있는 반면 지원 툴들과 애플리케이션들은 빠르게 확산되어왔다고 주장한다. 우리는 데이터 생태계에서 플랫폼들이 나타나기 시작하고 있다는 가설과 이것이, 우리가 데이터 스택 진화에서 보고 있는 특정 패턴들을 설명하는 것에 도움이 된다는 가설에 대해서도 살펴본다.

이 작업을 종합하기 위해 우리는, 다시, 데이터 전문가 십여 명의 인풋에 의존했다. 이들 리스트는 포스트 끝에서 볼 수 있다.

업데이트된 레퍼런스 아키텍처들(Updated reference architectures)

우리가 세부 사항에 너무 깊게 들어가기 전에, 여기 최신 아키텍처 다이어그램들이 있다. 이들은, 선도적인 데이터 종사자들의 도움을 받아 집계됐고 이들이 내부에서 돌리는 것과 새로운 배치를 위해 무엇을 추천하는지에 기반하고 있다.

첫 보기는 모든 데이터 인프라 유스 케이스들에 걸쳐 통합된 개요를 보여준다.

자료출처: 안드레센 호로위츠 퓨처

두 번째 보기는 머신러닝을 주목한다. 머신러닝은 복잡하고 점점 독립적인 툴체인이다.

자료출처: 안드레센 호로위츠 퓨처

이 포스트 나머지에서 우리는 데이터 스택 버전1 이후 달라진 것에 대해 언급하고 깔려 있는 근본 원인에 대해 살펴볼 것이다.

체인지로그(Changelog)

달라지지 않은 것: 핵심에서의 안정성(What hasn’t changed: Stability in the core)

지난 1년간 데이터 인프라 활동 열풍에도 일부 측면에서 얼마나 변화가 적었는지를 보는 것은 놀랍다.

우리의 첫 포스트에서, 우리는, 데이터 드리븐 의사 결정을 지원하는 분석 시스템들과 데이터 드린 제품에 기반이 되는 분석 시스템들 사이에서 차이를 끌어냈다. 우리는 그때 이들 카테고리들을 선도 데이터 팀들이 자주 주행하는 3개 패턴 또는 청사진으로 매핑했다.

분석 시스템들과 옵(op) 시스템들

핵심 질문들 중 하나는 이들 구조적인 패턴들이 수렴될 것인지다. 1년 후에는 그렇게 될 것 같지 않다. 특히, 분석과 운영 생태계 모두는 계속해서 번성하고 있다. 스노우플레이크 같은 클라우드 데이터웨어하우스는 주로 SQL 사용자들과 비즈니스 인텔리전스 활용 사례들에 초점을 맞추고 빠르게 성장하고 있다. 그러나 다른 기술들 적용 또한 가속화되고 있다.-예를 들면 데이터브릭스 같은 데이터레이크하우스는 그 어느 때보다 고객들을 빠르게 추가하고 있다. 우리와 얘기했던 많은 데이터 팀들은, 이질성(heterogeneity)은 데이터 스택에서 계속될 가능성이 높다고 확인해줬다.

다른 코어 데이터 시스템들-즉, 인제스천(ingestion)과 트랜스포메이션(transformation)은 유사하게 단단하다는 것을 증명해왔다. 이것은 특히, 최신 비즈니스 인텔리전스 패턴에서 엿보인다. 이곳에서 파이브트랜과 dbt(또는 유사한 기술들)은 거의 보편적이다. 그러나 이것은 또한 데이터브릭스/스파크, 컨플루언트/카프카 및 애스토로노머/에어플로우와 같은 사실상의 표준이 등장한 운영 시스템에서도 어느 정도 사실이다.

새로운 것은 무엇인가: 캄브리안 폭발(Cambrian explosion)

안정적인 코어 주변으로 데이터 스택은 지난 1년간 빠르게 진화해왔다. 광범위하게 말하면 우리는, 2개 영역에서 가장 많은 활동을 보고 있다.

데이터 발견(data discovery), 관찰(observability) 또는 ML 모델 감사(ML model auditing) 같은 핵심 데이터 프로세스 및 워크플로우를 지원하기 위한 새로운 도구들

데이터 워크스페이스(data workspaces), 리버스 ETL, ML 애플리케이션 프레임워크들같은 데이터 팀과 비즈니스 사용자들이 새롭고 보다 강력한 방식으로 데이터에서 가치를 만들 수 있도록 해주는 새로운 애플리케이션들

우리는, 또한 코어 데이터 처리 시스템들을 강화하도록 디자인된 일부 새로운 기술들 등장을 보고 있다. 주목할만한 것은 분석 생태계와 운영 시스템들을 위한 레이크하우스 패턴에서 메트릭스 레이어(metrics layer)를 둘러싼 활발한 토론이 있었다는 것이다. 분석 생태계와 운영 시스템들을 위한 레이크하우스 패턴은 유용한 정의들과 아키텍처들을 향해 수렴하고 있다.

업데이트된 청사진들(Updated blueprints)

이런 맥락으로 우리는, 주요 데이터 인프라 청사진들 각각에 대해 구체적으로 들어갈 것이다. 아래 각 섹션은 업데이트된 다이어그램과 핵심 변화들 분석을 보여준다. 이들 섹션은 주로 이들 스택을 수행하는 데이터 팀들을 위한 레퍼런스로 고안됐다. 포스트 나머지를 따라가기 위해 이것을 꼭 읽을 필요는 없다.

청사진1: 모던 비즈니스 인텔리전스: 모든 크기 회사들을 위한 클라우드 네이티브 비즈니스 인텔리전스

변하지 않은 것들(What hasn’t changed)

데이터 복제(파이브트랜 같은), 클라우드 데이터웨어하우스(스노우플레이크 같은), 그리고 SQL 기반 데이터 모델링(dbt 같은)은 계속해서 이 패턴 핵심을 형성하고 있다.

이들 기술들 적용은 상당히 성장했다. 펀딩과 새로운 경쟁자들의 초기 성장을 촉진하고 있다. (예: 에어바이트와 파이어볼트)

룩커(Looker), 태블로(Tableau) , 파워BI, 슈퍼셋(Superset) 같은 신규 진입자들을 포함해 대시보드는 계속해서 아웃풋 레이어에서 사용되는 가장 일반적인 애플리케이션이다.

새로운 것은 무엇인가(What’s new)

데이터웨어하우스 위에서 표준 정의 셋을 제공하는 시스템인 메트릭스 레이어에 대한 관심은 급증해왔다.이것이 가져야 하는 역량들, 어느 공급 업체들이 그것을 소유해야 하는지, 따라야할 스펙은 무엇인지를 포함해 논쟁도 뜨겁다. 지금깍지 우리는, 몇몇 믿을만하게 순수하게 작용하는 제품들을 보왔다.트랜스폼(Transform)과 슈퍼그레인(Supergrain)처럼. 여기에 더해, dbt에 의해 이 카테고리도 확장도 보고 있다.

리버스 ETL 업체들은 상당히 성장해왔다. 특히, 하이트터치(Hightouch)와 센서스(Census)다. 이들 제품 목적은 데이터웨어하우스에서 파생된 결과나 인사이트로 CRM이나 ERP 같은 운영 시스템들 업데이트다.

데이터 팀들은 그들 표준 대시보드를 증강하기 위해 새 애플리케이션들에 강한 관심을 보여주고 있다. 헥스(Hex) 같은 데이터 워크스페이스가 특히 그렇다. 새로운 앱들은 클라우드 데이터웨어하우스에서 표준화가 증가하는 결과인 듯 보인다. 일단 데이터가 깨끗하게 구조화되고 접근하기 쉬워지면, 데이터 팀들은 그걸로 보다 많은 것을 하고 싶어 하게 마련이다.

데이터 발견과 관찰성 회사들은 늘었고 상당한 규모 자금도 유치했다. 몬테 카를로(Monte Carlo)와 빅아이(Bigeye)가 특히 그렇다. 이들 제품 혜택은 분명한 반면-예를 들어, 보다 신뢰할 수 있는 데이터 파이프라인과 나은 협업-고객들이 관련 활용 사례들과 예산을 찾고 있는 가운데 적용은 여전히 상대적으로 초기다.(테크니컬 노트: 데이터 발견에서 몇몇 믿을만한 새로운 벤더들이 있지만-셀렉트스타(Select Star), 메타포(Metaphor), 스테마(Stemma), 세코다(Secoda), 캐스터(Castor) 등-우리는, 초기 단계 회사들은 일반적으로 다이어그램에서 제외했다.

청사진 2: 멀티모달 데이터 프로세싱(Multimodal Data Processing): 분석과 운용 활용 사례들을 모두 지원하는 진화한 데이터레이크-하둡 피난민들을 위한 모던 인프라로도 알려진

노트: 다커 박스(Darker boxes)는 2020년 아키텍처 버전1 이후 새롭거나 상당히 달라졌다.

자료출처: 안드레센 호로위츠 퓨처

변하지 않은 것들:

데이터 프로세싱(예, 데이터브릭스, 스타버스트, 그리고 드리미오), 트랜스포트(예: 컨플루언트와 에어플로우), 그리고 스토리지(AWS)에서 코어 시스템들은 계속해서 빠르게 성장하고 이 청사진의 백본을 형성하고 있다.

멀티 모달 데이터 프로세싱은 디자인 측면에서 다양해 기업들이, 분석과 운영 데이터 애플리케이션들에 걸쳐 그들 특별한 필요에 가장 잘 맞는 시스템을 적용할 수 있게 한다.

새로운 것들은 무엇인가(What’s new)

레이크하우스 아키텍처에 대해 커지는 인식과 명쾌함이 있다. 우리는 (AWS, 데이터브릭스, 구글 클라우드, 스타버스트, 드리미오를 포함해) 다양한 벤더들과 데이터 웨어하우스 개척자들에의해 지원되는 이 접근을 봐왔다. 데이크하우스 가치의 근간은 튼튼한 스로리지 레이어와 스파크, 프레스터, 드루이드/클릭하우스, 파이썬 라이브러리들 등 강력한 데이터 프로세싱 엔진 집합체들을 합치는 것이다.

스토리지 레이어 그 자체는 업그레이드되고 있다. 델타(Delta), 아이스버그(Iceberg), 후디(Hudi) 같은 기술들은 새롭지 않다. 이들 기술 적용은 가속화되고 있고 상업적인 제품들 안에서 구현되고 있다. 이들 기술 중 일부(특히 아이스버그)는 또한 스노우플레이크 같은 클라우드 데이터웨어하우스들과 상호 운용성을 갖고 있다. 이종성(heterogeneity)이 계속된다면, 이것은 다중 모드 데이터 스택에서 핵심 부분이 될 것이다.

스트림 프로세싱(예를 들면 실시간 분석 데이터 프로세싱)에 대한 적용이 확대될 수도 있다. 플링크(Flink) 같은 1세대 기술들이 여전히 주류가 되지 못했지만 (매트리얼라이즈(Materialize)와 업솔버(Upsolver) 같은 단순한 프로그래밍 모델을 가진 신규 진입자들이 초기 적용을 확보하고 있다. 현재 데이터브릭스와 컨플루언트의 스트림 프로세싱 제품들 사용 또한 가속화되기 시작하고 있다.

청사진3: 인공지능과 머신러닝: 머신러닝 모델의 튼튼한 개발, 테스팅, 운영을 위한 스택

바뀌지 않은 것들

메이저 클라우드 업체들(예를 들면 데이터브릭스와 AWS), ML 프레임워크들(예를 들면 XG부스트-XGBoost와 파이토치-PyTorch), 그리고 실험 관리 툴들(예를 들면 웨이트-Weights, 바이어스&코멧-Biases and Comet)을 포함해 모델 개발을 위한 툴링(Tooling)은 2020년과 비교해 현재 대체로 단순하다.

실험 관리는 사실상 모델 시각화와 튜닝을 독립적인 카테고리로서 포함하고 있다.

머신러닝 스택을 개발하고 운영하는 것은 복잡하다. 그리고 특별한 전문성을 필요로 한다. 이 청사진은 겁쟁이(faint of heart)를 위한 것이 아니다. AI 프로덕션 화(productionizing)하는 여전히, 많은 데이터 팀들에게 도전적이다.

새로운 것들

ML 산업은 데이터 중심 접근 중심으로 통합하고 있다. 증가하는 모델링 향상 보다 진화된 데이터 관리를 강조하고 있다. 이것은 몇 가지 의미를 갖고 있다.

데이터 라벨링의 빠른 성장(예를 들면 스케일러-scaler와 라벨 상자-label box) 그리고 테슬라 오토파일럿 데이터 파이프라인에서 대규모로 모형화 돼 있는 닫힌 루프(closed-loop) 데이터 엔진에 대한 관심 증가

협력적인 방식으로 프로덕션 급 ML 데이터를 개발하기 위한 수단으로 배치(batch)와 실시간 활용 사례들 모두를 위한 피처 가게(feature stores, 예를 들면, 태그 톤-Teston) 적용 증가.

적어도 부분적으로 ML 모형화 프로세스를 자동화하는 줄 코드 ML 솔루션(콘티뉴얼-Continual과 마인즈 DB-Minds DB 같은)에 대한 관심이 부활. 이들 새로운 솔루션들은 새로운 사용자들(예를 들면 분석가들 및 소프트웨어 개발자들)을 ML 시장으로 끌고 오는데 초점을 맞추고 있다.

사전에 훈련된 모델 사용은 기본이 되어가고 있다. NLP에서는 특히 그렇다. 그리고 오픈AI나 하긴 페이스(Hugging Face) 같은 회사들에 순풍을 제공한다. 미세 조정(fine-tuning)이나 확장을 둘러싼 풀어야 할 상당함 문제들은 여전히 있다.

ML용 운영 도구들(종종 ML옵스-MLops로 불리운다)은 점점 성숙해지고 있다. ML 운영 도구들은 가장 수요가 많은 활용 사례이자 예산이 즉각 투입되는 ML 모니터링 중심으로 개발됐다. 반면, 최종 시장은 여전이 결정되어야 하지만 새로운 운영 도구들-검증과 감사(auditing)를 포함하는-도 많이 나타나고 있다. 사전에 개발된 API들(예를 들면 오픈API), 벡터 데이터베이스들(예를 들면 파인콘-Pinecone), 자기 의견을 고집하는(opinionated) 프레임워크들을 포함해 개발자들이 어떻게 끊깅멊이 ML 모델들을 애플리케이션들에 통합할 수 있는지에 초점이 확대되고 있다.

데이터 플랫폼 가설(The data platform hypothesis)

개요: 지난 1년간, 데이터 인프라 스택은 핵심 시스템들에서 상당한 안정성과 지원 툴들 및 애플리케이션들의 빠른 확산을 봐왔다. 왜 이것이 일어나는지 설명하는데 도움을 주기 위해 여기에서 데이터 플랫폼 아이디어에 대해 소개한다.

문제는 무엇인가

플랫폼이라는 말은, 데이터 생태계에서 과부하가 걸려 있다. 종종, 내부 팀들이 그들 전체 테크 스택들을 설명하는데 사용되거나 느슨하게 연결된 제품 스위트들을 판매하는 벤더들에 의해 사용된다.

보다 광범위하게 소프트웨어에서 플랫폼은 다른 개발자들이 그거 위에서 개발할 수 있는 무언가다. 플랫폼들은 일반적으로 그 자체적으로는 제한된 가치를 제공한다. 예를 들면 대부분의 사용자들은 윈도나 iOS 내부에 접근하는데 관심이 없다. 그러나 플랫폼들은 공통 프로그래밍 인터페이스와 대규모 설치 기반과 같은 혜택들을 제공한다. 이것은 개발자들이 궁극적으로 사용자들이 좋아하는 애플리케이션들을 개발하고 배포할 수 있게 해준다.

산업 관점에서 플랫폼 주요 특징은 영향력 있는 한 플랫폼 공급자와 대규모 서드파티 개발자 풀 사이에서 기술과 경제적인 상호 의존성이다.

데이터 플랫폼은 무엇인가?

역사적으로 데이터 스택은 플랫폼 정의에 정확하게 맞지 않았다. 예를 들면 상호 의존성은 ETL, 데이터 웨어하우스, 리포팅 벤더들 사이에선 있었다. 그러나, 통합 모델은 일 대 다(one-to-many)가 아니라 일대일one-to-one)이 되는 경향이 있었다. 그리고 전문 서비스들에 크게 보완됐다.

우리가 얘기한 많은 데이터 전문가들에 따르면 이것은, 변할 수 있다.

플랫폼 가설은 데이터 스택의 백엔드-대체로 데이터 인제스천(data ingestion), 스토리지, 프로세싱, 그리고 전환-가 상대적으로 작은 숫자의 클라우드 기반 벤더들 중심으로 통합되기 시작했다고 주장한다. 결과적으로 고객 데이터는 표준 생태계 세트에서 수집되고 있다. 그리고 벤더들은 이 데이터가 다른 개발자들이 쉽게 접근할 수 있도록 만드는데 적극 투자하고 있다.-데이터브릭스 같은 시스템들에서 근본적인 디자인 원칙과 스노우 플레이크 같은 시스템들에서, SQL 표준 플러스 커스텀 컴퓨트 API들로서

프론트엔드 개발자들은 결과적으로 다양한 범위 새 애플리케이션들을 개발하는데 있어 이러한 통합의 단일 포인트를 통해 이점을 봐왔다. 그들은 그것이 어떻게 돌아가는지에 대한 기반에 대한 구체적인 것들을 걱정하지 않고 데이터웨어하우스/레이크하우스에서 깨끗하고 합쳐진 데이터(joined data)에 의존한다. 한 단일 고객은 하나의 코어 데이터 시스템 위에서 많은 애플리케이션들을 사고 개발할 수 있다. 우리는, 금융, 또는 제품 분석 등 전통적인 엔터프라이즈 시스템들도 웨어하우스 네이티브(warehouse-native) 아키텍처로 재개발되고 있는 것을 보기 시작하고 있다.

그림은 이렇게 보일 수 있다.

자료출처: 안드레센 호로위츠 퓨처

분명하게 하면, 이것은, OLTP 데이터베이스나 다른 중요한 백엔드 기술들이, 조만간 사라질 것이라는 것을 의미하지 않는다. 그러나 OLTP 시스템들과 네이티브 통합은 애플리케이션 개발의 핵심적인 부분이 될 수 있다. 시간이 갈수록 점점 더 많은 비즈니스 로직과 애플리케이션 기능성이 이 모델로 바뀔 수 있다. 우리는 이 데이터 플랫폼에서 개발된 전체적인 새로운 제품들 클래스를 보게 될 수 있다.

데이터 앱들의 출현? (The emergence of data apps?)

이 데이터 플랫폼 가설은 여전히, 매우 많이 논의될 필요가 있다. 그러나 우리는, 데이터 플랫폼들 위에서 수평적인 레이어로서 수행되는 진화된 버티컬 SaaS 솔루션들이 늘어나는 것을 보고 있다. 그리고, 초기지만, 우리는, 데이터 스택에서 일어나고 있는 변화들은 적어도, 플랫폼들이 자리를 잡아가고 있다는 아이디어와 일관성이 있다고 주장할 것이다.

예를 들어 스노우플레이크, 데이터브릭스 같은 회사들이 데이터 스택의 안정적인 조각들이 된 것엔 많은 이유가 있다. 좋은 제품, 역량 있는 영업 팀들, 그리고 마찰이 적은 개발 모델을 포함하고 있다. 그러나 이들의 끈끈함은 또한 플랫폼 역할에 의해 강화되는 사례다. 한 고객이 일단, 다양한 애플리케이션들을 이들 시스템들 중 하나로 개발했거나 통합했다면, 종종 전환하는 것은 합리적이지 않다.

유사한 주장이 최근 몇 년간 새로운 데이터 인프라스트럭처 제품들이 급증한 것에 대해서도 만들어질 수 있다. 이 트렌드를 위한 전형적인 설명은 막대한 데이터, 증가하는 기업 예산, 그리고, 넘쳐나는 VC 펀딩과 관련이 있다. 그러나 이것들은 짐작건대 십여 년간 사실이었다. 우리가 지금 이렇게 많은 신제품들이 나타나는 것을 보고 있는 이유는 플랫폼들과 관계가 있을 것이다. 다시 말해, 새로운 데이터 애플리케이션들이 적용되도록 하는 것이 그 어느 때보다 쉽고 이 플랫폼을 적절하게 유지하는 것이 가장 중요하다는 것이다.

마침내, 이 플랫폼 가설은 경쟁적인 역학에서 어떤 예측 할 수 있는 파워를 제공한다. 규모가 있을 때 플랫폼은 매우 가치가 있을 수 있다. 코어 데이터 시스템들 공급자들은 요즘 단지 현재 예산을 위해서 뿐만 아니라 장기적인 플랫폼 지위를 위해 매우 공격으로 경쟁하고 있을 수 있다.

데이터 인제스천과 전환 회사들에 대해 눈길을 사로잡은 가치 또는 메트릭스 레이어나 리버스 ETL 같은 새로운 카테고리들에 대한 고조된 논쟁들 또한 당신이, 그들이, 새로 나타나는 데이터 플랫폼들에서 핵심적인 부분이라고 생각한다면 보다 합리적이다.

미리 보기(Looking ahead)

우리는 여전히 분석적이고 운영적인 데이터 플랫폼을 정의하는 초기 단계에 있다. 그리고 이 플랫폼의 조각들은 항상 변화하고 있다. 따라서 이것은 엄격한 정의보다는 비유로서 보다 유용할 수 있다. 그러나 이것은 소음에서 신호를 걸러내고 왜 시장이, 이렇게 움직이는지에 대한 감을 만드는데 도움을 주는 유용한 도구일 수 있다. 데이터 팀들은 이제 데이터 베이스 발명 이후 그 어느 때보다 그들 뒤에 보다 많은 툴들, 자원들, 그리고 조직적인 모멘텀을 갖고 있다.

그리고 우리는, 어떻게 앱 레이어가 새로 나오는 이 플랫폼 위에서 진화할지 지켜보는 것이 매우 흥분된다.

keyword

작가의 이전글엑시 인피니티 로닌 해킹이 주는 3가지 메시지모던 데이터인프라 혁신 이끄는 톱50 스타트업 해부한다작가의 다음글