brunch

You can make anything
by writing

C.S.Lewis

by delight Apr 18. 2021

하둡→클라우드 데이터 플랫폼, 클라우데라의 피벗 스토리

학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 이번 글은 넥스트플랫폼에 올라온 클라우데라의 피벗 스토리입니다. 풀 번역이 아니고 주요 내용들을 편집을 가미해 다뤘습니다.


2년 전에만 해도 클라우데라는 뜨거운 하둡 시장에서 한때 톱 벤더들 중 하나였지만 스스로 생존을 위해 싸우고 있다는 것을 알게 됐다.


오픈소스 데이터베이스 분석 기술인 하둡은 십여 년 전 엔터프라이즈 시장에서 대규모 데이터 분석과 관리 문제들에 대한 답으로 비쳤다. 그런데, 아마존웹서비스, 마이크로소프트 애저, 구글 클라우드 같은 퍼블릭 클라우드 업체들이 이같은 워크로드에서 선택지가 되어 가는 것을 보았다.


엔터프라이즈들은 온프레미스에서 이들 애플리케이션을 돌리는데 따른 비용과 관리에 대한 고민을 버리기로 하면서 하둡을 빠르게 백미러 안에 뒀다. 대신 클라우드 클라우드에서 그들 데이터를 관리하고 저장하고 분석했다.


2018년까지 하둡의 운명은 핵심이 분명해지고 있었다. 기업들은 클라우드를 썼을 뿐만 아니라 하둡 및 HDFS 파일 시스템 대신 사용할 수 있는 다른 인메모리 및 가속화된 데이터베이스, 오브젝트 저장소 메뉴를 늘렸다.

그들의 자금을 상업용 하둡 기반 솔루션을 넣은 회사들은, 우선적으로 클라우데라, 호튼웍스, 맵알 테크놀로지스 등-진흙탕에 갇혀있는 진흙 길 어딘가에서 견인력을 찾기 위해 애쓰고 있었다.


클라우데라는 2019년 초, 호튼웍스를 52억 달러에 인수했다. 그러나 그해에도 여전히 퍼블릭 클라우드 업체들이 계속해서 성장하는데 따른 경쟁으로 기존 고객들의 예약이 둔화하고 있다는 것을 알았다.


그해 중반 맵알을 자금 유치나 인수자를 찾지 못한다면 몇 주 안에 영업을 중단할 수 있다고 밝혔다. 2019년 8월 휴렛패커드 엔터프라이즈는 빅데이터 포트폴리오와 인공지능, 머신러닝 및 분석 역량을 강화하기 위해 맵알을 인수한다고 발표했다.


그러나 같은 3월 클라우데라는 하이브리드 클라우드 및 멀티 클라우드 데이터관리 솔루션인 클라우데라 데이터 플랫폼(CDP)을 발표했다. 엔터프라이즈들이 그들이 보유한 AI와 분석 애플리케이션을 쉽게 운영하고 한 곳에서 다른 곳으로 옮길 수 있도록 하기 위해서였다. 또 데이터센터에서 클라우드 및 엣지까지 확장하고 현대 기업들이 발생시키는 대용량 데이터들에 대한 실시간 인사이트를 제공하기 위해서였다.


CDP는 자동화 및 지능적인 마이그레이션 역량도 제공했고 이같은 영역에서 보안, 컴플라이언스, 거버넌스에 일관성을 제공했다. 그리고 클라우데라는 선도적인 퍼블릭 클라우드 업체들과도 협력했다.


2년이 빠르게 지났고 CDP는 클라우데라 부활에 기반이 됐다. 2020년 3월로 끝난 2021년 2분기 회계연도 실적 집계 결과 클라우데라는 매출이 전년 대비 10% 상승한 2억1790만 달러를 기록했다. 서브스크립션 매출은 1억9740만 달러로 18% 성장했다. 연간 반복되는 매출도 12% 늘었다. 해당 분기 클라우데라는 CDP 퍼블릭 클라우드에서 유료 고객들을 40% 늘렸다. 그리고 하이브리드 클라우드 플랫폼인 CDP 프라이빗 클라우드를 공개했다. CDP 프라이빗 클라우드는 컨테이너화된 클라우드에서 운영되는 분석, 확장 가능한 오브젝트 스토어, 그리고 안전한 데이터 레이크를 포함하고 있다.


CDP 엔터프라이즈 데이터 클라우드는 이제 네이티브 클라우드 분석을 위한 데이터 엔지니어링, 데이터 웨어하우징, 머신러닝을 제공한다. AWS와 애저, 온프레미스 프라이빗 클라우드에서도 돌아간다.


크리스나 마헤스와리 클라우데라 제품 관리 수석 이사에 따르면 하둡은 클라우데라 데이터 플랫폼을 떠받치는 30개 이상 오픈소스 프로젝트 들 중 하나다. 비즈니스 관점에서 적은 비중이다. 하둡은 여전히 있지만 요즘 클라우데라는 하둡을 기술이라기 보다는 철학으로 생각한다는 것이 그의 설명이다.


최근 클라우데라는 CDP용 오퍼레이셔널 데이터베이스를 AWS와 애저에서 이용할 수 있게 됐다고 발표했다. 새 오퍼링은 완전히 관리되는 클라우드 네이티브 오퍼레이셔널(operational) 데이터베이스로 확장성과 신뢰성을 위해 디자인됐다. 프라이빗 클라우드에서 온프레미스로도 돌아갈 수 있다.


CDP 오퍼레이셔널 데이터베이스는 워크로드에 따라 자동으로 확장되고 치료하고 조정된다. 이를 기반으로 애플리케이션 개발자들 프로토타입을 한 시간 안에 전달할 수 있게 한다.


마헤스와리 이사에 따르면 애플리케이션을 디자인할 때 개발자들이 선택하는 데이터베이스는 그들이 무엇을 고려하고 무엇을 개발해야 하는지 VS  그들을 대신에 관리하기 위해 무엇을 데이터베이스에 남길지 등과 관련해 중요한 의미들을 갖고 있다.


마헤스와리는 개발자들이 애플리케이션을 개발할 때 직면하는 3가지 중요한 도전들이 있다고 설명한다. 데이터베이스 아키텍처(스케일업 또는 스케일아웃, 샤딩, 파티셔닝, 리스크 도메인, 장애 모드)  관계형 vs 비관계형 트레이드 오프(기존 경험을 활용할 수 있는 능력과 일관된 모델 그리고 친숙함), 스키마 디자인(얼마나 미래 지향적이어야하며 데이터베이스와 애플리케이션을 모두 변경하는 것이 얼마나 어려운지)


이외에도 개발자들은 애플리케이션을 배포하는 위치에 대한 기업 정책을 어디에 둘지 고민할 필요가 있다. 그들 데이터센터 내 온프레미스인지 아니면 몇몇 퍼블릭 클라우드 서비스 업체들 중 하나인지 말이다. 개발자들은 또 데이터를 어디에서 호스팅할지에 대한 회사 정책도 생각할 필요가 있다. 그들 회사 통제 아래 둘지 데이터베이스 공급 업체 통제 아래 둘지 말이다.


궁극적으로 개발자들은 미래 어느 시점에서 이같은 결정을 바꾸기 위한 유연성을 필요로 하는지 여부를 결정할 필요가 있다.


CDP 운영 데이터베이스는 이들 문제를 해결하기 위해 고안됐다. 데이터베이스 아키텍처 관점에서, CDP 운영 데이터베이스는 크기에 제한 없이 자동으로 확장된다. 자동으로 데이터를 파티셔닝한다. 따라서 개발자들은 샤딩에 대해 걱정할 필요가 없고 바로 사용할 수 있다. CDP 운영 데이터베이스는 관계형과 비 관계형을 지원한다. 표준 컴플라이언스에 초점을 맞추고 있다. 또 전통적인 관계형 스키마와 혁신적인 스키마를 지원한다. 하이브리드 클라우드 환경에서도 돌아가며 AWS나 애저 또는 CDP 프라이빗 클라우드에 있는 그들의 버추얼 프라이빗 클라우드에 데이터를 둠으로써 조직들은 데이터 오너십을 유지할 수 있다. 이것은 개발자들이 애플리케이션 일부를 다시 짜는 것을 쉽게 한다.


마헤스와리 이사는 어느 개발자가 CDP 오퍼레이셔널 데이터베이스로 엔터프라이즈 애플리케이션을 쉽게 개발하고 싶어 하는 상황을 예로 들었다.


그에 따르면 이 개발자는 새로운 데이터베이스를 클릭 한 번이면 프로비저닝할 수 있다. CDP 오퍼레이셔널 데이터베이스는 데이터베이스 배치를 간소화하고, 개발자들이 쉽게 새로운 데이터베이스를 몇 분 안에 쉽게 프로비저닝할 수 있게 하고, 애플리케이션 개발을 시작할 수 있게 해준다.


운영을 자동화함으로써, 한 개발자가, 운영 오버헤드를 제거하고 싶다면, CDP 오퍼레이셔널 데이터베이스는 애플리케이션 요구사항들에 기반해 자동으로 데이터 베이스 성능을 향상할 수 있다. 그리고 수작업 없이 장애를 해결할 수 있다.


이와 별도로, CDP 오퍼레이셔널 데이터베이스는 애플리케이션 요구 사항에 따라 자동으로 스케일업하고 스케일다운한다.  이것은 클라우드 비용을 최적화하는데 유용하다.


클라우데라는  엔터프라이즈 기업들이 하이브리드와 멀티 클라우드 환경을 수용하는 현재 트렌드를 잡기 위해 CDP 오퍼레이셔널 데이터베이스를 개발하고 있다. 마헤스와리 이사는 코로나19 팬데믹은 이같은 트렌드를 가속화시키고 있다고 말한다.


IDC에 따르면 2022년까지 전 세계에 걸쳐 엔터프라이즈 90% 이상이 그들 인프라 수요를 위해 온프레미스와 전용 프라이빗 클라우드, 복수의 퍼블릭 클라우드와 레거시 플랫폼을 사용할 것으로 전망된다.


마헤스와리 이사는 "엔터프라이즈 기업들이 하이브리드 환경에서 클라우데라 CDP로 전환함에 따라 그들은 같은 인프라를 사용하면서 새로운 데이터센터 인프라, 클라우드 IaaS, 뿐만 아니라 우리의 CDP 클라우드 서비스들로 확장하고 있다"면서 "이제 고객은 하이브리드 클라우드를 통해 배포 할 수 있으므로 클라우드에서 즐기는 것과 동일한 컴퓨팅 및 스토리지 분리가 가능하다. 고객은 기존 운영 데이터베이스 배치에서 갖고 있던 기존 기술과 기능을 활용할 수도 있다. CDP를 사용하면 프라이빗이든 퍼블릭이든 모든 클라우드에서 모든 데이터를 관리 할 수 있다"고 말했다.

작가의 이전글 알리바바도 막아낸 싱가폴 DBS은행의 디지털전환 스토리
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari