글로벌 클라우드 컴퓨팅 시장은 아마존웹서비스(AWS), 마이크로소프트 애저, 구글 클라우드로 대표되는 메이저 퍼블릭 클라우드 서비스 말고도 관심을 끌어모으는 회사들이 여럿이다.
지난해 인상적인 기업 공개(IPO)로 주목받는 클라우드 기반 데이터웨어하우스 업체 스노우플레이크, 기업들이 멀티 클라우드를 보다 효과적으로 쓸 수 있도록 지원하는 것이 주특기인 하시코프 등 엔터프라이즈 컴퓨팅 분야에서 영향력 있는 테크 스타트업들도 속속 등장하고 있다.
데이터브릭스도 이같은 업체 중 하나다.
데이터브릭스는 올 초 AWS, 구글 모회사인 알파벳 산하 벤처 투자 회사인 캐피털G, 마이크로소프트, 세일즈포스벤처스 등 거물급 테크 기업들의 지원 속에 10억 달러 규모를 유치하며 글로벌 테크 분야에서 화제가 됐다. 투자 당시 데이터브릭스는 기업 가치를 280억 달러 규모로 평가받아 더욱 관심을 끌었다.
스노우플레이크는 기업 내 관계형 데이터베이스(RDB)에 담기는 정형 데이터를 분석할 수 있는 DW를 클라우드로 제공한다. AWS 등 퍼블릭 클라우드 업체들이 자체적으로 클라우드 DW를 제공하는 상황에서도 스노우플레이크는 아직까지는 성장세를 보여주는 모습이다.
데이터브릭스는 클라우드 기반 데이터레이크(Datalake) 플랫폼을 표방하는 회사다. 정형 데이터를 주로 커버하는 DW와 달리 데이터레이크에는 정형 데이터, 이미지 같은 비정형 데이터, 반정형 데이터를 모두 담아, 분석에 활용할 수 있게 해준다.
외신들에 따르면 데이터브릭스는 오픈소스 기반 빅데이터 처리 기술인 아파치 스파크를 기반으로 한 빅데이터 플랫폼을 제공하는 회사로 주로 소개된다. 오픈소스 프로젝트인 스파크를 클라우드 상에서 기업들이 쉽게 쓸 수 있는 매니지드 서비스 형태로 제공하는 것으로 알려져 있다.
하지만 클라우드 기반 매니지드 스파크 서비스는 데이터브릭스가 제공하는 여러 솔루션 중 하나다.
물론 데이터브릭스 주요 창업 멤버들이 스파크를 처음에 만든 사람들이어서 스파크가 데이터브릭스를 상징하는 키워드가 될만 하지만 스파크가 데이터레이크에 전부는 아니다. 데이터브릭스가 제공하는 또 하나의 오픈소스 프로젝트인 '델타레이크'가 오히려 데이터레이크 측면에서 보면 핵심적인 제품이라고 할 수 있다.
회사 측에 따르면 델타레이크는 데이터 엔지니어, 데이터 과학자, 데이터 분석가 등 데이터 관련된 다양한 부서 사람들이 같은 데이터레이크 플랫폼에서 같은 기술로 자신들 업무를 할 수 있도록 해줘 업무 사일로(Silos)를 최소화해준다.
데이터브릭스는 스파크, 델타레이크 외에 ML플로우라는 제품도 제공한다. ML플로우는 기업들이 데이터레이크 환경에서 머신러닝 업무를 효과적으로 진행할 수 있도록 관리해주는 솔루션이다.
기업 시장에서 AI 머신러닝 활용에 대한 관심은 많지만 현실은 그리 만만치 않다. 현실에선 실패하는 AI 프로젝트들이 생각보다 많다고 한다. 머신러닝에 필요한 데이터 관련 업무들에 사일로가 많다는 것도 기업들이 AI로 생각보다 재미를 보지 못하게 하는 요인들 중 하나로 꼽힌다. 하지만 데이터브릭스 플랫폼은 이같은 문제를 크게 개선했기 때문에 머신러닝 진입 장벽은 낮추고 효과는 끌어올릴 수 있다는 게 회사 측 설명이다.
데이터브릭스가 자사 플랫폼에 대해 데이터분석과 AI를 통합하는 단 하나의 플랫폼임을 강조하는 것도 이와 무관치 않다. 머신러닝에 따르는 복잡성을 단순화해 AI로 성과로 낼 수 있게 지원하는 것이 데이터브릭스가 해결하려는 문제다.
데이터브릭스는 클라우드 네이티브를 표방하는 회사다. 클라우드에서 태어났고 클라우드에 있기 때문에 더욱 강점을 발휘할 수 있다는 게 회사 측 설명이다.
AI를 위한 데이터 분석은 항상 일어나는 워크로드가 아니다. 대규모 분석 작업을 할 때는 많은 컴퓨팅 역량을 요구할 수 있지만 평소에는 큰 자원을 요구하지 않는 경우가 많다. 이런 상황에선 구축형 모델은 비용 측면에선 부담일 수 있기 때문에 클라우드가 유리하다는 메시지로 풀이된다. 스노우플레이크와 마찬가지로 데이터브릭스도 퍼블릭 클라우드 서비스들과 나름 경쟁하는 사이다. AWS나 마이크로소프트 애저 모두 스파크 기반 매니지드 서비스를 자체적으로 제공하고 있다.
그런데도 이들 회사가 데이터브릭스에 투자한 것을 보면 일부 경쟁은 될지 모르겠지만 큰 틀에서 보면 클라우드 사업에 도움이 된다고 판단한 듯 하다. 앞으로는 어떻게 될지 몰라도 지금은 데이터브릭스가 데이터레이크 기반 AI 서비스로서 자신들 클라우드 확산에 긍정적인 역할을 할 것이라 기대하고 있지 싶다.