brunch

U6. 데이터브릭스(Databricks)

AI 시대를 위한 데이터 플랫폼인가, 아니면 또 다른 인프라 공룡인가?

by 지역이음이

0. 산업 : Enterprise Tech


데이터 인프라 시장은 언제나 거대한 전환의 연속이었다. 메인프레임에서 클라이언트-서버로, 그리고 클라우드로 이전하면서 데이터의 생성, 저장, 처리 방식은 근본적으로 변화했다. 지금 우리는 또 다른 거대한 파도, 바로 인공지능(AI)이라는 쓰나미의 정점에 서 있다. 이 AI 혁명의 근간에는 방대한 양의 데이터와 이를 처리할 수 있는 강력한 플랫폼이 필수적이다. 그리고 이 지점에서 데이터브릭스(Databricks)라는 이름이 점점 더 중요하게 부각되고 있다.


Apache Spark라는 오픈소스 프로젝트에서 출발한 데이터브릭스는 현재 620억 달러(2024년 12월 기준)의 기업 가치를 인정받는 거대 기업으로 성장했다. 그들의 핵심 제품은 "레이크하우스(Lakehouse)"라는, 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 아키텍처다. 이는 단순한 기술적 선택을 넘어, 데이터 처리 방식에 대한 근본적인 철학의 변화를 의미하며, 특히 AI 워크로드에 대한 전략적 포석으로 읽힌다.


하지만 데이터브릭스의 여정은 순탄치만은 않다. 클라우드 데이터 웨어하우징의 강자 스노플레이크(Snowflake)와의 치열한 경쟁, 빠르게 진화하는 AI 기술 환경에 대한 적응, 그리고 무엇보다 "플랫폼"으로서 진정한 지배력을 확보할 수 있을지에 대한 질문이 끊임없이 제기된다.


이 글에서는 데이터브릭스의 전략, 기술적 차별점, 창업가들의 기업가 정신이 회사에 미친 영향, 그리고 AI 시대에 이들이 진정한 데이터 플랫폼으로 자리매김할 수 있을지에 대해 심층적으로 분석하고자 한다.



1. 실험실에서 시장으로: 데이터브릭스 창업가들의 기업가 정신


데이터브릭스의 성공 스토리는 단순히 뛰어난 기술 하나만으로 설명될 수 없다. 그 이면에는 UC 버클리의 연구실에서 시작된 아이디어를 거대한 상업적 기업으로 전환시킨 창업가들의 예리한 통찰력과 불굴의 기업가 정신이 자리 잡고 있다. Ali Ghodsi (CEO), Ion Stoica (Executive Chairman), Matei Zaharia (CTO) 등 핵심 창업자들은 Apache Spark의 탄생을 이끈 주역들로, 분산 시스템과 빅데이터에 대한 깊이 있는 학문적 이해를 갖추고 있었다.


그러나 그들은 학문에만 머무르지 않았다. Spark가 가진 엄청난 잠재력에도 불구하고, 기업 환경에서 이를 손쉽게 활용하기에는 기술적 장벽과 운영의 복잡성이 존재한다는 것을 간파했다. 바로 이 "페인 포인트"가 그들에게는 거대한 사업 기회로 보였던 것이다. Ion Stoica는 이미 Conviva와 같은 스타트업을 공동 창업한 경험이 있었고, 이러한 경험은 학문적 성과를 시장이 원하는 제품으로 연결하는 데 중요한 역할을 했다. Matei Zaharia는 Spark의 아버지로서 기술의 핵심을 꿰뚫고 있었으며, Ali Ghodsi는 CEO로서 이 모든 기술적 자산을 강력한 비즈니스 전략으로 전환시키는 데 탁월한 능력을 발휘했다.


Ghodsi의 리더십 하에 데이터브릭스는 단순히 Spark를 지원하는 회사를 넘어, 데이터 관리와 분석의 미래에 대한 담대한 비전을 제시했다. 그는 초기부터 엔터프라이즈 시장의 요구를 정확히 파악하고, 강력한 세일즈 조직을 구축했으며, Microsoft와 같은 거대 기업과의 전략적 파트너십(Azure Databricks)을 통해 시장 지배력을 빠르게 확장했다. 그의 "첫 번째 원칙"에 기반한 사고, 데이터 기반 의사결정, 그리고 투명성과 효율성을 강조하는 문화는 데이터브릭스 성장의 핵심 동력이었다. 초기 Andreessen Horowitz의 Ben Horowitz가 회사 설립을 독려한 일화는 이들의 잠재력을 일찌감치 시장이 인지했음을 보여준다.


이들의 기업가 정신은 단순히 회사를 설립하고 자금을 조달하는 것을 넘어선다. 그들은 기술의 방향을 설정하고, 시장의 판도를 바꾸려는 야심을 가지고 있었다. Spark의 한계를 극복하고 데이터 레이크와 데이터 웨어하우스의 통합이라는, 당시로서는 매우 도전적인 "레이크하우스" 개념을 밀어붙인 것은 이러한 기업가 정신의 발로였다. 또한, Redash, Okera, 그리고 결정적으로 MosaicML과 같은 전략적 인수는 시장 변화에 기민하게 대응하고 미래를 준비하는 그들의 공격적인 면모를 보여준다.


2. 오픈소스의 양날의 검: Spark에서 Databricks로


데이터브릭스의 기원은 UC 버클리의 AMPLab에서 탄생한 Apache Spark다. Spark는 Hadoop MapReduce의 한계를 극복하며 인메모리 처리와 빠른 속도로 빅데이터 분석 시장에 혁신을 가져왔다. 오픈소스 프로젝트로서 Spark는 빠르게 광범위한 사용자층과 컨트리뷰터 커뮤니티를 확보했다. 이는 데이터브릭스에게 초기 인지도와 기술적 신뢰성이라는 강력한 무기를 제공했다. 창업자들이 Spark의 핵심 개발자들이었다는 사실은 그 자체로 마케팅이었고, 초기 투자 유치에도 결정적인 역할을 했다.


그러나 오픈소스는 그 자체로 지속 가능한 비즈니스 모델이 되기 어렵다. 많은 기업이 Spark의 강력함은 인정했지만, 실제 운영, 관리, 보안, 엔터프라이즈급 지원에 대한 갈증을 느꼈다. 데이터브릭스는 바로 이 지점을 파고들었다. Spark를 더 쉽게, 더 안정적으로, 그리고 더 많은 부가 기능을 통합하여 사용할 수 있는 상용 플랫폼, 즉 "Databricks"를 제공한 것이다. 이는 오픈소스의 장점(혁신, 커뮤니티)과 상용 소프트웨어의 장점(안정성, 지원)을 결합하려는 전형적인, 그리고 매우 성공적인 전략이었다. 창업자들의 깊은 기술적 이해는 오픈소스 프로젝트의 한계를 정확히 진단하고 이를 해결하는 상업용 제품을 개발하는 데 결정적인 역할을 했다.


3. "레이크하우스"라는 승부수: 아키텍처가 전략을 결정한다


데이터브릭스 전략의 핵심에는 "레이크하우스" 아키텍처가 있다. 이는 기존의 데이터 저장 방식에 대한 근본적인 도전이다.

데이터 레이크: 저렴한 비용으로 모든 형태(정형, 비정형)의 데이터를 원시 형태로 저장할 수 있지만, 데이터 관리, 품질, 거버넌스에 약점이 있었다. 주로 데이터 과학자들이나 머신러닝 엔지니어들이 선호했다.

데이터 웨어하우스: 정형 데이터를 중심으로 스키마를 정의하고, BI 및 SQL 분석에 최적화되어 안정성과 성능을 제공하지만, 비정형 데이터 처리나 머신러닝 워크로드에는 유연성이 떨어지고 비용이 높았다.


레이크하우스는 이 둘을 통합하겠다는 야심 찬 비전이다. Delta Lake와 같은 오픈소스 기술을 통해 데이터 레이크에 ACID 트랜잭션, 데이터 버전 관리, 스키마 관리 등의 기능을 추가함으로써, 하나의 저장소에서 BI 분석과 AI/ML 워크로드를 모두 효율적으로 처리할 수 있게 한다는 것이다.


이는 단순히 기술적 통합을 넘어선다. 데이터 사일로를 제거하고, 다양한 데이터 사용자(데이터 엔지니어, 데이터 과학자, 비즈니스 분석가)가 동일한 데이터에 접근하여 협업할 수 있는 기반을 마련한다. 특히 AI 모델 학습에 필요한 방대한 양의 비정형 데이터를 효과적으로 관리하고, 동시에 BI를 위한 정형 데이터 분석도 지원함으로써, 데이터브릭스는 AI 시대에 최적화된 데이터 인프라를 제공하려 한다.


4. 데이터 플랫폼 전쟁: Databricks vs. Snowflake


데이터브릭스의 가장 강력한 경쟁자는 단연 스노플레이크다. 두 회사는 클라우드 기반 데이터 플랫폼 시장을 양분하며 치열한 경쟁을 벌이고 있지만, 그 접근 방식에는 분명한 차이가 있다.

스노플레이크: 클라우드 네이티브 데이터 웨어하우스로 시작하여 사용 편의성과 뛰어난 SQL 성능, 스토리지와 컴퓨팅의 분리를 통해 시장을 빠르게 장악했다. 초기에는 BI 및 분석 워크로드에 강점을 보였으나, 점차 Python 지원 강화, Snowpark 등을 통해 데이터 과학 및 머신러닝 영역으로 확장하고 있다. 그들의 강점은 여전히 잘 구조화된 데이터를 다루는 데 있으며, 독자적인 아키텍처를 기반으로 한다.

데이터브릭스: Spark와 오픈소스 생태계에 뿌리를 두고, 레이크하우스 아키텍처를 통해 비정형 데이터를 포함한 모든 유형의 데이터 처리와 AI/ML 워크로드에 집중해 왔다. 그들의 전략은 개방성과 유연성, 그리고 AI/ML 워크로드에 대한 심층적인 지원에 있다.


이 경쟁은 아키텍처 철학의 대결이기도 하다. 스노플레이크가 관리 용이성과 SQL 중심의 접근으로 넓은 사용자층을 확보하려 한다면, 데이터브릭스는 레이크하우스를 통해 데이터의 근본적인 통합과 AI 워크로드에 대한 우위를 점하려 한다. 최근 스노플레이크도 데이터 레이크 기능을 강화하고 AI 관련 인수를 진행하는 등 레이크하우스의 개념을 일부 수용하는 모습을 보이지만, 근본적인 아키텍처와 출발점의 차이는 여전히 존재한다.


데이터브릭스에게 있어 오픈소스 기반이라는 점은 스노플레이크의 독자적인 기술 스택에 비해 벤더 종속성을 줄여준다는 장점이 있지만, 동시에 관리의 복잡성이나 최적화의 어려움이라는 과제를 안겨주기도 한다. 이 경쟁의 승자는 누가 더 효과적으로 기업의 모든 데이터를 통합하고, AI 시대를 위한 가장 강력하고 유연한 플랫폼을 제공하느냐에 따라 갈릴 것이다.


5. AI라는 새로운 전장: 단순 데이터 처리를 넘어서


데이터브릭스가 단순한 빅데이터 처리 플랫폼을 넘어 AI 플랫폼으로 진화하려는 야심은 최근의 행보에서 더욱 명확해진다. 14억 달러에 인수한 MosaicML (생성형 AI 모델 학습 플랫폼)과 자체 개발한 오픈소스 LLM인 DBRX 출시는 이러한 전략의 정점이다.


이는 매우 시의적절한 움직임이다. 기업들이 자체적으로 LLM을 파인튜닝하거나 처음부터 학습시키려는 수요가 폭발적으로 증가하고 있기 때문이다. 데이터브릭스는 자사의 레이크하우스에 저장된 방대한 기업 데이터를 활용하여, MosaicML의 기술로 모델을 학습시키고, MLflow를 통해 배포 및 관리하며, Unity Catalog로 거버넌스를 확보하는 엔드-투-엔드 AI 개발 플랫폼을 제공하겠다는 그림을 그리고 있다.


이는 스노플레이크와의 경쟁에서도 중요한 차별점이 될 수 있다. 스노플레이크가 데이터 웨어하우징에서 AI로 확장하는 반면, 데이터브릭스는 AI/ML에 필요한 데이터 처리 능력과 인프라에서 출발하여 LLM과 생성형 AI로 자연스럽게 영역을 넓히고 있기 때문이다. DBRX를 오픈소스로 공개한 것 또한 주목할 만하다. 이는 커뮤니티의 기여를 통해 모델을 빠르게 발전시키고, 동시에 데이터브릭스 플랫폼으로 사용자를 유인하려는 이중 포석으로 해석된다.


6. Databricks의 해자(Moat)는 무엇인가?


데이터브릭스가 구축하려는 해자는 다음과 같이 요약할 수 있다.

레이크하우스 아키텍처: 모든 데이터를 통합 관리하고, AI/ML 워크로드에 최적화된 유연성을 제공한다. 이는 한번 채택되면 전환 비용이 높은 강력한 기술적 해자가 될 수 있다.

창업팀의 DNA와 오픈소스 리더십: Spark에서 이어진 깊은 기술적 이해와 오픈소스 생태계(Spark, Delta Lake, MLflow, DBRX)에 대한 영향력은 개발자 커뮤니티를 확보하고 기술 표준을 주도하는 데 기여한다.

통합 AI 플랫폼: 데이터 수집부터 모델 학습, 배포, 거버넌스까지 전 과정을 단일 플랫폼에서 제공함으로써 사용자 락인(Lock-in) 효과와 함께 AI 개발의 복잡성을 해결한다.

AI/ML 전문성과 시장 선점: 창업 초기부터 이어져 온 AI/ML 분야의 깊은 이해와 기술력, 그리고 최근 LLM 분야에 대한 과감한 투자는 AI 시대를 맞아 강력한 경쟁 우위로 작용할 것이다.


그러나 이러한 해자는 아직 완성된 것이 아니다. 스노플레이크와의 경쟁은 여전히 치열하며, AWS, Google Cloud, Microsoft Azure와 같은 하이퍼스케일러들 역시 자체적인 데이터 및 AI 플랫폼을 강화하고 있다. 데이터브릭스가 이들 사이에서 독자적인 가치를 지속적으로 증명해야 하는 과제를 안고 있다.


7. 결론: AI 시대의 데이터 플랫폼, 그러나 아직 증명할 것이 많다


데이터브릭스는 의심할 여지없이 데이터 인프라 시장의 중요한 플레이어이며, 특히 AI 시대를 맞아 그 중요성은 더욱 커지고 있다. Spark라는 강력한 오픈소스 엔진에서 출발하여, 창업가들의 비전과 실행력을 바탕으로 레이크하우스라는 혁신적인 아키텍처를 제시하고, 최근에는 생성형 AI 분야로 빠르게 확장하며 시장을 주도하려는 야심을 분명히 보여주고 있다.


그들의 전략은 명확하다: 모든 데이터를 한 곳에 모아(레이크하우스), AI와 데이터 과학을 위한 최고의 도구와 플랫폼을 제공하고(Databricks 플랫폼, MLflow, MosaicML), 이를 통해 기업의 데이터 기반 혁신을 가속화하는 것이다. DBRX와 같은 오픈소스 LLM은 이러한 생태계를 더욱 풍부하게 만들 것이다.


그러나 "플랫폼"이라는 단어는 신중하게 사용되어야 한다. 진정한 플랫폼은 강력한 네트워크 효과와 높은 전환 비용을 통해 지속 가능한 경쟁 우위를 확보해야 한다. 데이터브릭스는 기술적으로는 이러한 기반을 다지고 있지만, 스노플레이크와의 경쟁, 하이퍼스케일러들의 공세, 그리고 빠르게 변화하는 AI 기술 환경 속에서 그 지위를 확고히 다지기 위해서는 아직 갈 길이 멀다.


궁극적으로 데이터브릭스의 성공은 그들이 얼마나 효과적으로 기업들이 AI의 잠재력을 실현하도록 도울 수 있느냐에 달려있을 것이다. 기술적 우위를 넘어, 실제 비즈니스 가치를 창출하는 사용 사례들을 만들어내고, 개발자와 기업 모두에게 매력적인 생태계를 구축할 수 있다면, 데이터브릭스는 단순한 인프라 제공자를 넘어 AI 시대를 정의하는 핵심 플랫폼 중 하나로 자리매김할 수 있을 것이다. 그들의 여정은 이제 막 중요한 변곡점을 지나고 있다.


이 글은 Google Gemini, Chatgpt, Genspark 등 인공지능과 함께 작성하였습니다.

keyword
작가의 이전글U5. 쉬인(SHEIN)