brunch

You can make anything
by writing

C.S.Lewis

by delight Jun 02. 2023

컴포저블 CDP의 부상

학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 번역 과정에서 의미 전달이 애매한 일부 문장은 삭제했습니다. 이번 글은 안드레센 호로위츠 웹사이트에 올라온 것을 정리한 것입니다.


새로운 데이터 인프라에 대한 글들에서 우리는 새로운 데이터 스택에 대한 투자의 물결로 이어진 기술들을 강조했다. 이들 스택은 온프레미스에서 클라우드로의 마이그레이션, 분석 및 트랜잭션 워크로드를 모두 아우르는 새로운 데이터 레이크 기술의 성숙, 번거로운 ETL 파이프라인에서 보다 원활한 ELT 프로세스로 전환 등 업계에서 나타나는 여러 트렌드들의 정점을 보여준다. 같은 글에서 우리는 이러한 새로운 기술을 기반으로 구축된 새로운 종류 데이터 애플리케이션과 제품들이 등장할 것이라고 예측했다.


우리는 현재 이러한 변화가 본격적으로 시작되고 있는 것을 목격하고 있다. 특히 고객 경험과 만족을 중심으로 한 비즈니스 프로세스, 더욱 개인화되고 통합되는 마케팅 관행, 각각의 인게이지먼트들이 갖는 적시성에 대해 소비자들이 갖는 높은 기대치 등 마케팅 영역에서 고유한 도전들을 해결하고자 하는 데이터 애플리케이션 영역에서 이러한 변화가 두드러지게 나타나고 있다.


이번 글에선 이들 트렌드 대표 사례 중 하나인 고객 데이터 플랫폼(CDP)에 대해 살펴보자.


CDP란 무엇인가?

고객 경험(CX) 시스템에 대한 투자가 크게 증가하는 것은 여러 면에서 데이터 인프라에 대한 투자와 유사하며, 마케팅, 영업, 지원 등 고객과 대면하는 팀들이 직접 투자하는 것을 의미한다. 이들고객 대면 그룹 팀들은 IT 부서와는 별도로 빠르게 변화하는 환경을 지원하고 실제 이벤트에 대응하기 위해 기술 인프라를 구축해 왔다. 이같은 운영에 따르는 복잡성을 지원하는 데이터 계층은 종종 CDP다.


과거 CDP는 주로 대기업 마케팅 전문가들이 고객 세분화 및 신원 확인을 통해 보다 정확한 광고를 게재한다는 명분으로 휘두르는 마술 지팡이였다. 이들은 더 나은 타겟팅과 온라인 참여를 원했다.


요즘 CDP는 고객 데이터를 통합, 분석 및 활성화하고 조직 내 기존 데이터, 기술 및 채널 사일로들을 허무는 것을 목표로 한다. 마케팅 팀에서 주로 고객 타겟팅 및 참여를 위해 채택하던 플랫폼이 이제 첫 접촉부터 판매 후까지 전체 고객 여정으로 확장됐다. 각각의 마테크 애플리케이션, CRM 또는 주요 사용자 데이터 저장소들에 있는 수십 개 데이터 사일로들을 관리해야 하는 팀 대신 CDP를 사용하면 해당 데이터를 통합하고, 팀이 오디언스를 세분화하고, 고객 프로필을 보강하고, 비즈니스 팀이 조치를 취할 수 있는 전반적인 고객 프로필을 그릴 수 다.


대부분의 분석 애플리케이션 제공업체들과 마찬가지로, 기존 CDP 업체들은 클라우드 데이터 웨어하우스 및 데이터 레이크와 같은 개념의 얼리 어답터들이지만, 번들화된 상품을 제공한다. 수집된 고객 데이터는 클라우드 데이터 웨어하우스 외부에 존재하는 또 다른 형태 데이터 사일로다.

 

그 결과, 보다 접근하기 쉽고 셀프 서비스형 최신 데이터 스택으로 전환하는 과정에서 마케팅 및 데이터 리더들은 고객 데이터를 CDP와 데이터 웨어하우스 중 어디에 통합해야 하는지에 대한 딜레마에 직면하게 된다. 그리고 더 중요한 것은 고객 데이터에 빠르고 신뢰할 수 있는 방식으로 액세스해야 하는 비즈니스 사용자는 어디로 가야 할까?


웨어하우스 퍼스트 패러다임에 CDP 적용하기

앞서 언급한 문제들에 대한 이상적인 해결책은 백엔드에 범용 데이터 인프라를 활용하고, 비즈니스 팀은 CDP에서 제공하는 기존 기능들을 사용하도록 하는 것이다. 이렇게 하면 조직은 전환 및 인프라 비용을 최소화하는 동시에 최신 데이터 스택이 제공하는 많은 새로운 기능들의 이점을 계속 누릴 수 있다.


서버리스 아키텍처(BigQuery, Redshift 서버리스, 데이터브릭스 서버리스 SQL): 사용자가 코드를 실행하는 데 필요한 인프라를 관리할 필요 없이 코드를 배포할 수 있는 서버리스 옵션을 사용하면 개발이 가속화된다. 이를 통해 데이터 수집 및 복잡한 변환과 같은 일반적인 작업부터 고객 참여를 위해 구축된 턴키 자동화에 이르기까지 구현 시간을 단축할 수 있다. 


네이티브 데이터 공유(데이터브릭스, 스노우플레이크): 중간에 플랫 파일(flat file, 계층적인 구조를 사용하지 않는 레코드로 구성된 파일)을 사용하는 복잡하고 비용이 많이 드는 데이터 파이프라인 작업이 더 이상 필요하지 않다. 데이터 클라우드에서 제공하는 데이터 공유 기능은 소비자가 데이터에 액세스할 수 있도록 제어되고 간소화된 접근 방식을 제공한다.


페더레이션 쿼리(Federated queries, 스타버스트, 빅쿼리 옴니): 클라우드 기술 도입이 세분화되면서 하나의 클라우드가 아닌 여러 클라우드에 걸쳐 데이터를 쿼리할 수 있어야 할 필요성이 증가했다. 데이터 패브릭 및 데이터 메시와 같은 새로운 아키텍처 패턴이 '둘 이상의 장소'라는 요구 사항을 수용하고 있다.


쿼리 푸시다운(Query push-down, 데이터브릭스, 스노우플레이크): 고객 데이터가 데이터 클라우드에 중앙 집중화되면 비즈니스 애플리케이션에서 쿼리를 생성하고 각 데이터 웨어하우스에서 실행하도록 할 수 있다. 


확장 가능한 인프라와 고급 데이터 거버넌스 제어를 통해 인프라 비용 상승에 따른 골칫거리를 줄이고 데이터 보존에 대한 우려를 없앨 수 있다.


컴포저블 CDP는 데이터 클라우드로 데이터 인프라 전환을 활용하고 '웨어하우스 퍼스트' 아키텍처를 수용하고 있다. 데이터 복제를 최소화하거나 없애고 다양한 기술 공급업체들 솔루션을 배포하는 것이 목표다. 컴포저블 CDP 특징은 다음과 같다.


제로 카피: 고객 데이터 웨어하우스 외부에 데이터가 유지되지 않는 아키텍처다. 이러한 제로 카피 보장은 모든 다운스트림 프로세싱으로 확장되어야 하며 클라이언트 소유 보안 및 액세스 제어를 통해 시행할 수 있어야 한다.


데이터 웨어하우스/레이크에 구애받지 않음: 고객 데이터 활성화 계층 데이터는 다양한 웨어하우스 기술 전반에 걸쳐 데이터에 액세스할 수 있다.이를 통해 데이터 저장소 공급업체에 종속되는 것을 방지하고 다양한 워크로드(예: 분석, ML, 실시간)를 지원하는 여러 인프라 공급업체가 있는 이기종 데이터 스택에 대한 미래에 대비하는데 유용하다.


노코드 인터페이스: 비즈니스 사용자는 CDP 주요 채택자이자 사용자들이다. 이 플랫폼은 코드 없는 UI를 통해 비즈니스 요구사항을 데이터 웨어하우스로 푸시되는 코드와 SQL로 변환한다. 이를 통해 비즈니스 이해관계자와 데이터 팀 간 종속성을 분리해 각자가 독립적으로 빠르게 움직일 수 있다..


한 번 정의하면 어디서나 사용 가능: 컴포저블 CDP는 dbt와 같은 데이터 인프라 도구 위에 구축함으로써 마케팅 컨텍스트에서 더 넓은 조직을 위해 정의된 메트릭을 재사용하고 중앙 데이터 팀과 협업을 개선해 캠페인과 실험을 더욱 능률적으로 실행할 수 있다.


최신 데이터 스택을 기반으로 구축된 새로운 CDP 아키텍처는 훨씬 더 모듈화되어 기업 요구에 맞게 조정할 수 있다. 여러 핵심 데이터 인프라 블록을 간소화하고 통합한 후, 각 구성 요소는 각 구성 요소가 가장 잘하는 일에 집중하고 특정 그룹 또는 대상에 서비스를 제공한다. 이들 핵심 기능을 자세히 살펴보자.


데이터 수집을 위한 고객 데이터 인프라 

데이터는 CDP의 기반이다. 데이터 소스에 따라 여러 가지 방법으로 데이터를 수집할 수 있다.


퍼스트파티 데이터의 경우, 기존 CDP는 독점 태그 또는 SDK를 배포해 디지털 행동 데이터(예: 클릭, 페이지 조회 수 등)를 실시간으로 수집한다. 요즘은 스노우플로우나 세그먼트와 같은 툴을 사용하면 수집기를 한 번 임베드하고 이를 여러 번 사용해 고객 데이터를 데이터 웨어하우스로 전송하거나 이벤트 기반 워크플로우를 트리거할 수 있다.


CRM이나 결제 데이터와 같은 타사 데이터의 경우, 다양한 SaaS 플랫폼에 통합 기능이 내장된 ELT 파이프라인에 특화된 제품이 확실한 옵션으로 부상하고 있다.


주요 기능들은 다음과 같다.


SDK를 통한 실시간 디지털 데이터 수집

실시간 데이터 변환

거버넌스 내장

배치 또는 미니 배치 데이터를 위한 ELT 파이프라인


데이터 모델링 및 신원 확인을 위한 고객 데이터 인프라 

데이터를 수집한 후에는 데이터를 올바르게 정리하고 모델링해 후속 단계에서 발생할 수 있는 노이즈를 줄이는 것이 중요하다. 데이터 분석가가 기본 데이터 웨어하우스에서 여러 팀이 공유할 수 있는 고객 테이블을 준비할 수 있도록 dbt와 같은 BI 또는 변환 도구를 사용할 수 있다. 공유 모델링 계층이 주는 또 다른 이점은 각 고객을 고유하게 식별하고 중복된 엔티티를 해결하는 것이 상대적으로 쉽다는 것이다. 또 하나의 마스터 고객 테이블이 있을 때 보다 경제적인 강화 솔루션을 제공한다.


주요 기능은 다음과 같다.


결정론적 아이덴티티 스티칭 및 확률적 아이덴티티 확인 

SQL 기반 데이터 변환 파이프라인

마스터 엔티티 테이블에 대한 실시간 읽기 및 쓰기

구성 가능하고 자동화된 데이터 정리

타사 데이터 소스를 통한 보강


고객 데이터 스토리지

스토리지 및 컴퓨팅 계층은 로(Raw) 고객 데이터 소스와 쿼리에 필요한 컴퓨팅 리소스 역할을 한다. 이것이 바로 컴포저블 CDP와 기존 번들 아키텍처 간 가장 큰 차이다.: 컴포저블 CDP 스택에서 이 계층은 CDP 공급업체가 아니라 쿼리를 수행하는 조직이 소유하고 관리하는 클라우드 데이터 웨어하우스에서 제공할 가능성이 높다.


현재 워크로드에서는 SQL 기반 분석 워크로드가 여전히 가장 두드러지지만, 더 많은 고객이 머신 러닝 기반 추천과 고객 경험에 대한 개인화를 도입할 가능성이 높다. 이 경우, 이들 워크로드를 위해 특별히 구축된 인프라를 이기종 인프라 스택에 통합해야 하며, 이러한 추세는 레이크하우스 아키텍처의 부상에서 확인할 수 있다.


주요 기능은 다음과 같다.


대규모 고객 데이터세트를 저장하기 위한 스토리지 계층

분석 쿼리 기능을 갖춘 SQL 인터페이스

ML 모델링 및 모델 호스팅

실시간 분석


오디언싱을 위한 고객 데이터 활성화

활성화 계층은 비기술 비즈니스 팀(예: 마케팅, 영업, 서비스, 지원 등)이 이렇게 통합되고 모델링된 고객 데이터에 액세스하는 곳이다. 도메인 전문가가 쉽게 오디언스를 구성하고 인사이트를 도출할 수 있도록 인터페이스가 제공되거나(예: ActionIQ), 다음 작업을 수행하기 위해 데이터가 역방향 ETL을 통해 Hubspot, Marketo 또는 Braze와 같은 최종 사용자 애플리케이션으로 다시 전송된다.


주목해야 할 한 가지 과제는 로열티 기반 할인과 같은 많은 실시간 사용 사례에서 고객 이벤트에 의해 트리거되는 빠른 조치가 필요하다는 것이다. 전체 프로세스는 데이터가 스토리지에 저장되기까지 단 몇 초 만에 이뤄진다. 요즘 리버스 ETL 솔루션(예: 인구조사)은 여전히 대부분 배치 프로세스다. 이 때문에 기존 CDP가 다양한 사용 사례를 처리하는 데 훨씬 더 적합하다.


주요 기능은 다음과 같다.


즉시 사용 가능한 모델링

배치 및 실시간 데이터 세분화

데이터 거버넌스 및 액세스 제어


다음은 무엇?

데이터 인프라 핵심 부분이 계속 성숙해짐에 따라 백엔드에서 데이터 웨어하우스와 이벤트 중심 아키텍처로의 통합이 이뤄지고 있다. 이러한 통합 및 적응형 백엔드는 공유 데이터 모델을 기반으로 새로운 상호 작용을 가능하게 해 고객 데이터 수집, 분석 및 해부를 훨씬 더 오래 지속하고 여러 팀에서 공유할 수 있게 한다. 더 중요한 것은 이러한 아키텍처 전환을 통해 트랜잭션 알림부터 사용자 지정 워크플로우에 이르는 자동화 및 참여 계층을 더욱 모듈화하고 프로그래밍할 수 있다는 점이다. 이 모든 것이 즐겁고 개인화된 소비자 경험으로 이어질 것이다.

작가의 이전글 영지식머신러닝(zkML)과 스마트컨트랙트 진화 시나리오
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari