brunch

매거진 GCP

You can make anything
by writing

C.S.Lewis

by 하이프마크 Jan 06. 2022

GCP : Data Catalog

GCP



Data Catalog는 확장성이 우수한 완전 관리형 데이터 탐색 및 메타데이터 관리 서비스로 점점 증가하는 대규모 데이터 애셋을 다루는 오늘날의 기업들에 딱 맞는 기능을 제공합니다. 


Data Catalog는 중앙 집중식 공간을 제공하는데요, 이처럼 통합 뷰가 있으면 적절한 데이터를 쉽게 찾을 수 있습니다. 또한 기술 및 비즈니스 메타데이터로 데이터를 보강하여 데이터 기반 의사 결정을 내리고 유용한 정보를 빠르게 얻을 수 있습니다. 이를 통해 데이터 관리를 개선하여 운영 효율성과 생산성을 향상하고 데이터에 대한 소유권을 기반으로 신뢰성을 높입니다.


또한 Data Catalog는 API 액세스 혹은 Gmail과 동일한 검색 기술로 빌드된 강력한 UI를 통해 팀의 사용자가 데이터를 찾거나 태그를 지정할 수 있도록 해 모든 규모의 데이터 탐색을 간소화시킵니다. 이처럼  완전 관리형 서비스이기 때문에 손쉽게 시작하고 확장할 수 있는데다 설정하거나 관리해야 할 인프라가 없어 비즈니스에 집중할 수 있습니다.


앞서 통합뷰를 제공한다고 설명드렸죠. 커스텀 API 및 UI를 통해 데이터 애셋을 분류할 수 있는 메타데이터 관리 서비스로 위치에 상관없이 데이터의 통합 뷰를 제공합니다. 


그렇다면 Data Catalog는 어떤 방식으로 사용할까요. 먼저 크게 2가지 방법이 있습니다.  


액세스 권한이 있는 데이터 애셋 검색

메타데이터로 애셋 태그하기


Cloud Console, gcloud 명령줄 인터페이스(CLI), Data Catalog API를 사용하거나 Cloud 클라이언트 라이브러리를 통해 API를 호출하여 Data Catalog에 액세스할 수 있습니다.





또한 위처럼 구글 클라우드 시스템 소스에서 데이터 자산에 대한 기본 메타데이터를 카탈로그할 수 있습니다. 항목은 다음과 같습니다.   


BigQuery 데이터 세트, 테이블, 뷰

게시/구독 주제

Dataproc Metastore 서비스, 데이터베이스, 테이블


Data Catalog API를 사용하여 커스텀 데이터 리소스 유형의 항목을 만들고 관리할 수도 있고 데이터가 카탈로그화된 후 태그를 사용하여 고유한 메타데이터를 이러한 자산에 추가할 수 있습니다.


이렇듯 Data Catalog는 데이터 자산에 대한 기술 및 비즈니스 메타데이터에 잘 조형된 구조화된 검색 기능과 조건자 기반 필터링을 제공합니다. 데이터 애셋을 검색하고 탐색하려면 데이터 애셋의 메타데이터를 읽을 수 있어야 합니다.


또한 Data Catalog는 사용자가 생성한 태그 같은 일부 메타데이터를 제어하지만, 기본 스토리지 시스템에서 가져온 모든 메타데이터에 대해서는 기본 스토리지 시스템에서 제공하는 메타데이터와 권한을 제어할 수 없고 반영하기만 하는 읽기 전용 서비스입니다. 추가, 삭제, 업데이트 등 애셋의 기본 메타데이터 수정은 기본 스토리지 시스템에서 수행할 수 있습니다.


특정 프로젝트의 경우 Data Catalog는 다음 구글 클라우드 애셋을 자동으로 분류합니다.  


BigQuery 데이터 세트, 테이블, 뷰

게시/구독 주제

(미리보기)Dataproc Metastore 서비스, 데이터베이스, 테이블


메타데이터 액세스 권한이 있는 프로젝트 ID 내의 애셋을 분류하는 것 외에 Data Catalog는 공개 데이터 세트가 포함된 BigQuery 프로젝트에 저장된 데이터도 분류할 수 있습니다.

그렇다면 Data Catalog를 실제로 어떻게 사용하는지 살펴볼까요.





위 다이어그램에서 보이는 것처럼 온프레미스 RDBMS 애셋에서 메타데이터를 수집할 수 있는데요. Data Catalog API를 사용해 원하는 데이터 소스에서 메타데이터를 수집하는 자체 커넥터를 만들 수도 있지만 구글에서는 MySQL, PostgreSQL, Hive, Teradata, Oracle, SQL Server, Redshift 등 다양한 공용 데이터 소스에서 메타데이터를 수집하는 데 '바로 사용할 수 있는' 오픈소스 커넥터를 제공합니다. 이런 방식으로 Data Catalog에서는 모든 애셋을 검색하고 태그를 지정할 수 있습니다.


보안 역시 대비해뒀습니다. 데이터 거버넌스 기반으로 Cloud IAM 및 Cloud DLP 통합을 통해 데이터 보안 정책을 시행하고 규정 준수를 유지하여 적합한 사용자가 적절한 데이터에 액세스할 수 있도록 하며 민감한 정보를 보호합니다.


이처럼  Data Catalog는 잘 사용한다면 무척 유용한 서비스입니다. 구글 검색 기술 기반의 간단하고 사용하기 쉬운 데이터 탐색용 검색 인터페이스를 제공하며 기술 및 비즈니스 메타데이터를 캡처할 수 있는 카탈로그 시스템을 구축하고 있어 편리함을 제공한다는 장점이 있습니다.


하이프마크에서는 기업의 웹앱로그데이터의 클라우드 적재와 ETL 파이프라인 구성 그 외 클라우드 내 데이터분석 환경 구축 및 분석 시각화 서비스를 함께 제공하고 있습니다.


AWS, GCP등 클라우드 이전 매니지드서비스 및 웹앱로그데이터 태깅 적재 관련 문의사항이 있으시면 하이프마크에 문의 주세요


감사합니다. 


참조 : https://cloud.google.com/data-catalog/docs/concepts/overview

참조 : https://cloud.google.com/data-catalog

매거진의 이전글 GCP : Looker
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari