GCP : Cloud Dataflow

GCP

Dec 24. 2021

9tgQWp5YiKQAs7qG4YalS8YeX47JPEOF9tPW02Ftid00bqYSA7hsbd6MrEwHUCWDhf4TmUarofDdnKNWgBlvJq5febxnY7ghQukVAEqVypkJqXU5gjdUM5LwNfx7hvHJi_vlLWsl

Cloud Dataflow는 통합 스트림 및 일괄 데이터 변환과 처리 패턴을 실행하는 완전 관리형 서비스입니다.

Apache Beam 프로그램을 사용해 파이프라인을 만든 다음 Dataflow 서비스에서 파이프라인을 실행하는 것으로 처리 리소스의 프로비저닝 및 관리 자동화가 가능하고 작업자 리소스가 수평식으로 자동 확장되어 리소스의 활용률을 극대화할 수 있습니다.

(Apache Beam SDK는 일괄 및 스트리밍 파이프라인을 모두 개발할 수 있는 오픈소스 프로그래밍 모델입니다. )

사용자가 직접 클러스터를 관리할 필요가 없는 서버리스 환경이기에 어플리케이션 및 프로그래밍 개발에만 집중할 수 있다는 장점이 있습니다. 또한 간접 운영비 역시 절감됩니다. 지원되는 프로그래밍 언어는 Java, Python, Go가 있습니다.

Cloud Dataflow을 사용하는 데 있어 몇가지 알아야 할 개념이 있습니다.

bMssJMhRdOHCl5P33REWOaCPXf5KADKAvgXE_V5ZGRoDJHsip_ZdsTZ15zjUhqOqP0xa8-K0DlzTzFYPt0_PfAffVboVfx_8Sekt6Dq3i-JPL6_IIMJg4wPrDDCLUusL2TQkQ-GN

파이프라인

파이프라인은 입력 데이터 읽기, 데이터 변환, 출력 데이터 쓰기와 관련된 일련의 계산 전체를 캡슐화합니다. 입력 소스와 출력 싱크는 동일한 유형이거나 서로 다른 유형일 수 있으며 데이터를 한 형식에서 다른 형식으로 변환할 수 있습니다. 파이프라인을 만들 때엔 이를 실행할 위치와 방법을 알려주는 실행 옵션 역시 지정해야 합니다.

PCollection

PCollection은 파이프라인의 데이터 역할을 하는 잠재적으로 분산된 다중 요소 데이터 세트를 나타냅니다. PCollection은 파이프라인 내에서 데이터를 저장하는 개념이므로 생성된 데이터는 수정이 불가능 합니다. 한편 지속적으로 업데이트되는 데이터 소스에서 고정된 크기의 데이터 세트 또는 제한되지 않은 데이터 세트를 보관할 수 있습니다.

변환

변환은 데이터를 변환하는 처리 작업을 나타냅니다. 변환은 PCollection 한 개 이상을 입력으로 가져와, 컬렉션의 각 요소에 지정된 작업을 수행하고, PCollection 한 개 이상 객채를 출력으로 생성합니다. 변환은 데이터에서 수학적 계산 수행, 데이터를 한 형식에서 다른 형식으로 변환, 데이터 그룹화, 데이터 읽기 및 쓰기, 원하는 요소만 출력하도록 데이터 필터링, 데이터 요소를 단일 값으로 결합 등을 포함한 거의 모든 종류의 처리 작업을 수행할 수 있습니다.

Cloud Dataflow는 다음과 같은 데이터 처리 과정을 거치게 됩니다.

이 과정을 통해 데이터를 체계적으로 정리하여 유용하게 사용할 수 있을 뿐만 아니라 데이터가 생성되는 즉시 활용할 수 있습니다.

Pub/Sub 및 BigQuery와 함께 Dataflow를 기반으로 한 이 스트리밍 솔루션은 실시간 비즈니스 분석 정보를 위해 볼륨 변동이 심한 실시간 데이터를 수집, 처리, 분석하는 데 필요한 리소스를 프로비저닝합니다. 이렇게 추상화된 프로비저닝 덕분에 복잡성이 줄어들고 데이터 분석가와 데이터 엔지니어가 모두 스트림 분석을 이용할 수 있습니다.

또한 데이터 인식 리소스 자동 확장을 통해 파이프라인 지연 시간을 최소화하고 리소스 사용률을 극대화하며 데이터 레코드당 처리 비용을 줄이는 장점이 있습니다. 동적 작업 재균등화 기능이 있어 자동으로 파티션이 나누어지며 지속적으로 다시 분산되고, ‘핫 키’가 파이프라인 성능에 미치는 영향을 줄입니다.

Cloud Dataflow는 즉시 사용 가능한 패턴을 통해 사용 설정된 DataFlow의 실시간 AI 기능은 인간에 가까운 지능으로 방대한 이벤트에 대해 실시간 대응이 가능합니다.

마지막으로 유연한 리소스 예약(FlexRS)기능이 있어 시간을 유연하게 사용해야 할때, Dataflow FlexRS는 고급 예약 기술, Dataflow Shuffle 서비스, 선점형 가상 머신(VM) 인스턴스와 일반 VM의 조합을 사용하여 일괄 처리 비용을 줄입니다.

Dataflow 가격 책정은 Dataflow 일괄 또는 스트리밍 작업자가 실제 사용한 리소스에 따라 초 단위로 청구됩니다. Cloud Storage 또는 Pub/Sub과 같은 추가 리소스의 요금은 해당 서비스의 가격 책정에 따라 각각 청구됩니다.

이에 관련해 더 자세한 정보를 알고 싶은 분은 Dataflow 가격 책정을 확인해주세요.

Cloud Dataflow의 가장 큰 장점은 거의 무제한의 용량에 액세스 할 수 있어 중요한 데이터 처리 문제를 해결할 수 있으며 사용하는 만큼만 비용을 지불 할 수 있다는 점입니다. 그렇기 때문에 애플리케이션을 더 쉽고 다양하게 개발할 수 있으며 다양한 GCP 서비스에 통합돼 유연하게 사용가능합니다.

하이프마크에서는 기업의 웹앱로그데이터의 클라우드 적재와 ETL 파이프라인 구성 그 외 클라우드 내 데이터분석 환경 구축 및 분석 시각화 서비스를 함께 제공하고 있습니다.

AWS, GCP등 클라우드 이전 매니지드서비스 및 웹앱로그데이터 태깅 적재 관련 문의사항이 있으시면 하이프마크에 문의 주세요

감사합니다.

참조 : https://cloud.google.com/dataflow?hl=ko

keyword

매거진의 이전글GCP : Cloud DataprocGCP : Cloud Functions매거진의 다음글