brunch

147.구글 온보드- 데이터 수집,처리 Pub/Sub

by Master Seo

<1> Pub / Sub

<2> Dataflow

<3> Data Studio 를 활용해 보라.

<4> FEATURE 엔지니어링 ?


아키텍처

데이터 ------- Pub/Sub --------data flow (시간이 맞지 않는것등 정재함)---- Big query / Cloud Storage --- 가시화



<1> Pub / Sub


데이터 수집방법


1

메시지 받는 구조는 어떻게 가는게 좋은가 ?

중간에 매개체를 두는 구성을 한다.

수신자가 다운이 되더라도 보유했다가 메시지를 처리한다.


2

Pub / Sub는 글로벌 메시지 큐

서버리스로 관리가 필요 없음


3

토픽과 서브 스크립션 2가지가 있다.


토픽으로 오면 다양한 서브 스크립션이 있다.



<2> Dataflow


1

GUI는 없다.

코드 기반이다.


2

제공된 템플릿을 활용해서 사용하라.

// 검색


3

오토스케일링 지원한다. 워커노드 자동증가한다.


4

아키텍처 ?

Apach Beam 작업 제출 ------ Dataflow ------ 작업실행 -- 서비스 , 그래프 최적화 등


5

완전관리형

일괄 및 스트리밍 처리 통합

오픈 소스 프로그래밍 모델 사용, 아파치 Beam

워커노드의 지능적 처리



<3> Data Studio 를 활용해 보라.



<4> FEATURE 엔지니어링 ?


머신러닝하는데 필수이다.


일반적인 처리시간은 ?

1차

Dataflow (3개월) - 오래 걸림


2차

Data 프록으로 처리


감사합니다.








keyword
매거진의 이전글146. 구글 온보드-빅쿼리