brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Dec 12. 2020

147.구글 온보드- 데이터 수집,처리 Pub/Sub

<1> Pub / Sub

<2> Dataflow 

<3> Data Studio 를 활용해 보라.

<4> FEATURE 엔지니어링 ?


아키텍처

데이터 -------   Pub/Sub --------data flow (시간이 맞지 않는것등 정재함)---- Big query / Cloud Storage ---  가시화



<1> Pub / Sub


데이터 수집방법 


1

메시지 받는 구조는 어떻게 가는게 좋은가 ?

중간에 매개체를 두는 구성을 한다.

수신자가 다운이 되더라도  보유했다가 메시지를 처리한다.


2

Pub / Sub는  글로벌 메시지 큐   

서버리스로 관리가 필요 없음


3

토픽과 서브 스크립션  2가지가 있다.


토픽으로 오면    다양한 서브 스크립션이 있다.  



<2> Dataflow 


1

GUI는 없다.

코드  기반이다.


2

제공된 템플릿을 활용해서 사용하라.

// 검색


3

오토스케일링 지원한다. 워커노드 자동증가한다.


4

아키텍처 ?

Apach Beam 작업 제출 ------  Dataflow ------  작업실행 -- 서비스 , 그래프 최적화 등 


5

 완전관리형

일괄 및 스트리밍 처리 통합

오픈 소스 프로그래밍 모델  사용,  아파치 Beam

워커노드의 지능적 처리



<3> Data Studio 를 활용해 보라.



<4> FEATURE 엔지니어링 ?


머신러닝하는데 필수이다.


일반적인 처리시간은 ?

1차 

Dataflow  (3개월) - 오래 걸림


2차

Data 프록으로 처리


감사합니다.








매거진의 이전글 146. 구글 온보드-빅쿼리
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari