<1> Pub / Sub
<2> Dataflow
<3> Data Studio 를 활용해 보라.
<4> FEATURE 엔지니어링 ?
아키텍처
데이터 ------- Pub/Sub --------data flow (시간이 맞지 않는것등 정재함)---- Big query / Cloud Storage --- 가시화
<1> Pub / Sub
데이터 수집방법
1
메시지 받는 구조는 어떻게 가는게 좋은가 ?
중간에 매개체를 두는 구성을 한다.
수신자가 다운이 되더라도 보유했다가 메시지를 처리한다.
2
Pub / Sub는 글로벌 메시지 큐
서버리스로 관리가 필요 없음
3
토픽과 서브 스크립션 2가지가 있다.
토픽으로 오면 다양한 서브 스크립션이 있다.
<2> Dataflow
1
GUI는 없다.
코드 기반이다.
2
제공된 템플릿을 활용해서 사용하라.
// 검색
3
오토스케일링 지원한다. 워커노드 자동증가한다.
4
아키텍처 ?
Apach Beam 작업 제출 ------ Dataflow ------ 작업실행 -- 서비스 , 그래프 최적화 등
5
완전관리형
일괄 및 스트리밍 처리 통합
오픈 소스 프로그래밍 모델 사용, 아파치 Beam
워커노드의 지능적 처리
<3> Data Studio 를 활용해 보라.
<4> FEATURE 엔지니어링 ?
머신러닝하는데 필수이다.
일반적인 처리시간은 ?
1차
Dataflow (3개월) - 오래 걸림
2차
Data 프록으로 처리
감사합니다.