brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Sep 11. 2020

142. 빅데이터 (7/8)

<1> 빅데이터 기초


1

데이터 작을 때는 구성

데이터 -- 1개 컴퓨터로 처리


2

데이터 많을 때 구성

데이터 ------ sharding --- worker -- master로 처리


에코시스템이 처리

하둡

Spark

HIVE

PIG


3

Data Proc

Hadoop 작업



<2> 실시간 데이터 처리법


(실시간 데이터) pub/sub ----------- cloud dataflow ---bigquery -- cloud datalab (대시보드)


cloud storage 저장  -----------------cloud dataflow ---bigquery -- cloud datalab (대시보드)


1

pub/sub 

메시징 서비스 

카프라, 레비드 앰큐와 비슷

실시간 데이터 받기


2

cloud dataflow

실시간 데이터 정재 작업

데이터 시간 변경, 정리 작업

ETL작업

파이선, 자바로 작성

파이선, 자바로 작성하므로 간단한 데이터 분석도 가능

클러스토 크기 자동 조정

자동 확장, 최대 값만 잡아줘야 한다. 

코드를 한 번만 작성해서 일관 처리 및 스트리밍.


3

Bigguery

페타 바이트 단위 처리 가능

SQL 구문

빅쿼리 스토리지 아키텍처가 다르다.

쓰기에 집중된 스트로지


감사합니다.

매거진의 이전글 141. Cloud Source 레파지토리(6/8)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari