142. 빅데이터 (7/8)

Sep 11. 2020

<1> 빅데이터 기초

데이터 작을 때는 구성

데이터 -- 1개 컴퓨터로 처리

데이터 많을 때 구성

데이터 ------ sharding --- worker -- master로 처리

에코시스템이 처리

하둡

Spark

HIVE

PIG

등

Data Proc

Hadoop 작업

<2> 실시간 데이터 처리법

(실시간 데이터) pub/sub ----------- cloud dataflow ---bigquery -- cloud datalab (대시보드)

cloud storage 저장 -----------------cloud dataflow ---bigquery -- cloud datalab (대시보드)

pub/sub

메시징 서비스

카프라, 레비드 앰큐와 비슷

실시간 데이터 받기

cloud dataflow

실시간 데이터 정재 작업

데이터 시간 변경, 정리 작업

ETL작업

파이선, 자바로 작성

파이선, 자바로 작성하므로 간단한 데이터 분석도 가능

클러스토 크기 자동 조정

자동 확장, 최대 값만 잡아줘야 한다.

코드를 한 번만 작성해서 일관 처리 및 스트리밍.

Bigguery

페타 바이트 단위 처리 가능

SQL 구문

빅쿼리 스토리지 아키텍처가 다르다.

쓰기에 집중된 스트로지

감사합니다.

keyword