<1> 빅데이터 기초
1
데이터 작을 때는 구성
데이터 -- 1개 컴퓨터로 처리
2
데이터 많을 때 구성
데이터 ------ sharding --- worker -- master로 처리
에코시스템이 처리
하둡
Spark
HIVE
PIG
등
3
Data Proc
Hadoop 작업
<2> 실시간 데이터 처리법
(실시간 데이터) pub/sub ----------- cloud dataflow ---bigquery -- cloud datalab (대시보드)
cloud storage 저장 -----------------cloud dataflow ---bigquery -- cloud datalab (대시보드)
1
pub/sub
메시징 서비스
카프라, 레비드 앰큐와 비슷
실시간 데이터 받기
2
cloud dataflow
실시간 데이터 정재 작업
데이터 시간 변경, 정리 작업
ETL작업
파이선, 자바로 작성
파이선, 자바로 작성하므로 간단한 데이터 분석도 가능
클러스토 크기 자동 조정
자동 확장, 최대 값만 잡아줘야 한다.
코드를 한 번만 작성해서 일관 처리 및 스트리밍.
3
Bigguery
페타 바이트 단위 처리 가능
SQL 구문
빅쿼리 스토리지 아키텍처가 다르다.
쓰기에 집중된 스트로지
감사합니다.