<1> 데이터 종류?
<2> 데이터 분석 ?
<3> Dataproc ?
<4> Bigquery
<5> 빅쿼리 실습 ?
<1> 데이터 종류 2가지 ?
스트림 데이터 와 배치 데이터
<2> 데이터 분석 인프라는 ?
1
데이터 적을때 1대
2
데이터 클때 분산 시스템으로 처리
구조 ?
빅데이터 ------ 샤딩 ---- 워커 여러대가 처리--------- 마스터가 관리
<3> Dataproc ?
Dataproc 은 관리형 Hadoop 이다.
클러스터 생성 한다.
1
하둡은 -> Dataproc으로 마이그래이션 하라.
2
Dataproc 예약 삭제기능도 있다.
Dataproc 자동확장 (autoscaling) 기능도 제공
3
보저 워커 노드는 ? 선점형 VM 사용 가능
선점형 VM 제공 // AWS Spot 인스턴스와 같은 개념. 비용 대폭 절감. 80%절감.
24시간 이후 반납필요.
다른 사용자에게 뺏길수 있다.
4
구글 클라우드에서 데이터처리 스토리지 사용은 클라우드 스토리지로 사용하라
구글은 클라우드 스토리지에 저장하라.
1.3 Pbps 대역폭
링크를 Hdfs -> GS 로 변경만 하면 된다.
// 다른 클라우드와 다른점 !!!
// 다른클라우드는 워커노드 스토리를 사용한다.
<4> Bigquery
1
Peta 규모 처리
서버리스 - 서버는 있으나 서버에 대해 신경쓸 필요가 없다. 구글에서 관리!
데이터 암호화
2
DW 필요시?
Data Lake - 스토리지 , 데이터를 모은다. 많다. 호수와 같다고 해서 Data Lake
데이터 웨어 하우스 DW ---- Bigquery --- 창고, 데이터를 정리 ETL.
데이터 마트 ----- Bigquery-Dataset -- 창고의 물건을 빼서 진열한다. 마트.
3
아키텍처 ?
데이터 --------- Pub/Sub ----- Data Flow (ETL 함) ----- Bigquery
4
빅쿼리 아키텍처 ?
서비스 쿼리 엔진 --------- 저장소
둘사이는 Pbps 대역폭 네트워크로 구성
5
빅쿼리 스토리지를 사용하여 빅쿼리가 처리
구성 1
데이터-----------빅쿼리 스토리지 ------------ 빅쿼리
구성 2
데이터-------------- 빅쿼리 직접 처리 가능
6
빅쿼리 GIS기능으로 지리정보 활용이 가능하다.
<5> 빅쿼리 실습 ?
퀵랩 사용하라.
클라우드 shell 사용 = 작은 가상머신 = 데비안 설치되어 있음
감사합니다.