146. 구글 온보드-빅쿼리

by Master Seo

Dec 12. 2020

<1> 데이터 종류?

<2> 데이터 분석 ?

<3> Dataproc ?

<4> Bigquery

<5> 빅쿼리 실습 ?

<1> 데이터 종류 2가지 ?

스트림 데이터 와 배치 데이터

<2> 데이터 분석 인프라는 ?

데이터 적을때 1대

데이터 클때 분산 시스템으로 처리

구조 ?

빅데이터 ------ 샤딩 ---- 워커 여러대가 처리--------- 마스터가 관리

<3> Dataproc ?

Dataproc 은 관리형 Hadoop 이다.

클러스터 생성 한다.

하둡은 -> Dataproc으로 마이그래이션 하라.

Dataproc 예약 삭제기능도 있다.

Dataproc 자동확장 (autoscaling) 기능도 제공

보저 워커 노드는 ? 선점형 VM 사용 가능

선점형 VM 제공 // AWS Spot 인스턴스와 같은 개념. 비용 대폭 절감. 80%절감.

24시간 이후 반납필요.

다른 사용자에게 뺏길수 있다.

구글 클라우드에서 데이터처리 스토리지 사용은 클라우드 스토리지로 사용하라

구글은 클라우드 스토리지에 저장하라.

1.3 Pbps 대역폭

링크를 Hdfs -> GS 로 변경만 하면 된다.

// 다른 클라우드와 다른점 !!!

// 다른클라우드는 워커노드 스토리를 사용한다.

<4> Bigquery

Peta 규모 처리

서버리스 - 서버는 있으나 서버에 대해 신경쓸 필요가 없다. 구글에서 관리!

데이터 암호화

DW 필요시?

Data Lake - 스토리지 , 데이터를 모은다. 많다. 호수와 같다고 해서 Data Lake

데이터 웨어 하우스 DW ---- Bigquery --- 창고, 데이터를 정리 ETL.

데이터 마트 ----- Bigquery-Dataset -- 창고의 물건을 빼서 진열한다. 마트.

아키텍처 ?

데이터 --------- Pub/Sub ----- Data Flow (ETL 함) ----- Bigquery

빅쿼리 아키텍처 ?

서비스 쿼리 엔진 --------- 저장소

둘사이는 Pbps 대역폭 네트워크로 구성

빅쿼리 스토리지를 사용하여 빅쿼리가 처리

구성 1

데이터-----------빅쿼리 스토리지 ------------ 빅쿼리

구성 2

데이터-------------- 빅쿼리 직접 처리 가능

빅쿼리 GIS기능으로 지리정보 활용이 가능하다.

<5> 빅쿼리 실습 ?

퀵랩 사용하라.

클라우드 shell 사용 = 작은 가상머신 = 데비안 설치되어 있음

감사합니다.

keyword

매거진의 이전글145.구글 온보드- 머신러닝 기초147.구글 온보드- 데이터 수집,처리 Pub/Sub매거진의 다음글