brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Dec 12. 2020

146. 구글 온보드-빅쿼리


<1>  데이터 종류?

<2>  데이터 분석 ?

<3>  Dataproc ?

<4>  Bigquery

<5> 빅쿼리 실습 ?



<1>  데이터 종류 2가지 ?


스트림 데이터 와 배치 데이터



<2>  데이터 분석  인프라는 ?


1

데이터 적을때 1대


2

데이터 클때   분산 시스템으로 처리


구조 ?

빅데이터  ------ 샤딩 ---- 워커 여러대가 처리--------- 마스터가 관리



<3>  Dataproc ?


Dataproc 은 관리형  Hadoop  이다.

클러스터 생성 한다.


1

하둡은 -> Dataproc으로 마이그래이션 하라.


2

Dataproc 예약 삭제기능도 있다.

Dataproc 자동확장 (autoscaling) 기능도 제공


3

보저 워커 노드는 ?  선점형  VM 사용 가능


선점형  VM 제공 //  AWS  Spot 인스턴스와 같은 개념.  비용 대폭 절감. 80%절감.

24시간 이후 반납필요.

다른 사용자에게 뺏길수 있다.


4

구글 클라우드에서 데이터처리 스토리지 사용은 클라우드 스토리지로 사용하라 

구글은 클라우드 스토리지에 저장하라.

1.3  Pbps 대역폭

링크를  Hdfs -> GS 로 변경만 하면 된다.

// 다른 클라우드와 다른점 !!!

// 다른클라우드는  워커노드 스토리를 사용한다.




<4>   Bigquery


1

Peta 규모 처리

서버리스 - 서버는 있으나 서버에 대해 신경쓸 필요가 없다.  구글에서 관리!

데이터 암호화


2

DW 필요시?

Data  Lake - 스토리지   ,   데이터를 모은다. 많다. 호수와 같다고 해서 Data Lake


데이터 웨어 하우스 DW ----   Bigquery   ---  창고, 데이터를 정리  ETL.


데이터 마트 ----- Bigquery-Dataset --   창고의 물건을 빼서 진열한다. 마트. 


3

아키텍처 ?

데이터 ---------  Pub/Sub ----- Data Flow  (ETL 함) -----  Bigquery 


4

빅쿼리 아키텍처 ?


서비스 쿼리 엔진 --------- 저장소

둘사이는 Pbps 대역폭  네트워크로 구성


5

빅쿼리 스토리지를 사용하여  빅쿼리가 처리


구성 1

데이터-----------빅쿼리 스토리지  ------------ 빅쿼리


구성 2

데이터-------------- 빅쿼리 직접 처리 가능


6

빅쿼리  GIS기능으로 지리정보 활용이 가능하다.




<5> 빅쿼리 실습 ?


퀵랩 사용하라.

클라우드  shell 사용 = 작은 가상머신 =  데비안 설치되어 있음



감사합니다.

매거진의 이전글 145.구글 온보드- 머신러닝 기초
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari