brunch

146. 구글 온보드-빅쿼리

by Master Seo


<1> 데이터 종류?

<2> 데이터 분석 ?

<3> Dataproc ?

<4> Bigquery

<5> 빅쿼리 실습 ?



<1> 데이터 종류 2가지 ?


스트림 데이터 와 배치 데이터



<2> 데이터 분석 인프라는 ?


1

데이터 적을때 1대


2

데이터 클때 분산 시스템으로 처리


구조 ?

빅데이터 ------ 샤딩 ---- 워커 여러대가 처리--------- 마스터가 관리



<3> Dataproc ?


Dataproc 은 관리형 Hadoop 이다.

클러스터 생성 한다.


1

하둡은 -> Dataproc으로 마이그래이션 하라.


2

Dataproc 예약 삭제기능도 있다.

Dataproc 자동확장 (autoscaling) 기능도 제공


3

보저 워커 노드는 ? 선점형 VM 사용 가능


선점형 VM 제공 // AWS Spot 인스턴스와 같은 개념. 비용 대폭 절감. 80%절감.

24시간 이후 반납필요.

다른 사용자에게 뺏길수 있다.


4

구글 클라우드에서 데이터처리 스토리지 사용은 클라우드 스토리지로 사용하라

구글은 클라우드 스토리지에 저장하라.

1.3 Pbps 대역폭

링크를 Hdfs -> GS 로 변경만 하면 된다.

// 다른 클라우드와 다른점 !!!

// 다른클라우드는 워커노드 스토리를 사용한다.




<4> Bigquery


1

Peta 규모 처리

서버리스 - 서버는 있으나 서버에 대해 신경쓸 필요가 없다. 구글에서 관리!

데이터 암호화


2

DW 필요시?

Data Lake - 스토리지 , 데이터를 모은다. 많다. 호수와 같다고 해서 Data Lake


데이터 웨어 하우스 DW ---- Bigquery --- 창고, 데이터를 정리 ETL.


데이터 마트 ----- Bigquery-Dataset -- 창고의 물건을 빼서 진열한다. 마트.


3

아키텍처 ?

데이터 --------- Pub/Sub ----- Data Flow (ETL 함) ----- Bigquery


4

빅쿼리 아키텍처 ?


서비스 쿼리 엔진 --------- 저장소

둘사이는 Pbps 대역폭 네트워크로 구성


5

빅쿼리 스토리지를 사용하여 빅쿼리가 처리


구성 1

데이터-----------빅쿼리 스토리지 ------------ 빅쿼리


구성 2

데이터-------------- 빅쿼리 직접 처리 가능


6

빅쿼리 GIS기능으로 지리정보 활용이 가능하다.




<5> 빅쿼리 실습 ?


퀵랩 사용하라.

클라우드 shell 사용 = 작은 가상머신 = 데비안 설치되어 있음



감사합니다.

keyword
매거진의 이전글145.구글 온보드- 머신러닝 기초